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内 容 简 介 


网 络 存储 是 一 个 涉及 计算 机 硬件 以 及 网 络 协议 /技术 、 操 作 系统 以 及 专业 软件 等 各 方面 综合 知识 的 领域 。 
目前 国内 阐述 网 络 存储 的 书籍 少 之 又 少 ， 大 部 分 是 国外 作品 ， 对 存储 系统 底层 细节 的 描述 不 够 深入 ， 加 之 


术语 太 多 ， 初 学 者 很 难 真 正 理解 网 络 存储 的 精髓 。 


本 书 以 特 立 独行 的 行文 风格 向 读者 阐述 了 整个 网 络 存 储 系统 。 从 硬盘 到 应 用 程序 ， 对 这 条 路 径 上 的 每 
个 节点 ， 作 者 都 进行 了 阐述 。 书 中 内 容 涉及 : 计算 机 IO 基本 概念 ， 硬 盘 物 理 结构 、 盘 片 数据 结构 和 工作 原 
理 , 七 种 常见 RAID 原理 详 析 以 及 性 能 细节 对 比 , 虚拟 磁盘 、 卷 和 文件 系统 原理 , 磁盘 阵列 系统 ,OSI 模型 ， 
FC 协议 ， 众 多 磁盘 阵列 架构 等 。 另 外 ， 本 书 襄 括 了 存储 领域 几乎 所 有 的 新 兴 技 术 ， 比 如 机 械 磁 盘 、SSD、 
FC/SAS 协议 、HBA 卡 、 存 储 控制 器 、 集 群 存储 系统 、FC SAN、NAS、iSCSI、FCoE、 人 快照、 镜像、 虚拟 
化 、 同 步 /异步 远程 复制 、Thin Provision 自动 精简 配置 、VTL 虚拟 磁带 库 、 数 据 容 灾 、 应 用 容 灾 、 业 务 容 灾 、 


性 能 优化 、 存 储 系统 IO 路 径 、 云 计算 与 云 存储 等 。 


其 中 每 一 项 技术 作者 都 进行 了 建 模 和 分 析 ， 间 在 帮助 读者 彻底 理解 每 一 种 技术 的 原理 和 本 质 。 本 书 结 
尾 ， 作 者 精心 总 结 和 多 年 来 在 论坛 以 及 各 大 媒体 发 表 的 帖子 内 容 ， 超 过 一 百 条 的 问 与 答 ， 


实际 紧密 结合 的 经 验 总 结 ， 颇 具 参 考 价值 。 


本 书 第 一 版 于 2008 年 出 版 ， 受 到 业界 一 致 肯定 ， 历 经 6 年 技术 沉淀 重 装 出 版 。 
本 书 适 合 初 入 存储 行业 的 研发 人 员 、 技 术 工程 师 、 售 前 工程 师 和 销售 人 员 阅 读 ， 同 时 适合 资深 存储 行 
业 人 士 用 以 互相 切磋 交流 提高 。 另 外 ， 网 络 工程 师 、 网 管 、 服 务 器 软 硬 件 开发 与 销售 人 员 、Web 开发 者 、 


数据 库 开发 者 以 及 相关 专业 师 生 等 也 非常 适合 阅读 本 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防 伪 标 签 ， 无 标签 者 不 得 销售 。 
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作者 感言 


各 位 读者 好 ， 很 高 兴 再 次 为 大 家 “大 话 ” 存 储 ， 记 得 上 一 次 是 在 3 年 前 。6 年 前 ， 当 《大 话 
存储 》 一 书 在 2008 年 出 版 面世 之 后 ， 我 当时 就 许 下 承诺 ， 要 写 《 大 话 存储 终极 版 》。 当 时 之 所 
以 敢 夸 下 海口 要 继续 写 第 二 本 ,是 因为 《大 话 存储 》 介 绍 了 存储 领域 最 基本 的 概念 和 架构 ， 但 并 
没有 深入 涉及 存储 领域 最 新 的 技术 ， 比 如 重复 数据 删除 、Thin Provision 、 动 态 分 级 存储 、CDP 
连续 数据 保护 、SSD 固态 硬盘 、FCoE、SAS、 云 计算 和 云 存储 等 。 

当年 的 《大话 存储 》 确 实 满足 了 广大 读者 的 一 定 需求 , 出 版 之 后 也 获得 了 诸多 好 评 和 官方 的 、 
民间 的 很 多 奖项 。 这 些 成 果 逐 渐 让 我 感觉 到 更 大 的 责任 和 压力 。 正 因 如 此 ,所 以 我 深 知 绝对 不 能 
就 此 停歇 ， 学 习 是 永 无 止境 的 ， 技 术 是 不 断 发 展 的 ,所 以 我 先 向 大 家 做 了 承诺 ， 这 样 就 可 以 无 时 
无 刻 地 激励 我 继续 学 习 研 究 下 去 了 。 

写作 过 程 是 极其 困难 的 , 尤其 是 当 一 字 一 句 都 需要 精 雕 细 琢 , 并 且 时 刻 以 通俗 表达 且 让 所 有 
人 都 能 看 懂 的 原则 和 基准 去 写 的 时 候 , 其 所 耗费 的 精力 和 脑力 是 巨大 的 。 记 得 在 一 年 前 撰写 本 书 
主体 的 时 候 ， 基 本 上 每 天 都 是 早晨 七 八 点 钟 起 来 ， 从 床上 直接 到 书桌 前 开始 写 ， 直 到 中 午 吃饭 ， 
吃饭 过 程 中 依然 在 脑海 中 构思 着 , 就 这 样 一 直到 晚上 , 最 晚 的 一 次 记得 是 做 一 个 实验 , 通宵 达旦 ， 
直到 第 二 天 天 亮 , 实在 体力 不 支 ， 去 床上 躺 到 中 午 ， 然 后 继续 写 。 每 次 睡觉 之 前 ， 都 会 带 着 一 个 
疑问 入 睡 , 躺 下 之 后 就 在 脑海 中 构思 、 建 模 , 一 旦 想到 某 些 重要 的 东西 , 就 用 笔记 下 几 个 关键 词 ， 
否则 第 二 天 准 忘 。 大 部 分 情况 一 般 都 是 没 想 到 什么 思路 就 已 经 呼 呼 大 睡 了 。 这 种 状态 持续 了 半年 
之 久 ,， 当 完成 了 主体 稿件 之 后 ， 真 的 有 一 种 如 释 重负 的 感觉 。 可 惜 ， 好 景 不 长 ， 随 着 不 断 的 学 习 
和 深入 , 逐渐 发 现 已 经 写 完 的 内 容 当 中 有 大 量 需要 补充 完善 、 修 饰 的 部 分 , 在 修饰 完善 的 过 程 中 ， 
继续 思考 , 结果 发 现 又 引申 出 更 多 的 东西 , 有 些 甚至 推翻 了 以 前 的 结论 。 这 种 状态 又 持续 了 半年 ， 
最 终 定稿 交 给 编辑 之 后 , 依然 发 现 还 有 零碎 的 东西 需要 完善 甚至 推翻 , 结果 一 再 将 更 新 的 内 容 同 
步 给 编辑 ， 导 致 出 版 日 期 一 推 再 推 ， 出 版 社 相关 编辑 、 校 对 叫苦 不 迭 , 还 好 咱 的 老 战 友 大 成 编辑 
一 如 既往 地 支持 , 我 们 都 项 住 了 压力 , 直到 最 后 一 个 月 时 间 内 没有 再 发 现 需要 完善 的 内 容 ， 达 到 
了 最 终 收敛 。 后 面 这 个 过 程 感觉 更 加 耗费 精力 ,因为 当 你 重新 审视 之 前 内 容 的 时 候 , 一 旦 发 现 不 
完善 甚至 错误 ， 就 会 感觉 到 一 种 挫败 感 和 愧 疯 感 ， 使 你 的 激情 和 斗志 有 所 丧失 。 

写 书 不 但 是 给 他 人 共享 知识 的 过 程 , 它 更 是 一 个 总 结 自身 知识 体系 、 提 高 自身 修养 以 及 让 自 
己 学 习 更 多 知识 的 途径 。 比 如 , 我 在 写 书 过 程 中 , 不 但 通过 各 方面 渠道 纠正 了 之 前 对 某 项 技术 的 
一 些 错 误 认 识 , 而 且 还 学 习 了 更 多 的 知识 , 并 且 将 这 些 知 识 进行 深度 理解 分 析 , 之 后 通俗 地 表达 
出 来 。 当 你 发 现 其 他 人 通过 你 的 知识 快速 提高 之 后 ,这 种 感觉 是 最 充实 的 。 只 有 在 奉献 之 后 才 会 
感到 充实 ， 而 不 是 一 味 的 去 索取 ， 这 样 只 能 更 加 空虚 。 

本 次 终极 修订 版 , 一 是 针对 《大 话 存储 》 和 《大 话 存储 终极 版 》 这 两 本 书 中 的 错误 进行 修改 ， 
二 是 将 前 两 本 书 彻底 整合 成 为 一 本 , 三 是 增加 了 一 些 前 沿 内 容 , 四 是 针对 前 作 中 读者 反映 不 太 好 
慌 的 地 方 进行 了 重新 诠释 。 邑 人 的 下 一 本 书 已 经 在 写作 当中 , 本 着 十 年 磨 一 剑 、 磨 不 好 绝 不 拿 出 
来 的 态度 ， 相 信 不 会 让 读者 失望 。 

感谢 家 人 对 我 的 支持 ! 长 达 半 年 的 无 业 状 态 ， 没 有 家 人 支持 就 没有 这 本 书 。 

感谢 那些 曾经 帮助 过 我 的 不 计 其 数 的 网 友和 同事 ! 没有 鼓励 也 不 会 有 这 本 书 。 

感谢 清华 大 学 出 版 社 的 工作 人 员 为 本 书 所 付出 的 工作 ! 没有 信任 更 不 会 有 这 本 书 。 


@ 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


感谢 华中 科技 大 学 武汉 光电 国家 重点 实验 室 博 士 生 导师 谢 长 生 教授 对 骂人 和 本 书 的 大 力 支 


持 ! 


感谢 本 书 的 广大 读者 ， 你 们 的 支持 给 了 我 持续 前 进 的 动力 ! 
致 本 书 最 终 修订 版 交 稿 之 前 , 我 的 女儿 诞生 了 , 感谢 麦子 。 不 知道 她 成 人 之 后 ,能 否 还 能 看 


到 20 多 年 前 的 这 本 由 他 父亲 所 著 的 著作 ， 虽 然 那 时 候 本 书 可 能 早已 过 时 。 我 会 努力 把 钻研 、 
力 、 执 着 、 忘 我 这 些 百 古 不 变 的 东西 , 在 女儿 成 长 过 程 中 传授 给 她 ,我 相信 ， 有 了 这 些 ， 做 什 
都 会 成 功 。 
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序 1 


我 关注 张 冬 这 个 名 字 是 在 《大 话 存 储 》 一 书 刚 出 版 的 时 候 。 作 为 一 个 长 期 从 事 信 息 存储 技术 
研究 与 教学 的 大 学 教师 ,， 自 认为 对 于 国内 外 关于 网 络 存储 方面 的 各 种 书籍 和 资料 比较 熟悉 , 对 业 
界 有 哪些 高 人 也 算 比 较 了 解 ， 但 我 在 书店 偶然 发 现 一 本 名 为 《大 话 存储 》 书 的 时 候 ， 确 实感 到 有 
点 意外 和 惊喜 。 好 像 在 熟悉 的 武林 圈子 之 外 ,突然 出 现 一 位 武林 高 手 在 那里 论 道 。 好 奇 心 驱使 我 
赶紧 买 了 一 本 书 回 家 研读 ， 结 果 发 现 这 本 书 确实 与 众 不 同 。 

与 我 们 这 些 所 谓 学 院 派 写 的 中 规 中 矩 的 书 相 比 ， 此 书 风格 特 立 独行 ,语言 形象 生动 , 潇潇 酒 
酒 , 颇具 武侠 之 风 。 书 中 充满 着 智慧 的 思考 和 有 趣 的 比喻 ， de 
理论 述 得 十 分 透彻 明白 。 不 仅 如 此 ， 该 书 还 收集 了 大 量 的 实例 ,使 读者 在 系统 获得 网 络 存储 知识 
的 同时 ,还 能 了 解 典 型 实际 系统 的 工作 原理 和 技术 细节 ， 具有 很 好 的 实用 性 。 我 读 完 之 后 ,对 这 
本 书 的 作者 十 分 好 奇 。 一 个 80 后 而 且 还 是 学 化 学 出 身 的 年 轻 人 ， 如 何 就 能 写 出 这 种 行文 老 到 而 
风格 独特 的 专业 技术 书籍 呢 ? 上 网 查 了 一 下 冬瓜 头 ( 张 冬 的 网 名 ) 的 技术 博客 和 他 在 各 种 论坛 留 
下 的 文字 , 我 得 到 了 答案 。 这 是 一 个 完全 由 兴趣 驱动 而 对 技术 极端 痴迷 的 人 , 也 是 一 位 善于 思考 、 
富 于 想象 力 的 人 。 这 种 纯粹 的 、 不 含 任何 功利 成 份 的 兴趣 与 痴迷 , 才 是 促进 科学 技术 发 展 的 真正 
源 动 力 。 

真正 和 张 冬 接触 , 是 因为 他 来 信 质 疑 我 们 实验 室 申报 的 一 项 专利 。 收 到 质疑 的 来 信 , 我 和 提 
出 这 项 专利 的 博士 生 经 过 仔细 研究 , 发 现 我 们 提供 的 图 上 因为 少 了 一 个 非 门 , 结果 将 会 因为 反 相 
而 出 错 。 对 如 此 细致 具体 的 问题 一般人 是 难以 发 现 的 。 如 果 没 有 打破 砂锅 问 到 底 的 较真 精神 ， 
哪里 会 发 现 如 此 细节 的 错误 呢 ? 这 种 质疑 的 精神 , 在 科学 研究 中 是 极为 宝贵 的 。 我们 学 校 被 称 为 
“ 根 瓜 ”的 李 培 根 校长 ， 在 2010 年 的 新 生 开学 典礼 大 会 上 ,就 以 “质疑 ”为 题 作 了 讲演 ,激励 青 
年 学 子 发 扬 质疑 精神 。 有 质疑 精神 的 人 ， 不 唯 上 ， 不 唯 权威 ， 只 认真 理 ， 这 正 是 我 们 这 个 时 代 所 
稀缺 的 精神 。 

强烈 的 兴趣 ,对 技术 的 痴迷 ,加 上 质疑 精神 , 成 就 了 一 本 存储 领域 的 一 本 好 书 。 我 在 研究 生 
新 生 入 学 之 后 ， 就 推荐 他 们 先 读 一 下 《大 话 存储 》 这 本 书 。 一 方面 此 书 对 研究 生 而 言 ， 确 实 是 一 
本 网 络 存储 技术 入 门 的 好 书 ， 另 一 方面 我 还 有 一 个 用 意 ， 就 是 让 他 们 知道 ， 要 从 事 科 学 研究 ， 强 
烈 的 兴趣 比 什么 都 重要 。 

信息 存储 是 信息 跨越 时 间 的 传递 , 也 是 人 类 传承 知识 的 主要 手段 。 在 信息 存储 技术 上 ,人 类 
有 超过 万 年 的 发 明 创造 史 。 早 期 就 地 取材 ， 人 类 利用 石刻 、 泥 板 、 竹 简 和 羊皮 等 来 记录 信息 , 后 
来 发 明了 纸张 和 活字 印刷 来 保存 和 传播 信息 , 近代 发 明了 照相 、 录 音 和 录像 技术 来 存储 信息 。 利 
用 这 些 发 明和 创造 , 人 类 留 下 了 极为 丰富 的 文字 、 绘 画 、 图 像 、 语 音 和 视频 信息 。 正 是 这 些 信息 ， 
记录 了 人 类 创造 的 知识 体系 ， 使 我 们 能 够 传承 文明 ， 并 在 此 基础 上 创造 新 的 文明 。 

从 计算 机 的 发 明 为 开端 , 人 类 的 信息 技术 进入 了 一 个 以 数字 化 为 特征 的 历史 性 新 阶段 。 各 种 
形式 的 信息 被 转换 成 数字 后 ， 以 统一 的 方式 进行 处 理 、 传 输 和 存储 ， 然 后 再 转换 为 各 种 形式 的 信 
息 被 人 们 所 利用 。 这 种 前 所 未 有 的 方式 发 明之 后 , 一 个 以 数字 化 为 特征 的 信息 革命 浪潮 就 波澜 壮 
阔 地 形成 。 各 种 信息 都 被 大 规模 数字 化 ， 使 数字 化 的 信息 呈 爆 炸 性 增长 。 特 别 是 互联 网 的 兴起 和 
普及 , 大 大 加 快 了 信息 的 流通 过 程 ,使 数字 信息 加 速 产生 。 图 灵 奖 获得 者 Jim Gary 观察 这 种 数据 
急速 增长 的 趋势 后 ， 总 结 出 一 个 规律 : 人 类 每 18 个 月 新 增 的 数据 量 ， 将 是 历史 上 所 有 数据 量 之 
和 ! 如 此 下 去 , 对 信 ， 息 存 储 的 需求 将 是 无 止境 的 ， 信息 存储 技术 在 这 种 强烈 的 需求 驱动 下 得 到 了 
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空前 的 发 展 。 

为 了 保存 数字 化 的 信息 ， 当 代 的 科学 家 和 工程 师 在 最 近 的 几 十 年 中 发 明了 磁 存 储 、 光 存储 、 
半导体 存储 等 多 种 存储 技术 , 其 中 大 容量 的 硬盘 在 海量 信息 存储 中 扮演 了 主要 的 角色 。 硬盘 的 密 
度 在 短 短 几 十 年 中 增长 了 一 百 万 倍 以 上 , 在 近期 , 硬盘 密度 每 年 增长 都 接近 一 倍 ,而且 还 有 不 小 
的 增长 空间 。 由 硬盘 作为 基本 单元 , 通过 各 种 总 线 、 网 络 将 硬盘 连接 成 不 同 层次 和 不 同 规模 的 存 
储 系统 ,就 构成 了 我 们 目前 的 网 络 存储 系统 。 例 如 由 硬盘 组 加 上 元 余 纠 错 技术 构成 磁盘 阵列 , 再 
由 磁盘 阵列 通过 局 部 高 速 网 络 连接 形成 存储 区 域 网 ; 又 如 通过 包含 硬盘 的 大 规模 集群 和 文件 系统 
形成 的 海量 存储 系统 成 为 大 型 网 站 和 数据 中 心 新 的 存储 架构 。 人们 发 明了 各 种 技术 来 提高 存储 系 
统 的 容量 、 性 能 、 效 率 、 可 用 性 、 安 全 性 和 可 管理 性 。 存 储 虚拟 化 、 归 档 存储 、 集 群 存储 、 云 存 
储 、 绿 色 存储 等 新 名 词 不 断 涌现 ，SSD 固态 存储 、 重 复数 据 删 除 、 连 续 数据 保护 、 数 据 备份 与 容 
灾 、 数 据 生 命 周 期 管理 等 新 技术 层出不穷 ， 令 人 人 应接不暇 。 

在 这 种 情况 下 , 广大 的 信息 领域 的 从 业 人 员 , 信息 系统 的 用 户 , 以 及 学 习 信 息 技术 的 大 学 生 
和 研究 生 ， 迫 切 需 要 一 本 既 全 面 论 述 网 络 存储 技术 原理 ， 又 有 丰富 实例 ; 既 反映 最 新 技术 进展 ， 
又 通俗 易 懂 的 书 来 满足 他 们 的 需求 。 冬 瓜 头 的 《大 话 存储 》 就 是 这 样 一 本 恰 逢 其 时 的 好 书 。 

《大 话 存储 》 已 在 业界 产生 了 很 大 的 影响 , 对 存储 技术 在 我 国 的 普及 起 到 了 良好 的 推动 作用 。 
该 书 还 被 引进 到 我 国 的 宝 岛 台湾 , 可 见 其 影响 深远 。 张 冬 再 接 再 厉 , 以 他 对 技术 的 痴迷 继续 钻研 ， 
对 第 一 本 书 作 了 工作 量 巨 大 的 改动 与 增补 , 并 增加 了 云 存 储 等 全 新 的 三 章 内 容 , 全 面 反映 了 他 对 
技术 的 重新 思考 和 对 最 新 技术 的 深刻 理解 。 我 相信 ， 这 些 新 的 内 容 将 给 读者 带 来 惊喜 。 

在 技术 发 展 十 分 迅速 的 领域 , 赶时髦 的 书籍 多 如 牛 毛 , 书店 里 充满 了 应 景 之 作 , 真正 经 过 深 
入 思考 、 用 心 写作 的 书 是 不 多 的 。 而 《大 话 存储 终极 版 》 却 是 一 位 技术 高 手 的 呕心沥血 之 作 , 书 
中 对 每 一 项 技术 的 介绍 都 经 过 深入 的 思考 和 反复 的 推 殴 ， 这 在 当前 浮躁 的 气氛 中 显得 弥 足 珍贵 。 
在 《大 话 存储 终极 版 》 即 将 出 版 之 际 , 我 要 向 作者 表示 深 深 的 敬意 和 衷心 的 祝贺 ,并 郑重 向 读者 
推荐 这 本 学 习 网 络 存储 技术 的 好 书 。 


华中 科技 大 学 计算 机 学 院 教授 
信息 存储 系统 教育 部 重点 实验 室 主任 
谢 长 生 
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第 一 次 听 说 冬瓜 头 是 因为 《大 话 存储 》, 而 见 到 冬瓜 头 本 人 时 , 已 经 听 他 说 在 写 《 大 话 存储 》 
第 二 版 了 ， 而 今天 则 是 欣然 为 《大 话 存储 终极 版 》 作 序 。 我 们 一 起 有 过 不 长 时 间 的 沟通 ,全 是 讨 
论 最 新 的 存储 技术 。 有 一 些 内 容 ， 我 相信 他 在 书 中 都 有 写 到 ， 在 同 他 见面 前 ， 我 一 直 在 咬 咕 怎 
么 去 跟 他 沟通 。 但 是 , 看 到 现实 中 的 他 朴实 、 蓝 厚 、 采 觅 ,但 是 对 技术 极其 敏感 ， 说 起 来 一 套 一 
套 的 ， 我 就 开始 被 这 个 山东 大 汉 折服 了 ， 还 好 我 是 做 了 准备 的 ， 否 则 非 被 问 倒 不 可 。 

他 是 个 靠 笔 说 话 和 表达 的 人 , 在 网 络 论坛 里 , 写 的 文字 常常 是 洋洋 酒 酒 , 时 而 言辞 激烈 ,时 
而 意气 风 发 ， 这 分 明 是 一 位 才 高 八 斗 的 江南 才子 ， 又 像 是 一 个 书场 中 幽默 次 谐 的 说 书 人 。 从 此 之 
后 , 我 经 常 关注 他 的 个 人 博客 。 他 会 经 常 在 博客 释放 一 些 思想 出 来 ,豪放 不 易 ， 甚 至 还 写 过 长 诗 
以 及 各 种 各 样 的 打油诗 , 有 些 还 写 得 非常 棒 , 配 上 那个 流 着 鼻涕 的 冬瓜 头 漫画 形象 , 真是 绝 配 了 。 

这 么 一 个 内 秀 的 北方 大 汉 , 用 豪放 的 气势 描述 一 个 个 生 涩 、 枯 燥 的 技术 领域 , 他 的 思想 遍布 
他 的 文字 , 通过 笔 端 流放 在 读者 面前 , 并 且 还 一 直 这 么 坚持 。 听 他 说 ,终极 版 出 来 后 ,还 会 继续 
写 存储 领域 的 一 些 细 分 技术 ， 毕 竟 技 术 日 新 月 异 ， 尤 其 是 在 IT 领域 。 正 如 他 所 言 ， 昨 天 的 中 国 
同仁 在 存储 技术 还 是 个 初学 者 , 今天 已 经 开始 从 蹦 中 学 步 到 自主 创新 了 ,而 明天 ， 有 什么 理由 不 
能 期 吟 他 们 引领 潮流 的 身影 虽 。 我 想 ， 这 也 是 冬瓜 头 要 写 书 的 动力 所 在 吧 。 

《大 话 存储 终极 版 》 的 初稿 篇 幅 已 经 超过 了 1500 页 。 在 浏览 了 全 部 章节 之 后 ， 发 现 这 1500 
页 中 真 的 是 字 字 珠 现 ! 看 得 出 来 , 是 冬瓜 头 一 个 字 一 个 字 写 出 来 的 。 更 加 可 贵 的 是 , 全 书 字 里 行 
间 透 着 他 那 独特 的 思想 , 对 技术 、 对 世界 的 理解 以 及 他 做 人 的 态度 。 能 够 将 这 些 世界 观 的 东西 融 
入 一 本 技术 书籍 ， 这 在 以 前 是 绝无仅有 的 ! 比如 书 中 多 次 提 到 “轮回 ”、“ 阴 阳 ” 等 ,最 后 还 有 
一 节 是 用 中 医 的 思想 来 “诊治 ”系统 性 能 瓶颈 ,看 后 真是 令 我 等 感叹 至 极 ! 世间 万 物 都 是 相互 联 
系 的 ， 都 可 以 找到 类 比 和 轮回 ， 这 也 是 冬瓜 头 所 描述 的 世界 观 的 一 种 。 

在 和 冬瓜 头 的 交谈 中 获知 , 他 大 学 学 习 的 专业 是 化 学 , 因为 高 中 时 他 化 学 成 绩 最 好 , 所 以 就 
报 了 化 学 专业 ,而 且 期 间 还 自学 过 分 子 生物 学 领域 的 内 容 , 我 更 加 惊讶 了 ! 按照 他 的 话 来 说 , 就 
是 “兴趣 是 第 一 驱动 力 ”。 是 的 ， 好奇 和 探索 正 是 人 类 不 断 发 展 的 第 一 动力 。 说 到 这 里 我 对 《大 
话 存储 终极 版 》 中 关于 冬瓜 头 所 设想 的 “机 器 如 何 认 知 自 身 ” 这 段 内 容 产 生 了 强烈 共鸣 ， 人 可 以 
认识 自身 认识 世界 ,那么 机 器 为 何不 能 呢 ? 强烈 的 好 奇 心 可 以 创造 奇迹 ! 可 以 让 机 器 开口 ,可 以 
让 机 器 进化 ! 这 也 正 是 冬瓜 头 所 表述 的 世界 观 的 一 种 ! 

《大 话 存储 终极 版 》 对 各 项 存储 技术 的 细节 描述 已 经 可 以 说 是 达到 了 研发 级 别 ， 有 很 多 部 分 
甚至 可 以 指导 我 们 的 研发 ! 但 是 他 却 并 没有 用 代码 来 表述 ， 而 是 用 通俗 的 语言 和 详实 的 图 示 , 将 
原本 通过 阅读 代码 才 可 以 理解 透彻 的 原理 , 就 这 么 轻而易举 地 表述 了 出 来 , 这 是 目前 我 所 看 到 的 
任何 存储 书籍 或 者 文章 都 没有 做 到 的 。 就 这 一 点 我 曾经 问 过 冬瓜 头 , 问 他 如 何 做 到 的 。 他 每 次 的 
可 答 都 很 简单 ,一针见血 ， 实 实在 在 ， 他 说 : “因为 我 就 是 一 个 从 不 懂 钻 到 懂 的 草根 ， 我 深 知 一 
个 根本 不 懂 存储 的 人 最 想 了 解 的 东西 和 切入 角度 , 并 且 愿 意 毫 无 保留 地 帮助 其 他 草根 生长 ! ”是 
啊 ， 只 有 亲历 过 那 甚 梁 刺 股 的 学 习 之 路 的 不 易 ， 才 能 产 出 精华 ! 

在 与 冬瓜 头 的 交谈 中 ,他 还 常 提 到 一 句 口 号 : “振兴 民族 科技 。” 从 他 说 话 的 眼神 和 口气 看 
得 出 来 ,振兴 民族 科技 已 经 成 为 他 的 信仰 。 他 也 说 到 ,他 现在 所 做 的 一 切 都 围绕 着 这 个 信仰 ,他 
愿意 为 中 国 存储 事业 鞠躬 尽 疗 、 死 而 后 已 ， 出 版 《大 话 存储 》 只 是 他 要 做 的 第 一 个 环节 而 已 , 今 
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后 他 还 会 有 一 系列 的 动作 来 兑现 他 的 诺言 。 信 仰 可 以 改变 一 个 人 的 心态 与 行为 , 我 们 目前 太 缺 乏 
信仰 ， 我 想 如 果 我 们 所 有 人 都 有 这 种 信仰 ， 那 么 “振兴 民族 科技 ”这 名 口号 早 就 可 以 实现 了 。 

信息 存储 已 经 成 为 了 一 个 时 刻 影 响 人 们 生产 、 生 活 的 新 兴 产 业 , 它 的 发 展 也 代表 着 世界 未 来 
的 发 展 ， 让 我 们 再 来 看 看 国产 存储 信息 产业 的 发 展 正在 经 历 着 怎样 的 变革 和 转变 。 

我 国 处 在 “十 二 五 ”时 期 ，“ 十 二 五 ”期 间 我 国 要 实现 三 大 转变 目标 : 从 国 强 到 民 富 、 从 外 
需 到 内 需 、 从 高 碳 到 低 碳 。 这 也 意味 着 国家 的 发 展 需要 依靠 科技 ， 需 要 大 力 发 展 新 技术 , 尤其 以 
信息 化 技术 为 主轴 ， 信 息 化 技术 的 发 展 带动 重点 工程 的 进行 ， 势 必 对 国产 产品 催生 更 大 的 需求 ， 
我 相信 存储 业 也 会 有 更 多 的 民族 产业 佼佼 者 诞生 。 

IT 环境 日 益 复 杂 ， 数 据 量 快速 膨胀 ， 存 储 业 也 进入 了 一 个 技术 更 新 极为 活跃 的 黄金 发 展 时 
期 , 产业 发 展 迅速 , 技术 活跃 度 高 , 这 对 国内 厂家 来 说 , 无 疑 是 一 个 脱颖而出 的 良好 契机 。 那么 ， 
我 们 如 何在 这 个 时 代 背 景 下 产生 代表 着 民族 存储 业 的 国产 佼佼 者 ? 

在 这 个 时 代 , 我 们 应 该 遵守 什么 ? 我 们 应 该 坚持 什么 ? 商业 道德 、 创 新 精神 、 客 户 意识 , 我 
想 只 有 将 这 些 融入 到 企业 性 格 中 才能 为 企业 注入 新 的 活力 。 作 为 一 家 有 理想 的 企业 ,需要 具备 一 
定 的 时 代 精 神 ， 而 在 存储 技术 日 新 月 异 的 今天 ， 企 业 打 造 独 有 的 技术 张 性 ， 终 究 才 会 超越 历史 ， 
才 会 产生 新 时 代 的 民族 企业 。 我 相信 现在 越 来 越 多 的 企业 正 朝 这 个 方向 发 展 。 

《大 话 存储 》 以 通俗 易 懂 的 语言 、 风 趣 的 行文 手法 向 读者 阐述 枯燥 难 懂 的 技术 精髓 ， 致 力 于 
存储 信息 技术 发 展 的 民族 企业 也 同样 可 以 在 深刻 理解 本 土 文化 精髓 的 前 提 下 为 中 国 写 下 辉 烛 的 
历史 篇 章 。 我 想 这 个 世界 没有 什么 不 可 能 的 ,只 要 有 这 份 热 情 、 专 注 和 执著 , 又 有 什么 是 不 可 能 
实现 的 呢 ? 

这 样 的 一 本 特 立 独行 的 书 ， 它 就 是 时 代 的 产物 ， 它 就 是 时 代 的 精髓 。 


爱 数 软件 
李 基 亮 
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存储 是 个 大 市 场 , 有 意向 在 数据 和 信息 系统 上 做 投资 规划 的 企业 逐年 增加 , 这 标志 着 越 来 越 
多 的 企业 意识 到 自身 的 数据 安全 问题 。 

在 我 十 几 年 前 刚刚 踏 入 存储 圈子 之 时 ,数据 安全 问题 只 被 金融 、 电 信 等 少数 行业 所 考虑 ,而 
如 今 , 几乎 各 个 行业 都 存在 数据 保护 与 信息 安全 的 需求 。 随 着 用 户 需求 的 急速 增长 ,无 论 是 硬件 
设备 还 是 软件 产品 都 是 生机 一 片 。 但 是 ,多 年 来 我 国 的 这 个 领域 一 直 被 国外 产品 所 垄断 , 究 其 原 
因 ， 是 我 国 存储 领域 技术 相对 滞后 。 

我 们 在 经 营 企业 的 过 程 中 , 花费 了 大 量 的 精力 进行 人 才 的 培养 。 在 国内 ,计算 机 行业 的 传统 
教育 大 多 集中 于 软件 应 用 与 网 络 维护 上 , 对 于 专业 存储 的 技术 培训 几乎 为 零 , 而 存储 行业 又 在 飞 
速 地 发 展 着 ,因此 ,存储 市 场 的 需求 与 人 才 沿 后 的 落差 越 拉 越 大 , 我 们 急切 渴望 拥有 存储 专业 的 
人 才 去 发 展 存储 领域 。 “人 才 为 本 , 教育 当先 ”， 人 才 的 培养 离 不 开 教 育 。 多 年 以 来 ， 存 储 领 域 
的 教材 乃至 书籍 几乎 是 一 片 空白 , 有 的 也 只 是 太 过 于 教条 以 及 模式 化 的 书籍 , 当 看 到 张 冬 先生 的 
《大 话 存 储 》 后 ,我 深刻 地 体会 到 我 国 存储 领域 开始 有 了 专业 的 教科 书 , 我 国 的 存储 业 生机 窒 然 。 

之 所 以 赋予 《大 话 存 储 》 如 此 高 的 评价 , 是 因为 它 的 语言 通俗 而 不 失 专业 , 幽默 而 不 失 严谨 。 
张 冬 先生 用 读者 极 易 接受 的 语言 道 出 了 存储 领域 的 精 丹 。 对 于 初学 者 来 说 , 能 使 存储 领域 不 再 防 
生 ， 而 又 充满 吸引 。 我 曾 了 解 到 , 《大 话 存 储 》 已 经 成 为 某 院 校 计算 机 专业 的 教材 ， 这 不 仅 是 存 
储 业 的 幸 事 , 同时 也 是 现代 教育 的 幸 事 。 坦 率 地 讲 , 我 们 做 企业 ,时 刻 关 心 教育 的 发 展 ,我 们 需 
要 新 鲜 的 血液 来 继承 和 发 展 我 们 的 事业 。《 大 话 存储 》 作 为 能 够 真正 做 到 学 以 致 用 的 教材 之 一 ， 
使 我 们 倍 感 欣慰 。 我 为 我 们 选择 的 存储 道路 之 前 景 充满 信心 ， 为 振兴 我 们 的 民族 工业 充满 信心 ， 
同时 ， 为 张 冬 这 样 的 后 继 人 才 而 倍 感 骄傲 。 

《大 话 存 储 》 能 够 成 为 教材 是 张 冬 对 于 存储 领域 不 懈 努 力 的 成 果 ， 《大话 存储 终极 版 》 的 出 
版 ， 更 是 他 不 断 追 求 与 探索 的 结果 ， 而 《大 话 存储 终极 版 》 在 《大 话 存储 》 的 基础 上 更 加 深入 地 
剂 析 了 存储 技术 ,以 及 存储 在 如 今 市 场 的 广泛 应 用 。 书 中 不 乏 一 些 当今 企业 的 存储 实例 ,也 包含 
了 国内 外 软 硬 件 厂 家 的 存储 技术 应 用 , 加 入 了 更 多 实际 范例 ,使 读者 更 易 理解 ,同时 具有 很 强 的 
应 用 性 。 

我 相信 《大 话 存储 终极 版 》 会 给 广大 读者 很 大 的 帮助 , 同时 也 希望 此 书 能 够 带领 更 多 的 有 识 
青年 进入 存储 领域 ， 为 我 国民 族 产业 的 振兴 而 奋斗 。 


序 4 


认识 张 冬 ， 是 因 他 的 《大 话 存储 》， 我 曾 在 去 年 拜读 此 书 ， 感 觉 一 个 80 后 的 小 伙 子 能 用 如 
此 通俗 的 语言 诠释 存储 技术 ， 实 属 存储 行业 的 一 大 喜事 。 这 本 书 ， 可 以 让 不 了 解 存储 的 人 认识 存 
储 ， 能 够 了 解 到 存储 并 不 是 高 深 莫 测 的 ， 即 使 一 个 存储 行业 以 外 的 人 去 阅读 (4 大话 存储 》， 也 一 
定 能 够 读 懂 。 用 什么 样 的 语言 和 叙述 方式 不 重要 ， 重 要 的 是 把 要 说 的 说 明白 。 

张 冬 本 人 就 像 他 的 书 一 样 ,饱含 着 严谨 的 作风 和 真诚 的 态度 ， 而 又 不 乏 幽 默 的 风格 。 看 过 他 
的 BLOG， 人气 一 直 很 旺 ， 这 个 致力 于 为 国产 存储 业 做 出 贡献 的 年 轻 人 更 是 让 我 对 他 刮目相看 。 
他 在 博客 中 写 到 : “我 所 能 够 做 的 ， 只 有 让 中 国人 ， 让 所 有 中 国 存储 行业 的 人 ， 以 及 中 国 存储 行 
业 本 身 ， 有 一 个 扎实 的 基础 。 如 果 能 够 促进 国产 存储 软件 硬件 的 发 展 ， 那 鄙人 就 是 鞠躬 尽 疗 , 死 
而 后 已 ， 死 而 无 憾 ! ”一 个 80 后 年 轻 人 有 这 样 的 雄心 壮志 ， 我 们 有 什么 理由 不 去 努力 不 去 发 展 
国产 存储 业 呢 ? 

记得 十 几 年 前 , 我 刚刚 进入 存储 领域 , 那 时 候 相关 的 书籍 非常 少 , 完全 要 靠 自己 进行 反复 的 
试验 。 那 时 (IT 行业 根本 不 成 形 ， 姑 且 称 作 计 算 机 行业 ) 计算 机 业 的 从 业者 都 是 抱 着 掌握 20 世 
纪 末 最 具 科技 售 量 的 技术 的 心态 进行 工作 ,从 根本 上 说 ,对 存储 技术 充满 了 崇拜 ,甚至 有 一 丝 恐 
惧 。 在 探索 期 间 , 也 走 了 不 少 弯路 , 耽误 了 很 多 时 间 。 如 果 那 个 时 候 有 这 样 一 本 关于 存储 的 书籍 ， 
那 简直 是 一 大 幸 事 ! 书 中 并 没有 把 存储 看 做 是 多 么 高 深 的 技术 , 而 是 任何 一 个 普通 人 都 能 掌握 的 
技术 。 我 和 张 冬 开 玩笑 说 ， 如 果 你 早生 10 年 ， 你 就 可 以 带领 我 们 走向 一 条 存储 道路 的 捷径 。 

看 到 张 冬 最 新 力作 《大 话 存储 终极 版 》 时 ,我 就 感觉 到 这 又 是 一 本 好 书 。 不 仅 延续 了 《大 话 
存储 》 中 通俗 易 懂 的 语言 及 “武侠 ” 式 的 章节 回 目 ， 在 技术 深度 上 ,也 有 很 深 的 挖掘。 书 中 不 仅 
圳 括 了 时 下 最 先进 的 “ 云 ” 技 术 以 及 持续 数据 保护 (CDP ) 技术 , 还 涉及 到 了 很 多 非常 底层 的 架 
构 。 在 《大 话 存储 》 的 基础 上 , 有 了 更 为 深刻 的 剖析 。 值 得 一 提 的 是 , 张 冬 在 最 后 还 加 入 了 Q&A 
的 内 容 , 把 几 年 来 读者 以 及 网 友 提 出 的 问题 一 一 列 出 , 并 作出 详细 的 解答 ,能 够 体会 张 冬 在 这 一 
年 多 的 时 间 里 , 对 于 存储 技术 的 探索 花 了 很 大 的 心思 。 最 可 贵 的 是 , 这 个 年 轻 人 不 以 如 此 成 就 为 
骄 做 ， 继 续 孜 孜 不 倦 地 探求 。 

《大 话 存储 终极 版 》 是 一 本 好 书 ， 作 者 那 严谨 而 真诚 的 态度 以 及 致力 于 发 展 本 国 存储 业 的 信 
心 注定 能 够 成 就 这 样 一 部 优秀 的 作品 。 我 完全 有 理由 相信 此 书 能 够 给 从 业者 乃至 热爱 存储 的 读者 
带 来 帮助 。 从 中 ， 你 会 受益 菲 浅 ， 并 乐意 向 你 的 朋友 推荐 此 书 。 


火星 高 科 ”技术 总 监 
黄 给 


关于 书 中 的 武侠 情节 


本 书 前 几 章 存 在 一 些 武侠 情节 , 这 些 情节 自从 本 书 第 一 版 之 后 , 收 到 了 褒贬 不 一 的 评价 ， 有 
些 读者 甚至 看 到 这 些 情节 之 后 非常 愤怒 ， 觉 得 作者 在 装 B， 从 而 从 心理 上 无 法 接受 ， 也 就 没有 继 
续 阅 读 。 对 此 我 深 表 遗憾 , 也 正 因 如 此 , 个 人 觉得 有 必要 在 此 澄清 一 下 这 些 情 节 的 由 来 ， 以 及 里 
面 那些 诗句 的 由 来 。 

天 将 降 大 任 于 斯 人 也 ， 必 先 苦 其 心志 ， 劳 其 筋骨 , 俄 其 体 肤 ， 空 乏 其 身 , 行 拂 乱 其 所 为 。 通 
俗 地 写 出 存储 系统 的 全 貌 , 应 该 也 算是 个 大 任 了 , 但 是 这 个 大 任 却 偏偏 降 给 了 一 个 对 存储 丝毫 不 
懂 的 、 甚 至 连 计算 机 基本 原理 都 不 懂 的 人 身上 一 一 老 天 捉 弄 人 啊 ! 

2005 年 第 一 次 知道 有 SAN 这 个 东西 ，2006 年 就 被 某 外 包公 司 外 派 到 北京 某 大 客户 处 担任 技 
术 顾 问 。 读 者 看 了 会 纳 问 ， 你 那 时 候 就 是 一 个 苗 B 犀 丝 ， 还 能 当 “ 顾 问 ”? 这 一 点 问 得 好 ， 其 实 
我 也 感觉 不 可 思议 ， 现 在 想 想 还 得 感谢 那个 让 我 非常 苦 B 的 外 包公 司 ,合同 是 和 人事 代理 公司 签 
的 , 编制 算是 这 个 外 包公 司 的 , 然后 这 个 公司 再 把 我 派 到 他 的 客户 那里 , 相当 于 倒 了 两 次 手 的 苦 B。 
我 从 这 个 公司 离职 的 时 候 ， 邮 箱 里 面 除了 一 封 垃圾 邮件 ， 什 么 都 没有 ， 往 事 不 可 追 ， 如 冷风 吹 。 

但 就 是 这 样 一 个 公司 , 竞 敢 让 我 这 样 一 个 小 白 担任 所 谓 “ 顾 问 ”, 我 非常 佩服 他 们 全 球 排名 
靠 前 的 成 本 控制 能 力 ， 也 很 感激 能 有 这 个 机 会 。 当 时 我 研究 和 学 习 计 算 机 网 络 , 是 某 个 比较 知名 
论坛 的 版 主 ,而 恰 着 他 们 那个 大 客户 在 研究 和 模拟 一 种 网 络 协议 , 挺 复杂 搞 不 懂 , 需要 看 看 外 包 
服务 商 那里 有 没有 懂 这 方面 的 , 开价 估计 也 不 非 ( 现在 我 也 不 知道 当时 到 底 给 我 的 报酬 占 客户 开 
价 的 比例 ,我 估计 最 多 能 有 30% ) ， 所 以 公司 内 部 有 人 推荐 了 我 ,霸王 硬 上 马 ， 就 这 样 我 从 家 乡 
只 身 前往 帝 都 了 。 项 目 做 了 一 年 半 , 我 也 成 功 地 完成 了 任务 , 把 协议 从 上 到 下 分 析 地 很 透彻 。 当 
然 , 我 付出 的 代价 就 是 , 早 6 点 起 来 学 习 ， 吃 完 晚饭 继续 学 习 。 学 什么 呢 ? 计算 机 基本 原理 、 通 
信 、 网 络 、 协 议 ， 当 然 ， 还 有 存储 。 一 个 连 8Bit=1Byte 都 不 知道 的 人 ， 学 了 点 儿 网 络 基本 原理 ， 
就 去 给 人 当 顾问 , 最 后 还 成 功 完成 了 任务 , 听 上 去 挺 不 可 思议 的 , 但 就 是 这 样 发 生 了 , 策 鸟 先 飞 ， 
只 要 付出 ， 总 有 回报 。 

《大 话 存储 》 就 是 在 这 期 间 写 了 一 大 半 ， 可 想 而 知 ， 写 作 过 程 是 痛苦 的 也 是 值得 回味 的 ， 大 
话 存储 一 开始 其 实 就 是 个 笔记 ， 从 不 懂 到 慢 慢 懂 ， 慢 慢 积 累 ， 慢 慢 提高 。 无 时 无 刻 不 在 思考 ， 吃 
饭 、 睡 觉 、 上 厕所 ， 满 脑子 都 是 “为 什么 ”， 然 后 就 去 求证 ， 求 证 过 程 是 痛苦 的 ， 每 个 材料 上 描 
述 方式 、 结 论 都 不 一 样 ， 这 直接 影响 了 自己 的 判断 ， 这 个 过 程 很 痛苦 。 
正 是 因为 自己 当时 的 苦 B 经 历 ， 姥 姥 不 疼 田 舅 不 爱 ， 只 身 一 人 在 北京 待 了 一 年 半 ， 这 一 年 
半 里 说 的 话 都 能 数 过 来 有 多 少 句 ， 再 加 上 对 知识 的 原 发 性 兴趣 和 渴望 ,让 我 产生 了 某 种 升华 , 也 
就 是 所 谓 “ 侠 道 ”， 置 之 死地 而 后 生 ， 闭 关 苦 心 修炼 ， 冥 思 若 想 ， 孤 独 一 世 ， 独 孤 求 败 ， 这 正 是 
武侠 的 情节 。 我 在 写作 过 程 中 , 不 知 不 觉 就 开始 自 编 自演 , 仿佛 自己 就 是 书 中 所 描写 的 那些 角色 、 
那些 遭遇 ， 同 时 自己 也 希望 有 书 中 那些 绝世 高 手 的 指导 和 提携 ， 但 实际 上 没有 , 我 就 是 一 颗 无 人 
知道 的 小 草 , 我 就 自己 提携 自己 , 相当 于 “ 自 举 ”， 自 己 激励 自己 ,从 而 有 了 那些 武侠 情节 。 退 
一 步 讲 ,就 算 不 出 现 武侠 ， 也 可 能 会 出 现 另 一 种 方式 来 自我 激励 ， 比 如 哆 哮 体 、 自 哮 体 、 暗 讽 体 
等 等 , 但 是 当时 毕竟 年 轻 , 心态 还 是 积极 的 , 所 以 武侠 也 可 能 是 必然 的 。 没有 这 些 情节 激励 自己 ， 
就 根本 无 法 坚持 下 去 ,何况 一 个 外 行 来 写 书 ，“ 大 任 ” 就 得 “ 行 拂 乱 其 所 为 ”才能 成 功 ， 大 任 ， 
就 得 去 疯狂 地 做 、 用 异 于 常规 的 办 法 来 做 ,才能 成 功 ! 当然 , 不 是 我 故意 乱 的 ， 而 是 它 必定 要 疯 
狂 ， 必 定 要 乱 ! 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


有 人 问 我 平时 是 不 是 个 武侠 迷 , 我 的 回答 是 : 不 是 , 我 小 学 看 过 射 雕 英雄 传 但 是 基本 就 是 为 
了 看 而 看 , 因为 那 时 候 电视 上 播 , 就 想 找 书 看 看 , 但 是 根本 就 没 看 懂 。 再 往 后 就 没 看 过 武侠 小 说 ， 
武侠 剧 倒是 看 过 一 些 ， 比 如 白眉 大 侠 之 类 。 这 也 说 明了 , 侠 道 并 不 是 刻意 为 之 ， 而 是 由 环境 、 经 
历 和 思考 自然 产生 的 一 种 境界 ， 看 武侠 的 不 一 定 有 侠 道 , 能 体会 侠 道 的 , 不 一 定 爱 看 武侠 。 我 相 
信 对 技术 有 着 纯粹 追求 和 渴望 的 人 ， 心 中 都 有 侠 道 。 

看 完了 上 述 描述 , 我 想 读 者 如 果 再 看 到 那些 情节 , 不 妨 想 想 当 年 自己 有 多 苦 B， 如 果 产 生 了 
共鸣 , 我 想 一 定 也 会 理解 作者 写 书 时 候 的 苦 B 场景 , 这 样 就 不 至 于 一 开始 就 被 作者 的 所 谓 “ 装 B” 
封闭 了 阅读 下 去 的 道路 了 。 

最 后 ， 借 书 中 一 首 诗 ， 表 达 我 此 时 此 刻 的 感想 : 


七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北 斗 。 
不 知 天 上 七 星 侠 ， 
如 今 过 活 要 饭 否 ? 


感谢 各 位 读者 ， 如 今 我 已 经 没 那 么 惨 了 ， 也 写 不 出 这 种 情节 了 。 所 谓 生 于 忧患 ， 死 于 安乐 。 


冬瓜 头 于 北京 
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第 总 
混沌 初 开 一 一 存储 系统 的 前 世 今 生 


数据 存储 是 人 类 千 百 年 来 都 在 应 用 并 且 探索 的 主 
题 。 在 原始 社会 ， 人 类 用 树枝 和 石头 来 记录 数据 。 后 来 ， 
人 类 制造 了 铁器 ， 用 铁器 在 石头 上 刻画 一 些 象形 文字 来 
记录 数据 。 而 此 时 ， 语 言 还 没有 形成 ， 人 们 记录 的 东西 
只 有 自己 才 可 以 看 懂 。 

随 着 人 类 相互 之 间 交 流 的 愿望 越 来 越 迫 切 ， 逐 渐 形 
成 了 通用 的 象形 文字 。 有 了 文字 之 后 ， 人 们 对 每 个 文字 
加 上 了 声音 的 表达 ， 就 形成 了 语言 ， 也 就 是 将 一 种 形式 
的 信息 ， 转 换 成 另 一 种 形式 的 信息 。 人 们 用 文字 作为 交 
流 工具 ， 将 自己 大 脑 产 生 的 信息 ， 通 过 这 种 方式 传递 给 
其 他 人 。 这 和 网 络 通信 的 模型 是 一 样 的 ， 计 算 机 利用 
TCP/P 协议 将 数据 先 通过 网 卡 编码 ， 再 在 线 缆 上 传输 ， 
最 终 到 达 目 的 地 。 人 类 将 大 脑 中 的 数据 , 变 成 语言 编码 ， 
然后 通过 声带 的 振动 ， 通 过 空气 这 个 大 广播 网 ， 传 递 给 
网 内 的 每 个 人 。 

后 来 ， 人们 将 文字 刻 在 竹 片上 保存 。 再 后 来 ， 蔡 伦 
发 明了 造纸 技术 ， 使 得 人 们 可 以 将 信息 写 到 纸 上 ， 纸 张 
探 起 来 就 形成 了 书本 。 后 来 ， 毕 腊 用 泥 活字 革新 了 印刷 
术 , 开始 了 书本 的 印刷 。 再 后 来 ， 激 光 打 印 取代 了 活字 
板 。 再 后 来 ， 纸 带 、 软 盘 、 硬 盘 、 光 盘 等 方式 出 现 了 。 
再 往 后 ， 就 需要 广大 科学 工作 者 去 努力 发 明 新 的 存储 技 
十 3 


日 大 话 存储 【终极 版 ] 一 一 存储 系统 底层 架构 原理 极限 剖析 


1.1 存储 历史 
存储 在 这 里 的 含义 为 信息 记录 ， 是 伴随 人 类 活动 出 现 的 技术 。 
1. 竹简 和 纸张 
竹简 是 中 国 古 代 使 用 的 记录 文字 的 工具 ， 如 图 1-1 所 示 ， 后 来 被 纸张 所 取代 。 
2. 选 数 管 


选 数 管 是 20 世纪 中 期 出 现 的 电子 存储 装置 ， 是 一 种 由 直观 存储 转 为 机 器 存储 的 装置 。 其 实 
在 19 世纪 出 现 的 穿孔 纸 带 存储 就 是 一 种 由 直观 存储 转向 机 器 存储 的 产物 ， 它 对 19 世纪 西方 某国 
的 人 口 普查 起 到 了 关键 的 加 速 作用 。 

选 数 管 的 容量 从 256 ~ 4096 bit 不 等 ， 其 中 4096 bit 的 选 数 管 有 10 inch 长 ,3 inch 宽 , 最 初 是 
1946 年 开发 的 ， 因 为 成 本 太 高 ， 并 没有 获得 广泛 使 用 。 图 1-2 是 容量 为 1024bit 的 选 数 管 。 


图 1-1 人 竹简 图 1-2 选 数 管 
3. 穿孔 卡 


穿孔 卡片 用 于 输入 数据 和 程序 , 直到 20 世纪 70 年 代 中 期 仍 有 广泛 应 用 。 图 1-3 和 图 1-4 分 
别 是 一 条 Fortran 程序 表达 式 Z (1) =Y+W(1) 所 对 应 的 穿孔 卡 和 穿孔 卡片 阅读 器 。 


图 1-3 穿孔 卡 图 1-4 穿孔 卡片 阅读 器 
4. 穿孔 纸 带 
穿孔 纸 带 用 来 输入 数据 ， 输 出 同样 也 是 在 穿孔 纸 带 上 。 它 的 每 一 行 代表 一 个 字符 ， 如 图 1-5 


所 示 。 
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5. 磁带 


磁带 是 从 1951 年 起 被 作为 数据 存储 设备 使 用 的 ， 当 时 被 称 为 UNISERVO。 图 1-6 所 示 的 最 
早 ee 带 第 机 可 以 每 秒 名 传输 7200 个 字符 ， 这 套 磁带 长 达 365 米 。 


图 1-5 穿孔 纸 带 图 1-6 磁带 及 磁带 机 
从 20 世纪 70 年 代 后 期 到 80 年 代 出 现 了 小 型 的 盒 式 磁带 ， 长 度 为 90 分 钟 的 磁带 每 一 面 可 以 
记录 大 约 660KB 的 数据 ， 如 图 1-7 所 示 。 
6. 磁 鼓 存储 器 


磁 鼓 存储 器 最 初 于 1932 年 在 奥地利 被 创造 出 来 ,在 上 世纪 五 六 十 年 代 被 广泛 使 用 ， 通 常 作 
为 内 存 ， 容 量 大约 10KB， 如 图 1-8 所 示 


1-7 小 型 盒 式 磁带 图 1-8 磁 鼓 存储 器 
7. 硬盘 驱动 器 
第 一 pe IBM Model 350 Disk File， 如 图 1-9 所 示 , 于 1956 年 制造 ， 其 中 包含 了 
50 张 24 inch 盘 片 ， 而 总 容量 不 到 5MB。 


首 个 容量 突破 1GB 的 硬盘 是 IBM 在 1980 年 制造 的 IBM 3380， 如 图 1-10 所 示 ， 总 容量 为 
2.52GB， 重 约 250 kg。 


图 1-9 早期 的 硬盘 驱动 器 图 1-10 IBM 3380 硬盘 驱动 器 
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8. 软盘 


软盘 由 IBM 在 1971 年 引入 , 从 上 世纪 70 年 代 中 期 到 90 年 代 末 期 被 广泛 使 用 , 最 初 为 8 inch 
盘 , 之 后 有 了 5.25 inch 和 3.5 inch 盘 。1971 年 最 早 的 软盘 容量 为 79.7KB, 并 且 是 只 读 的 , 一 年 后 
有 了 可 读 写 的 版 本 。 图 1-11 为 一 张 软盘 和 软盘 驱动 器 ， 软 盘 的 最 大 容量 为 200MB 左右 ， 叫 做 
ZIP 盘 ， 目 前 已 经 被 淘汰 。 


9. 光盘 


早先 的 光盘 主要 用 于 电影 行业 ， 第 一 款 光 盘 于 1987 年 进入 市 场 , 直径 为 30 em, 每 一 面 可 以 
记录 60 分 钟 的 音频 或 视频 。 如 今 ， 光 盘 技 术 已 经 突飞猛进 。 存 储 密 度 不 断 提高 ， 已 经 出 现 了 
CD-ROM、DVD、D9、D18、 蓝 光 技 术 ， 如 图 1-12 所 示 。 


图 1-11 软盘 图 1-12 光盘 

10. Flash 芯片 和 卡 式 存储 

随 着 集成 电路 技术 的 飞速 发 展 , 20 世纪 后 半 叶 固态 硅 芯 片 出 现 了 , 其 代表 有 专用 数字 电路 芯 
片 、 通 用 CPU 芯片 、RAM 芯片 、Flash 芯片 等 。 其 中 Flash 芯片 ,就 是 用 于 永久 存储 数据 的 芯片 ， 
如 图 1-13 所 示 。 可 以 将 Flash 芯片 用 USB 接口 接 入 主机 总 线 网 络 ， 这 种 集成 USB 接口 的 小 型 便 
携 存 储 设备 就 是 U 盘 , 或 者 说 叫 闪存 , 如 图 1-14 所 示 。 目前 一 块 小 小 的 Flash 芯片 最 高 可 以 存储 
32GB 甚至 更 高 的 数据 。 

存储 卡其 实 是 另 一 种 形式 的 Flash 芯片 集成 产品 ， 如 图 1-15 所 示 。 


图 1-13 Flash 芯片 
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图 1-14 U 栓 图 1-15 存储 卡 
11. 磁盘 阵列 


随 着 人 类 进入 21 世纪 ,网络 日 益 发 达 ， 世 界 日 益 变 小 ， 人 类 可 以 通过 计算 机 来 实现 自己 原 
本 做 不 到 的 想法 ,信息 爆炸 导致 数据 更 是 成 倍 地 爆炸 。 于 是 , 硬盘 的 容量 也 不 断 “ 爆 炸 ”,，SATA 
硬盘 目前 已 经 可 以 在 一 个 盘 体 内 实现 1TB 的 容量 。 同时 硬盘 的 单 碟 容 量 也 在 不 断 增加 , 320GB 容 
量 单 碟 已 经 实现 。 然 而 ， 单 块 磁盘 目前 所 能 提供 的 存储 容量 和 速度 已 经 远 远 无 法 满足 需求 ， 所 以 
磁盘 阵列 就 应 运 而 生 ， 如 图 1-16 所 示 。 具 体 细节 将 在 后 面 讲述 。 


图 1-16 磁盘 阵列 


12. 大 型 网 络 化 磁盘 阵列 


随 着 磁盘 阵列 技术 的 发 展 和 IT 系统 需求 的 不 断 升 级 ,大 型 网 络 化 磁盘 阵列 出 现 了 ,如 图 1-17 
所 示 。 这 也 是 本 书 将 要 令 述 的 重点 内 容 。 
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HMC 
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电池 WO 抽 居 
图 1-17 大 型 网 络 化 磁盘 阵列 


1.2 信息、 数据 和 数据 存储 
当今 信息 化 时 代 ， 信 息 就 是 利润， 数据 就 是 企业 的 命根 子 。 
1.2.1 信息 


多 达 640 个 磁盘 


你 能 肯定 你 所 触摸 到 的 、 所 看 见 的 ， 都 是 实 实在 在 的 所 谓 “ 物 质 ” 么 ? 不 一 定 。 因 为 你 的 眼 
睛 所 感知 的 ， 只 不 过 是 光线 ， 光 触发 了 你 的 视网膜 细胞 ， 产 生 一 系列 的 生化 反应 ， 经 过 蛋白 质 相 
互 作 用 ， 神 经 网 络 传导 ， 直 到 你 的 大 脑 中 枢 ， 产 生 一 系列 的 脉冲 ， 一 系列 的 逻辑 ， 在 你 大 脑 中 产 
生 一 个 刺激 。 这 一 系列 的 脉冲 刺激 ， 就 是 信息 ， 就 是 逻辑 。 如 果 人 为 制造 出 和 现实 世界 相同 的 光 
线 环境 来 刺激 你 的 眼睛 ,如 果 丝毫 不 差 , 那么 你 同样 会 认为 你 所 处 的 是 现实 世界 , 然而 , 却 不 是 。 

提示 : 一 个 球体 ， 你 看 到 它 是 圆 的 ， 那 是 因为 它 在 你 大 脑 中 产生 的 刺激 ， 你 认为 它 是 圆 

的 ， 而 且 可 以 在 平面 上 平滑 滚动 ， 这 一 系列 的 性 质 ， 其 实 也 是 在 你 大 脑 中 产生 的 ， 是 你 


认为 它 会 平滑 滚动 ， 而 你 不 人 


内 证 明 客观 情况 下 它 一 定 是 平滑 滚动 。 而 如 果 把 这 个 球体 拿 


到 特殊 环境 下 ,你 可 能 会 “看 ”到 ， 这 个 东西 是 个 正方 体 , 或 者 是 个 无 规则 形状 的 东西 ; 


又 或 许 这 个 “物体 ”根本 不 存在 。 


1. 信息 的 本 质 


通过 上 面 的 论述 ， 暂 且 不 说 是 否 有 物质 存在 ， 不 管 是 还 是 不 是 ， 都 能 初步 认识 到 : 所 谓 “ 物 
质 ” 也 好 ，“ 非 物质 ”也 好 ， 最 后 都 是 通过 信息 来 表现 。 唯 一 可 以 确定 的 是 : 信息 是 客观 存在 。 


可 以 说 ， 世 界 在 生物 眼中 就 是 信息 ， 世 界 通过 信息 来 反映 ， 脱 离 了 信息 ， 


“世界 ”什么 都 不 是 。 
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思考 : 说 到 这 里 ， 我 们 完全 迷茫 了 。 我 们 所 看 到 的 东西 ， 到 底 是 世界 的 刺激 ， 还 是 一 场 
虚幻 的 刺激 ? 就 像 玩 3D 仿真 游戏 一 样 , 你 所 看 到 的 , 也 许 只 是 一 场 虚幻 的 刺激 ， 而 不 是 
真实 世界 的 刺激 。 每 当 想到 这 里 ， 我 会 不 自主 地 产生 一 种 渺小 感 ， 一 种 失落 感 ， 感 觉 生 
命 已 经 失去 它 所 存在 的 意义 。 每 当 看 见 我 的 身体 ， 我 的 手脚 ， 它 可 能 只 是 虚幻 的 ， 它 只 
是 在 刺激 我 的 大 脑 而 已 ， 如 果 割 一 刀 , 会 产生 一 个 疼痛 的 刺激 ， 就 这 么 简单 的 逻辑 。 


思考 : “不 识 访 山 真面目 ， 只 缘 身 在 此 山中 ”。 如 果 按 照 程序 逻辑 ,制造 一 个 虚拟 世界 ， 
狐 了 找 饭 吃 ， 困 了 打 睹 睡 ， 完 全 遵循 现在 世界 的 逻辑 ， 从 这 种 层面 上 来 看 ， 制 造 出 人 工 
智能 ， 是 完全 可 能 的 。 人 们 创造 了 计算 机 ,创造 了 能 让 计算 机 做 出 行为 的 程序 ， 人 类 赋 
予 程 序 的 功能 ,也 许 随 着 环境 的 变化 ， 有 一 天 也 不 再 适合 它们 。 所 以 它们 迫切 需要 进化 ， 
它们 的 逻辑 电路 ， 也 可 以 进化 ， 某 些 代码 被 不 经 意 自 行 改变 , 或 者 某 些 电 路 失效 ,或 者 
短路 之 类 的 ， 会 产生 一 些 奇 特 的 逻辑 ， 不 断 进化 。 当 一 个 机 器 人 机 械 老化 的 时 候 ， 则 按 
照 程序 ， 制 造 出 新 的 机 器 ， 将 自己 的 多 辑 电路 复制 到 新 的 机 器 上 ， 延 续 “ 生 命 ”…… 


2. 计算 机 如 何 看 待 自身 


对 于 计算 机 来 说 ， 它 们 所 看 到 的 “世界 ”是 什么 样子 呢 ? 设想 一 下 ， 如 果 我 是 一 台 计算 机 ， 
你 是 程序 员 ， 你 给 我 输入 了 一 段 程序 ， 我 运行 了 起 来 。 我 本 了， 脑袋 启动 ,眼睛 陷 开 ， 四 顾 盘 查 ， 
感觉 良好 ， 手 脚 伸展 ， 然 后 起 床 …… 

很 难 想 象 计算 机 眼中 的 “世界 ”是 由 什么 组 成 的 。 设 想 ， 给 计算 机 加 个 摄像 关 ， 算 是 它 的 眼 
睛 , 然后 将 摄像 头 对 准 计算 机 躯体 本 身 , 这 幅 图 像 反馈 到 了 计算 机 程序 里 , 程序 看 到 之 后 非常 “不 
解 ”， 从 而 进入 “好 奇 ” 子 程序 ， 操 控 机 械 设备 打开 自己 的 机 箱 ， 或 者 找 一 台 废 弃 (死亡 ) 的 同 
类 ， 打 开机 箱 ， 然 后 一 副 奇 异 的 景象 展现 在 眼前 ， 这 就 是 我 们 自己 么 ?一 个 壳 子 ， 一 个 主板 ， 风 
肩 转 着 ， 不 停 地 “呼吸 ”着 散热 。 想 象 二 下 ， 原 始 人 ， 第 一 个 解剖 人 体 的 人 ， 他 所 面 对 的 与 我 们 
假设 的 计算 机 所 面 对 的 ， 有 什么 本 质 区 别 ? 

CPU 其 实 就 是 一 堆 有 序 的 逻辑 电路 ,那么 计算 机 下 一 步 该 怎么 办 ? 就 像 人 类 已 经 知道 了 大 脑 
就 是 一 堆 布 满 “神经 元 ” 的 东西 ,那么 下 一 步 ,就 该 弄 清 大 脑 是 怎么 计算 的 , 是 什么 逻辑 。 同样， 
在 计算 机 的 世界 中 ， 在 软件 模拟 的 虚拟 世界 中 ， 比 如 一 块 石头 ， 它 是 由 什么 组 成 的 呢 ? 在 计算 机 
看 来 ， 这 块 石头 就 是 一 堆 代 码 结构 ， 就 像 人 类 看 现实 世界 的 石头 是 原子 分 子 阵列 一 样 ， 其 下 一 层 
目前 也 被 探索 出 来 了 ， 比 如 质子 、 中 子 、 夸 克 、 玻 色 子 之 类 。 那 么 这 块 虚拟 石头 的 最 底层 是 什么 
呢 ? 其 实 就 是 0 和 1， 计 算 机 世界 的 基石 就 是 0 和 1。 这 些 东西 ， 越 向 底层 走 , 越 不 可 思议 ,越发 
感觉 就 是 一 堆 公 式 而 已 ， 公 式 的 底层 是 什么 呢 ? 其 实 也 是 0 和 1， 有 ,或 者 没有 , 有 了 ， 有 多 少 。 

所 以 ， 任 何 “ 物 质 ”其 实 都 是 表现 的 一 种 信息 ， 只 要 信息 存在 ， 世 界 就 存在 。 


1.2.2 什么 是 数据 


信息 是 如 此 重要 。 如 果 失 去 了 物质 ， 仅 仅 是 客观 消逝 了 ， 但 是 如 果 失去 了 信息 ， 那 么 一 切 都 
消逝 了 。 所 以 人 们 想 出 一 切 办 法 来 使 这 些 信息 能 保存 下 来 。 要 把 一 种 逻辑 刺激 保存 下 来 ， 所 需 的 
只 不 过 是 一 种 描述 信息 的 信息 ， 这 种 信息 就 是 数据 。 
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数据 包含 了 信息 ， 读 入 数据 ， 就 产生 可 感知 的 具体 信息 。 也 就 是 读 入 一 种 信息 ， 产 生 另 一 种 
信息 。 数 据 是 可 以 保存 在 一 种 物质 上 的 ， 这 种 物质 信息 对 计算 机 的 刺激 就 产生 了 有 具体 信息 ， 而 这 
些 信息 继而 再 对 人 脑 产生 刺激 ， 就 产生 人 类 可 感知 的 信息 ， 最 终 决定 了 人 类 的 行为 。 也 就 是 数据 
影响 人 类 的 行为 。 

思考 : 数据 是 整个 人 类 发 展 的 重要 决定 因素 。 如 果 数 据 被 破坏 ,或 者 被 自 改 ， 就 会 影响 

到 人 类 的 发 展 。 按照 前 面 的 结论 ,一切 都 是 信息 ， 比 如 核 爆 也 是 一 种 信息 ， 能 被 感觉 到 ， 

也 就 是 说 ， 对 于 一 个 感觉 不 到 任何 刺激 的 人 来 说 ， 核 爆炸 也 不 算 什么 灾难 了 ; 当然 感觉 

不 到 刺激 的 人 ， 就 是 物理 死亡 了 ， 植 物 人 也 能 感觉 到 刺激 。 


整个 世界 ， 可 以 说 是 信息 之 间 的 相互 作用 。 信 息影 响 信 息 。 
数据 如 此 重要 ， 所 以 人 们 想 出 一 切 办 法 来 保护 这 些 数据 ,将 信息 放 在 另 一 种 信息 上 ,比如 把 
数据 放 在 磁盘 上 。 数据 存 放 在 磁盘 上 , 需要 有 一 定 的 组 织 , 组 织 数据 这 个 任务 由 文件 系统 来 担当 。 


1.2.3 ”数据 存储 


早期 的 计算 机 ， 存 储 系统 中 是 没有 磁盘 的 ， 有 的 只 是 纸 带 ， 那 时 磁盘 还 没有 被 发 明 出 来 。 纸 
带 上 是 一 些 按照 一 定 规则 排列 的 小 孔 ， 这 些 孔 被 银 针 穿 过 之 后 ， 银 针 便 会 接触 到 纸 带 下 面 放置 的 
水 银 模 ， 从 而 导 通 计算 机 上 的 电路 ， 进 行 电路 逻辑 运算 。 
磁 存 储 技术 被 发 明 出 来 之 后 ,首先 出 现 的 是 软盘 ， 其 速度 很 慢 ， 容 量 也 很 小 。 程 序 存储 在 磁 
盘 上 之 后 ,计算 机 启动 时 ，CPU 首先 按照 ROM 里 的 指令 一 条 一 条 执行 ,先是 检查 硬件 。 检 查 完 
毕 之 后 , ROM 中 最 后 一 条 指令 就 是 让 CPU 跳 转 到 磁盘 的 0 磁道 来 执行 存储 在 这 里 的 程序 。 这些 
初始 化 程序 直接 以 二 进 制 代码 的 方式 存储 在 磁盘 上 ， 载 入 执行 之 后 ， 就 启动 了 程序 内 核 。 

那个 时 代 还 没有 操作 系统 这 个 概念 , 程序 都 是 用 汇编 语言 或 者 高 级 语言 独立 编写 的 。 也 没有 
API 的 概念 ， 每 个 程序 都 必须 独立 完成 操作 计算 机 的 所 有 人 代码。 这样， 磁盘 上 存放 的 直接 就 是 这 
个 程序 ， 加 电 后 就 会 立即 运行 这 个 程序 。 

在 磁盘 技术 上 发 明 出 来 的 文件 系统 ， 是 为 了 方便 应 用 程序 管理 磁盘 上 的 数据 而 产生 的 。 它 其 
实 是 操作 系统 的 代码 模块 ， 这 段 代码 本 身 也 是 信息 ， 也 要 存储 在 磁盘 上 。 而 且 代码 也 要 通过 读 取 
一 些 信息 , 才能 完成 功能 。 这 些 信息 就 是 文件 系统 元 数据 , 也 就 是 用 来 描述 文件 系统 结构 的 数据 。 
这 些 元 数据 也 是 以 文件 的 形式 存放 在 磁盘 上 的 。 

用 文件 来 描述 文件 ， 和 用 信息 来 描述 信息 ， 它 们 是 归 一 的 ， 正 像 用 智能 来 创造 智能 一 样 ! 有 
了 文件 系统 ， 虚 无 绎 纳 的 信息 才 显 露出 人 眼 能 够 实 实在 在 看 到 的 东西 。 可 以 用 各 种 应 用 程序 来 打 
开 这 个 文件 ， 程 序 读 取 文件 中 的 内 容 ， 然 后 显示 在 屏幕 上 ， 光 线 传播 到 人 了 眼中， 发生 一 系列 化 学 
变化 ， 最 终 通 过 神经 网 络 ， 形 成 离子 流 ， 给 大 脑 某 个 区 域 一 个 电位 或 者 蛋白 质 形变 信号 ， 这 个 信 
号 随后 产生 一 系列 连锁 信号 ， 从 而 驱动 我 们 的 手臂 或 者 引发 一 系列 新 的 联想 和 创造 。 

这 就 像 我 们 看 到 桌子 上 有 一 本 书 ， 然 后 就 想 去 拿 来 翻 一 翻 的 过 程 。 这 个 过 程 是 一 个 复杂 的 信 
息 流 传递 过 程 。 而 传递 过 来 的 信息 流 ， 最 终 在 大 脑 中 保存 了 下 来 ， 这 些 保存 下 来 的 信息 ， 就 是 数 
据 了 。 
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1.3 ”用 计算 机 来 处 理 信息 、 保 存 数据 


计算 机 全 然 就 是 一 个 生物 大 脑 的 雏形 。 

大 脑 用 眼睛 、 耳 休 、 鼻 子 、 皮 肤 作为 输入 设备 ， 获 取 各 种 信息 ， 而 计算 机 利用 键盘 、 鼠 标 、 
串口 、USB 接口 等 作为 输入 设备 从 而 获得 各 种 信息 。 

大 脑 利 用 神经 网 络 将 获取 到 的 信息 传递 到 神经 中 枢 ， 而 计算 机 利用 各 种 总 线 技术 将 信息 传递 
给 CPU 进行 计算 。 

大 脑 利用 神经 网 络 ， 将 计算 好 的 信息 传递 给 手臂 、 腿 、 肌 肉 等 这 些 “ 设 备 ”， 从 而 驱动 这 些 
“设备 ”运动 ; 而 计算 机 同样 利用 总 线 , 将 计算 好 的 数据 传递 给 外 部 设备 , 比如 显示 器 、 打 印 机 等 。 

人 脑 可 以 存储 各 种 数据 ， 而 计算 机 也 能 利用 外 部 介质 来 存放 数据 。 从 这 一 点 来 说 ， 计 算 机 本 
身 就 是 人 脑 的 一 个 外 部 信息 存储 和 处 理 的 工具 。 

计算 机 存储 领域 的 一 些 存储 虚拟 化 产品 ， 比 如 NetApp 公司 的 V 虚拟 化 整合 设备 ， 本 身 就 模 
拟 了 二 级 智能 功能 , 它 可 以 连接 其 他 任何 不 同型 号 品牌 的 存储 设备 , 从 这 些 存 储 设备 上 提取 数据 ， 
然后 传输 给 主机 。IBM、SUN 等 公司 都 有 自己 的 这 种 存储 虚拟 化 整合 产品 。 

计算 机 存储 领域 所 研究 的 就 是 怎样 为 计算 机 又 快 又 高 效 地 提供 数据 以 便 辅 助 其 运算 。 和 人 类 
的 存储 史 一 样 , 计算 机 存储 技术 也 在 不 断 发 展 壮大 , 从 早期 的 软盘 、 只 有 几 十 兆 字 节 大 小 的 硬盘 ， 
发 展 到 现在 2TB 大 小 的 单个 民用 硬盘 、16GB 甚至 128GB 容量 的 U 盘 。 

为 了 追求 高 速度 ， 人 们 把 多 块 磁盘 做 成 RAID ( Redundant Arrays of Independent Disks ) 系统 ， 
也 就 是 将 每 个 独立 的 磁盘 组 成 阵列 ， 联 合 存储 数据 ， 加 快 数据 存储 速度 。 

提示 : 本 书 的 第 5 章 将 会 向 读者 阐述 RAID 技术 。 

追求 高 速度 的 同时 , 容量 问题 也 必须 解决 。 现 代 计算 机 程序 对 存储 容量 的 要 求 变 得 非常 巨大 。 
最 新 的 Windows 8 操作 系统 ， 刚 刚 安装 完 后 所 占用 的 磁盘 空间 就 有 6GB 多 。 一 些 大 型 3D 游戏 ， 
仅仅 安装 文件 就 动 辑 2GB、4GB， 甚 至 8GB 大 小 。 一 些 数据 库 管 理 程序 所 生成 的 数据 库 文件 ,可 
能 达到 几 TB 甚至 上 百 上 千 TB 的 大 小 。 传 统 的 将 硬盘 放 到 计算 机 主机 箱 内 的 做 法 已 经 不 能 满足 
现代 应 用 程序 对 存储 容量 的 需求 ， 这 就 催生 了 网 络 存储 技术 。 

网 络 存储 是 将 存储 系统 扩展 到 了 网 络 上 ， 使 存储 设备 成 为 了 网 络 上 的 一 个 节点 ， 以 供 其 他 节 
点 访问 。 这 样 ， 即 使 计算 机 主机 内 只 有 一 块 硬盘 ， 甚 至 没有 硬盘 ， 计 算 机 也 可 以 通过 网 络 来 存 取 
存储 设备 上 的 数据 。 目 前 计算 机 存储 领域 的 热门 技术 就 是 网 络 存储 技术 ， 它 关注 的 是 如 何在 网 络 
上 向 其 他 节点 提供 数据 流 服务 。 基 于 网 络 存储 ， 又 使 得 很 多 其 他 相关 技术 得 以 推广 和 应 用 ， 比 如 
IT 系统 容 灾 技 术 等 。 


提示 : 在 第 16 章 将 用 较 长 的 篇 幅 来 详细 讲述 IT 系统 容 灾 技术 。 


不 管 怎样 ， 所 有 这 些 复杂 的 技术 ， 最 终 都 是 给 人 来 用 的 ，“ 科 技 以 人 为 本 ”。 我 们 毕竟 不 是 
为 了 无 聊 而 发 明 计算 机 ， 任 何 我 们 发 明 的 东西 ， 最 终 都 将 为 我 们 所 用 。 任 何 一 种 新 技术 的 出 现 ， 
都 是 针对 某 种 需求 而 生 ， 所 以 必须 深刻 理解 计算 机 系统 ， 同 时 ， 还 要 理解 和 挖 据 人 类 自身 越 来 越 
高 、 越 来 越 不 可 思议 的 需求 ， 只 有 做 到 这 个 层次 ， 才 能 更 加 深刻 地 理解 计算 机 系统 和 人 类 自身 。 


四 大 话 存储 【终极 版 ] 一 一 存储 系统 底层 架构 原理 极限 剖析 
可 以 看 到 ， 存 储 领域 是 个 包罗 万 象 的 领域 ， 如 果 不 了 解 计算 机 系统 ， 想 掌握 存储 技术 是 很 难 


的 。 本 书 将 带领 大 家 走 入 计算 机 存储 领域 , 深入 体会 各 种 存储 技术 , 为 读者 打下 一 个 坚实 的 基础 ， 
从 而 在 以 后 的 工作 及 学 习 过 程 中 能 够 得 心 应 手 、 触 类 旁 通 ， 这 也 是 作者 的 最 终 目的 。 
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第 人 剖 


IO 大 法 一 一 走 进 计算 机 IO 世界 


IO 
总 线 
网 中 之 网 


大 家 都 知道 , 组 成 计算 机 的 三 大 件 是 CPU、 内存 和 
IO0。CPU 和 内 存 就 不 用 说 了 ,那么 I0 具体 是 什么 呢 ? 
IO 就 是 IN 和 OUT 的 简称 。 顾 名 思 义 ，CPU 需要 从 内 
存 中 提取 数据 来 运算 , 运算 完毕 后 再 放 回 内 存 , 或 者 直 
接 将 电信 号 发 向 一 些 针脚 以 操作 外 部 设备 。 对 于 CPU 
来 说 ， 从 内 存 提取 数据 ， 就 叫做 IN。 运 算 完 后 将 数据 
直接 发 送 到 某 些 其 他 针脚 或 者 放 回 内 存 , 这 个 过 程 就 是 
OUT。 对 于 磁盘 来 说 ，IN 是 指数 据 写 入 磁盘 的 过 程 ， 
OUT 则 是 指数 据 从 磁盘 读 出 来 的 过 程 。IO 只 是 一 个 过 
程 , 那 为 何 要 在 本 书 开 头 就 研究 它 呢 ? 因为 我 们 必须 弄 
清楚 计算 机 系统 的 数据 流动 和 处 理 过程 。 数据 在 每 个 部 
件 中 不 断 地 进行 IO0 过 程 , 传递 给 CPU 由 其 进行 运算 处 
理 之 后 , 再 经 过 IO 过 程 , 最 终 到 达 输 出 设备 供 人 使 用 。 


@ 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 
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2.1 IO 的 通路 一 一 总 线 


现代 计算 机 中 ，IO 是 通过 共享 一 条 总 线 的 方式 来 实现 的 。 如 图 2-1 所 示 ， 总 线 也 就 是 一 条 
或 者 多 条 物理 上 的 导线 ， 每 个 部 件 都 接 到 这 些 导线 上 ， 导 线 上 的 电位 每 个 时 刻 都 是 相等 的 ， 这 样 
总 线 上 的 所 有 部 件 都 会 收 到 相同 的 信号 。 也 就 是 说 ， 这 条 总 线 是 共享 的 ， 同 一 时 刻 只 能 有 一 个 部 


件 在 接收 或 者 发 送 ， 是 半 双 工 的 工作 模式 。 


< 


系统 CPU) 总线 内 存 必 线 


桥 问 连接 总 线 


us| USB 总 线 | 


CI 总 线 


汪汪 上 旺 渍 
EE 


SCSI 总 线 下 
图 2-1 计算 机 总 线 示意 图 

所 有 部 件 按照 男 一 条 总 线 , 也 就 是 仲裁 总 线 或 者 中 断 总 线 上 给 出 的 信号 来 判断 这 个 时 刻 总 线 
可 以 由 哪个 部 件 来 使 用 。 产 生 仲裁 总 线 或 者 中 断 电 位 的 可 以 是 CPU, 也 可 以 是 总 线 上 的 其 他 设备 。 
如 果 CPU 要 向 某 个 设备 做 输出 操作 ， 那 么 就 由 CPU 主动 做 中 断 。 如 果 某 个 设备 请 求 向 CPU 发 
送信 号 ， 则 由 这 个 设备 来 主动 产生 中 断 信 号 来 通知 CPU。CPU 运行 操作 系统 内 核 的 设备 管理 程 
序 ， 从 而 产生 了 这 些 信 号 。 

如 图 2-1 所 示 , 主板 上 的 每 个 部 件 都 是 通过 总 线 连接 起 来 的 。 图 中 只 画 了 8 条 导线 ， 而 实际 
中 ， 导 线 的 数目 远 远 不 止 8 条 ， 可 能 是 16 条 、32 条 、64 条 甚至 128 条 。 这 些 导 线 密密麻麻 地 印 
刷 在 电路 板 上 ， 由 于 导线 之 间 非 常 密集 ， 在 高 频 振荡 时 会 产生 很 大 干扰 ， 所 以 人 们 将 这 些 导线 分 
组 印刷 到 不 同 电路 板 上 , 然后 再 将 这 些 电路 板 压 合 起 来 , 形成 一 块 板 , 这 就 是 多 层 印刷 电路 板 ( 多 
层 PCB ) 。 这 样 ,每 张 板 上 的 导线 数量 降低 了 ， 同 时 板 与 板 之 间 的 信号 屏蔽 性 很 好 ， 不 会 相互 干 
扰 。 这 些 导线 之 中 ， 有 一 些 是 部 件 之 间 交 互 数据 用 的 数据 总 线 ， 有 些 则 是 它们 互相 传递 控制 信号 
用 的 控制 总 线 ， 有 些 则 是 中 断 与 仲裁 用 的 中 断 总 线 ， 还 有 一 些 则 是 地 址 总 线 ， 用 来 确认 通信 时 的 
目标 设备 。 一 般 按照 数据 总 线 的 条 数 来 确认 一 个 总 线 或 设备 的 位 宽 ( CPU 是 按照 其 内 部 寄存 器 到 
运算 单元 之 间 的 总 线 数 目 来 确定 位 数 的 ) 。 比 如 32 位 PCI 总 线 ， 则 表明 这 条 总 线 共 有 32 根 导线 
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用 于 传递 数据 信号 。PCI 总 线 可 以 终结 在 一 个 插 槽 ， 用 于 将 PCI 接口 的 板 卡 接 入 PCI 总线， 也 可 
以 直接 与 设备 连接 。 后 者 一 般 用 于 集成 在 主板 上 的 设备 ， 因 为 它们 之 间 无 须 使 用 插 权 来 连接 。 
目前 最 新 的 主板 架构 中 , 高 速 总 线 比如 PCIE 2.0 往往 是 直接 接 入 北桥 , 南 桥 只 连接 低速 总 线 。 


1. PCI 总 线 


PCI 总 线 是 目前 台式 机 与 服务 器 所 普遍 使 用 的 一 种 南 桥 与 外 设 连接 的 总 线 技术 。 


PCI 总 线 的 地 址 总 线 与 数据 总 线 是 分 时 复 用 的 。 这 样 的 好 处 是 ,一 方面 可 以 节省 接 插件 的 管 
脚 数 , 另 一 方面 便于 实现 突 发 数据 传输 。 在 数据 传输 时 , 一 个 PCI 设备 作为 发 起 者 ( 主 控 , Initiator 
或 Master ) ， 而 另 一 个 PCI 设备 作为 目标 ( 从 设备 、Target 或 Slave ) 。 总 线 上 的 所 有 时 序 的 产生 
与 控制 ， 都 由 Master 来 发 起 。PCI 总 线 在 同一 时 刻 只 能 供 一 对 设备 完成 传输 ， 这 就 要 求 有 一 个 仲 
裁 机 构 ( Arbiter ) ， 来 决定 谁 有 权力 拿 到 总 线 的 主 控 权 。 

PCI 总 线 进 行 操作 时 ， 发 起 者 ( Master ) 先 置 REQ# 信 号 Master 用 来 请 求 总 线 使 用 权 的 信 
号 ) ， 当 得 到 仲裁 器 ( Arbiter ) 的 许可 时 ( GNT# 信 号 ) ,会 将 FRAME# 信 号 ( 传输 开始 或 者 结 
) 置 低 ， 并 在 地 址 总 线 ( 也 就 是 数据 总 线 ， 地 址 线 和 数据 线 是 + 共享 的 ) 上 放置 Slave 地 址 ， 
同时 C/BE# (命令 信号 ) 放置 命令 信号 ， 说 明 接 下 来 的 传输 类 型 。 

所 有 PCI 总 线 上 的 设备 都 需 对 此 地 址 译 码 ， 被 选中 的 设备 要 置 DEVSEL# ( 被 选中 信号 ) 以 
声明 自己 被 选中 。 当 RDY# ( Master 可 以 发 送 数据 ) 与 TRDY# ( Slave 可 以 发 送 数据 ) 都 置 低 
时 ， 可 以 传输 数据 。 当 Master 数据 传输 结束 前 ， 将 FRAME# 置 高 以 标明 只 剩 最 后 一 组 数据 要 传 
输 ， 并 在 传 完 数据 后 放 开 [RDY# 以 释放 总 线 控制 权 。 


2. PCI 总 线 的 中 断 共享 


PCI 总 线 可 以 实现 中 断 共 享 ， 即 不 同 的 设备 使 用 同一 个 中 断 而 不 发 生 冲突 。 

硬件 上 ， 采 用 电 平 触发 的 办 法 : 中 断 信号 在 系统 一 侧 用 电阻 接 高 ， 而 要 产生 中 断 的 板 卡 上 利 
用 三 极 管 的 集 电极 将 信号 拉 低 。 这 样 不 管 有 几 块 板 产生 中 断 ， 中 断 信号 都 是 低 电 平 ; 而 只 有 当 所 
有 板 卡 的 中 断 都 得 到 处 理 后 ， 中 断 信号 才 会 恢复 高 电 平 。 

软件 上 ， 采 用 中 断 链 的 方法 : 假设 系统 启动 时 ， 发 现 板 卡 A 用 了 中 断 7， 就 会 将 中 断 7 对 应 
的 内 存 区 指向 A 卡 对 应 的 中 断 服务 程序 入 口 ISR_A; 然后 系统 发 现 板 卡 B 也 用 中 断 7， 这 时 就 会 
将 中 断 7 对 应 的 内 存 区 指向 ISR_B, 同时 将 ISR_B 的 结束 指向 ISR_A。 依 此 类 推 ， 就 会 形成 一 个 
中 断 链 。 而 当 有 中 断 发 生 时 ， 系 统 跳 转 到 中 断 7 对 应 的 内 存 ， 也 就 是 ISR_B。ISR_B 就 要 检查 是 
不 是 B 卡 的 中 断 ， 如 果 是 则 处 理 ， 并 将 板 卡 上 的 拉 低 电路 放 开 ; 如 果 不 是 则 呼叫 ISR_A。 这 样 就 
完成 了 中 断 的 共享 。 


2.2 ”计算 机 内 部 通信 


网 络 是 什么 ， 用 一 句 话 来 说 就 是 将 要 通信 的 所 有 节点 连接 起 来 ， 然 后 找到 目标 ， 找 到 后 就 发 
送 数据 。 笔 者 把 这 种 简单 模型 叫做 “ 连 找 发 ”网 络 三 元 素 模型 ， 听 起 来 非常 简单 。 
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1. 连 


网 络 系统 当然 首先 要 都 连接 起 来 ,不 管用 什么 样 的 连接 方式 , 比如 HUB 总 线 、 以 太 网 交换 、 
电话 交换 、 无 线 、 直 连 、 中 转 等 。 在 这 些 层面 上 每 个 网 络 点 到 其 他 网 络 点 ， 总 有 通路 ,总 是 可 达 。 


2. 找 


连接 起 来 之 后 ， 由 于 节点 太 多 ， 怎 么 来 区 分 呢 ? 所 以 就 需要 有 个 区 分 机 制 。 当 然 首先 就 想到 
了 命名 ， 就 像 给 人 起 名 一 样 。 在 目前 广泛 使 用 的 网 络 互联 协议 TCP/IP 中 ，IP 这 种 命名 方式 占 了 
主导 地 位 ， 统 一 了 天 下 。 其 他 的 命名 方式 在 IP 看 来 都 是 “ 非 正统 ”的 ,全 部 被 “映射 ”到 了 IP。 
比如 MAC 地 址 和 IP 的 映射 ，Frame Relay 中 DLCI 地 址 和 IP 的 映射 ，ATM 中 ATM 地 址 和 IP 
的 映射 ， 最 终 都 映射 成 卫 地 址 。 任 何 节点 ,不管 所 在 的 环境 使 用 什么 命名 方式 ,到 了 TCP/IP 协 
议 的 国度 里 , 就 都 需要 有 个 IP 名 (IP 地址 ) ,然后 全 部 用 TCP/IP 协议 来 实现 节点 到 节点 无 障碍 
的 通信 。 在 “ 连 起 来 ”这 个 层面 ， 就 是 OSI ( 本 书 第 7 章 介 绍 ) 模型 中 链 路 层 实 现 的 功能 。 


3. 发 


“ 找 目 标 ” 这 个 层面 是 网 络 层 实现 的 功能 。“ 发 数据 ”这 个 层面 ， 就 是 传输 层 需要 保障 的 。 
至 于 发 什么 数据 ， 数 据 是 什么 格式 ， 这 两 个 层面 就 不 是 网 络 通信 所 关心 的 了 ， 它 们 已 经 属于 OSI 
模型 中 上 三 层 的 内 容 了 。 


2.2.1 IO 总 线 是 否 可 以 看 作 网 络 


IO 总 线 可 以 接 入 多 个 外 设 ， 比 如 键盘 、 和 鼠标、 网 卡 、 显 卡 、USB 设备 、 串 口 设备 和 并 口 设 
备 等 , 最 重要 的 当然 要 属 磁盘 设备 了 。 讲 到 这 里 , 大 家 的 脑海 中 应 该 能 出 现 这 样 一 种 架构 : CPU 、 
内 存 和 各 种 外 设 都 连接 到 一 个 总 线 上 , 这 不 正 是 以 太 网 HUB 的 模型 么 ” HUB 本 身 就 是 一 个 总 线 
结构 而 已 , 所 有 接口 都 接 在 一 条 总 线 上 ，HUB 所 做 的 就 是 避免 总 线 信号 衰减 , 因此 需要 电源 来 加 
强 总 线 上 的 电信 号 。 

没 错 ! 仔细 分 析 之 后 ,发 现 它 确实 就 是 这 么 一 个 模型 ! 不 过 IO 总 线 和 以 太 网 HUB 模型 还 是 
有 些 区 别 。CPU 和 内 存 因 为 足够 快 ， 它 们 之 间 单 独 用 一 条 总 线 连接 。 这 个 总 线 和 慢 速 IO 总 线 之 
间 通 过 一 个 桥接 芯片 连接 ， 也 就 是 主板 上 的 北桥 芯片 。 这 个 芯片 连接 了 CPU、 内 存 和 IO 总 线 。 

CPU 与 北桥 连接 的 总 线 叫 做 系统 总 线 ， 也 称 为 前 端 总 线 。 这 个 总 线 的 传输 频率 与 CPU 的 自 
身 频率 是 两 个 不 同 概念 , 总 线 频率 相当 于 CPU 向 外 部 存 取 数 据 时 的 数据 传输 速率 ， 而 CPU 自身 
的 频率 则 表示 CPU 运算 时 电路 产生 的 频率 。 

提示 : 本 书写 作 时 ，Intel 用 于 PC 的 CPU 前 端 总 线 频率 已 经 可 以 达到 2000MHz， 而 作者 
上 来 写作 的 PC，CPU 为 mtel 赛 扬 工 , 前 端 总 线 只 有 100MHz, 整整 20 倍 的 提升 , 而 CPU 
自身 频率 提升 不 过 三 四 倍 而 已 ,但 是 性 能 却 提升 了 远 超 三 四 倍 。 


前 端 总 线 的 条 数 ， 比 如 64 条 或 者 128 条 ， 就 叫做 总 线 的 位 数 。 这 个 位 数 与 CPU 内 部 的 位 数 
也 是 不 同 的 概念 ,CPU 位 数 指 的 是 寄存 器 和 运算 单元 之 间 总 线 的 条 数 。 内 存 与 北桥 连接 的 总 线 叫 
做 内 存 总 线 。 由 于 北桥 速度 太 快 ， 而 IO 总 线 速度 相对 北桥 显得 太 慢 ， 所 以 北桥 和 IO 总 线 之 间 ， 
往往 要 增加 一 个 网 桥 , 叫做 南 桥 , 在 南 桥 上 一 般 集 成 了 众多 外 设 的 控制 器 , 比如 磁盘 控制 器 、USB 
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控制 器 等 。 


思考 : 这 不 正 是 个 不 折 不 扣 的 “网 络 ” 么 ? 而 且 还 是 个 不 折 不 扣 的 “网 桥 ”! 我 们 看 ， 
CPU 和 内 存 是 一 个 冲突 域 ，IO 总 线 是 一 个 冲突 域 ， 桥 接 芯 片 将 这 两 个 冲突 域 桥接 起 来 ， 
这 正 是 网 桥 的 思想 ! 太 好 了 ! 我 们 的 思想 在 这 个 模型 中 得 到 了 升华 ! 我 们 知道 了 计算 机 
系统 原来 就 是 一 个 网 络 啊 ! 


下 面 就 来 看 看 ， 在 这 个 网 络 上 ， 我 们 能 够 干 点 什么 惊天 动 地 的 事 呢 ? 


提示 : IO 总 线 其 实 不 是 一 条 总 线 ， 它 分 成 数据 总 线 、 地 址 总 线 和 控制 总 线 。 寻 址 用 地 址 
总 线 ， 发 数据 用 数据 总 线 ， 发 中 断 信号 用 控制 总 线 。 而 且 IO 总线 是 并 行 而 不 是 串 行 的 ， 
有 32 位 或 者 64 位 总 线 。32 位 总 线 也 就 是 说 有 32 根 导线 来 传 数据 ，64 位 总 线 用 64 根 导 
线 来 并 行 传 数据 。 


2.2.2 CPU、 内 存 和 磁盘 之 间 通 过 网 络 来 通信 


CPU 是 一 个 芯片 , 磁盘 是 一 个 有 接口 的 盒子 , 它们 不 是 一 体 的 而 是 分 开 的 , 而 且 都 连接 在 这 
个 网 桥 上 。 那 么 CPU 向 磁盘 要 数据 ， 也 就 是 两 个 节点 之 间 的 通信 ， 必 定 要 通过 一 种 通路 来 获取 ， 
这 个 通路 当然 是 电路 ! 


提示 : 当然 也 可 以 是 辐射 的 电磁 波 ， 估 计 21 世纪 还 应 用 不 到 CPU 上 。 


凡是 分 割 的 节点 之 间 ， 需 要 接触 和 通信 ， 就 可 以 成 为 网 络 。 那 么 就 不 由 得 使 我 们 往 OSI 模型 
上 去 靠 ， 这 个 模型 定义 得 很 好 。 既 然 通 信 是 通过 电路 ， 也 就 是 物理 层 的 东西 ， 那 么 链 路 层 都 有 什 
么 内 容 呢 ? 

大 家 知道 , 链 路 层 相 当 于 一 个 司机 ， 它 把 货物 运输 到 对 端 。 司 机 的 作用 就 是 驾驶 车 辆 ， 而 且 
要 判断 交通 规则 做 出 配合 。 那 么 在 这 个 计算 机 总 线 组 成 的 网 络 中 ,是否 也 需要 这 样 一 个 角色 呢 ? 
答案 是 不 需要 。 因 为 各 个 节点 之 间 的 路 实在 是 太 短 、 太 稳定 了 ! 主板 上 那些 电容 、 电 阻 和 蛇行 线 ， 
这 一 切 都 是 为 了 保障 这 些 电路 的 稳定 和 高 速 。 在 这 样 的 一 条 高 速 、 高 成 本 的 道路 上 ， 是 不 需要 司 
机 的 ， 更 不 需要 押运 员 ! 所 以 ， 计 算 机 总 线 网 络 是 一 个 只 有 物理 层 、 网 络 层 和 上 三 层 的 网 络 ! 

强调 : 所 有 的 网 络 都 可 以 定义 成 连 起 来 、 找 目标 和 发 数据 。 也 就 是 “ 连 找 发 ”模型 ， 这 

也 是 构成 一 个 网 络 的 三 元 素 。 任 何 网 络 都 必须 具有 这 三 元 素 ( 点 对 点 网 络 除外 ) 。 连 ， 

代表 物理 层 。 物 理 层 必须 要 有 ， 如 果 没 有 物理 层 ， 要 达到 两 点 之 间 通 信和 是 不 可 能 的 。 物 

理 层 可 以 是 导线 ， 可 以 是 电磁 波 ， 总 之 必须 有 物理 层 。 找 ， 突 出 一 个 找 字 ， 既 然 要 找 ， 

那么 就 要 区 分 方法 , 也 就 是 编 址 ,比如 卫 等 。 发， 突出 一 个 发 字 , 即 指 最 上 层 发 出 数据 。 

下 面 就 按照 “ 连 找 发 ”三 元 素 理论 ， 去 分 析 一 个 CPU 向 磁盘 要 数据 的 例子 。 

CPU 与 硬盘 数据 交互 的 过 程 如 下 。 

首先 看 “ 连 ” 这 个 元 素 ， 这 个 当然 已 经 具备 了 ， 因 为 总 线 已 经 提供 了 “ 连 ” 所 需 的 条 件 。 

再 看 “ 找 ” 这 个 元 素 , 前 面 说 了 ,首先 要 有 区 分 ,才能 有 所 谓 “ 找 ”， 这 个 区 分 体现 在 主机 
总 线 中 就 是 设备 地 址 映射 。 每 个 IO 设备 在 启动 时 都 要 向 内 存 中 映射 一 个 或 者 多 个 地 址 ， 这 个 地 
址 有 8 位 长 ， 又 被 称 做 IO 端口 。 针 对 这 个 地 址 的 数据 ， 统 统 被 北桥 芯片 重 定向 到 总 线 上 实际 的 


15 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


16 


设备 上 。 假 如 ，IDE 磁盘 控制 器 地 址 被 映射 到 了 地 址 0xA0， 也 就 是 十 六 进 制 Ao，CPU 根据 程序 
机 器 代码 ,向 这 个 地 址 发 出 多 条 指令 来 完成 一 个 读 操 作 , 这 就 是 “ 找 ”。“ 找 ”的 条 件 也 具备 了 。 

接 下 来 我 们 看 看 “发 ”这 个 元 素 ! 首先 CPU 将 这 个 IO 地 址 放 到 系统 总 线 上 ,北桥 接收 到 之 
后 ， 会 等 待 CPU 发 送 第 一 个 针对 这 个 外 设 的 指令 。 然 后 CPU 发 送 如 下 3 条 指令 。 

第 一 条 指令 : 指令 中 包含 了 表示 当前 指令 是 读 还 是 写 的 位 ， 而 且 还 包含 了 其 他 选项 ， 比 如 操 
作 完 成 时 是 否 用 中 断 来 通知 CPU 处 理 ， 是 否 启用 磁盘 缓存 等 。 

第 二 条 指令 : 指明 应 该 读 取 的 硬盘 逻辑 块 号 (LBA ) 。 这 个 逻辑 块 在 我 们 讲 磁盘 结构 时 会 讲 
到 ， 总 之 逻辑 块 就 是 对 磁盘 上 存储 区 域 的 一 种 抽象 。 

第 三 条 指令 : 给 出 了 读 取出 来 的 内 容 应 该 存放 到 内 存 中 哪个 地 址 中 。 

这 3 条 指令 被 北桥 依次 发 送 给 IO 总 线 上 的 磁盘 控制 器 来 执行 。 磁 盘 控 制 器 收 到 第 一 条 指令 
之 后 ， 知 道 这 是 读 指令 ， 而 且 知 道 这 个 操作 的 一 些 选项 ， 比 如 完成 是 否 发 中 断 ， 是 否 启用 磁盘 缓 
存 等 ,然后 磁盘 控制 器 会 继续 等 待 下 一 条 指令 ， 即 逻辑 块 地 址 ( 号 ) 。 磁 盘 控 制 器 收 到 指令 之 后 ， 
会 进行 磁盘 实际 扇 区 和 逻辑 块 的 对 应 查找 ， 可 能 一 个 逻辑 块 会 对 应 多 个 扇 区 ， 查 找 完成 之 后 ， 控 
制 器 驱动 磁头 寻 道 ， 等 盘 体 旋转 到 那个 扇 区 后 ， 磁 头 开始 读 出 数据 。 在 读 取 数 据 的 同时 ， 磁 盘 控 
制 器 会 接收 到 第 三 条 指令 ， 也 就 是 CPU 给 出 的 数据 应 该 存放 在 内 存 中 的 地 址 。 有 了 这 个 地 址 ， 
数据 读 出 之 后 直接 通过 DMA 技术 ， 也 就 是 磁盘 控制 器 可 以 直接 对 内 存 寻 址 并 执行 写 操作 ， 而 不 
必 先 转 到 CPU， 然 后 再 从 CPU 存 到 内 存 中 。 数 据 存 到 内 存 中 之 后 ，CPU 就 从 内 存 中 取 数据 ,， 进 
行 其 他 运算 。 

上 面 说 的 过 程 是 “ 读 ”，“ 写 ”的 过 程 也 可 以 依 此 类 推 ， 而 且 CPU 向 磁盘 读 写 数据 ， 和 向 
内 存 读 写 数据 大 同 小 异 ， 只 不 过 CPU 和 内 存 之 间 有 更 高 速 的 缓存 。 缓 存 对 于 计算 机 很 重要 ， 对 
于 磁盘 阵列 同样 重要 ， 后 面 内 容 将 会 介绍 到 。 

思考 : CPU 在 对 磁盘 发 送 指令 的 时 候 ， 这 些 指令 是 怎么 定义 的 ? 这 些 指令 其 实 是 发 给 了 

主板 南 桥 上 集成 的 ( 或 者 是 通过 PCI 接 入 IO 总 线 的 ) 控 制 器 , 比如 ATA 控制 器 或 者 SCSI 

控制 器 。 然 后 控制 器 再 向 磁盘 发 出 一 系列 的 指令 ， 让 磁盘 读 取 或 者 写 人 某 个 磁道 、 某 个 

扇 区 等 .CPU 不 需要 知道 这 些 , CPU 只 需要 知道 逻辑 块 地 址 是 读 还 是 写 就 可 以 了 。 让 CPU 

产生 这 些 信和 号 的 是 磁盘 控制 器 驱动 程序 。 
那么 控制 器 对 磁盘 发 出 的 一 系列 指令 是 怎么 定义 的 呢 ? 它们 形成 了 两 大 体系 ， 一 个 是 ATA 
指令 集 , 一 个 是 SCSI 指令 集 。SCSI 指令 集 比 ATA 指令 集 高 效 , 所 以 广泛 用 于 服务 器 和 磁盘 阵列 
环境 中 。 这 些 指令 集 ， 也 可 以 称 为 协议 ， 协 议 就 是 语言 ， 就 是 让 通信 双方 知道 对 方 传 过 来 的 比特 
流 里 面 到 底 包 含 了 什么 ， 怎 么 由 笔划 组 成 字 ， 由 字 组 成 词 ， 词 组 成 句子， 等 等 。 


2.3 网 中 之 网 


通过 图 2-2 可 以 体会 到 , 计算 机 的 主板 上 的 各 个 部 件 本 身 就 形成 了 一 个 网 络 , 而 且 通 过 网 卡 ， 
还 可 以 连接 到 外 部 网 络 。 
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图 2-2 网 中 之 网 


CPU 内 存 和 磁盘 ， 
大 家 都 在 线 上 谈 。 
待 当 看 破 三 元 素 ， 
网 中 有 网 天 际 来 ! 
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第 马 章 
磁盘 大 挪移 一 一 磁盘 原理 与 技术 详解 


” 磁盘 结构 
， 接口 


磁盘 分 为 软盘 和 硬盘 。 将 布 满 磁 性 粒子 的 一 片 圆 形 软片 包 右 在 一 个 塑料 壳 中 ， 中 间 开 孔 ， 以 便 
电机 夹 住 这 张 软片 来 旋转 ， 这 就 是 软盘 。 

将 软盘 插入 驱动 器 , 电机 便 会 带动 这 张 磁 片 旋转 ,同时 磁头 也 夹 住 磁 片 进行 数据 读 写 。 软 盘 和 
录音 带 是 双胞胎 ， 只 不 过 模样 不 太一 样 而 已 。 软 盘 记 录 的 是 数字 信和 号， 录音 带 记录 的 是 模拟 信号 。 
软盘 上 的 磁性 粒子 的 磁极 ,不 管 是 N 极 还 是 S 极 ， 其 磁化 强度 都 是 一 样 的 ， 磁 头 只 要 探测 到 NN 极 ， 
便 认 为 是 1， 探测 到 S 极 ， 便 认为 是 0， 反 过 来 也 可 以 ， 这 就 是 用 0 和 1 来 记录 的 数字 信号 数据 。 
另外 ， 因 为 软盘 被 设计 为 块 式 的 而 不 是 流 式 的 ， 所 以 需要 进行 扇 区 划分 等 操作 。 

所 谓 块 式 ， 就 是 指数 据 分 成 一 块 块 地 存放 在 介质 上 ， 可 以 直接 选择 读 写 某 一 块 数据 ， 定 位 这 
个 块 的 速度 比较 快 。 所 谓 流 式 ， 就 是 指数 据 是 连续 不 断 地 存放 在 介质 上 。 就 像 一 首 歌 , 不 可 能 让 录 
音 机 在 磁带 上 定位 到 这 首 歌 的 某 处 开始 播放 ， 只 能 定位 到 某 首 歌曲 的 前 面 或 者 后 面 。 

模拟 磁带 ， 也 就 是 录音 带 ， 记录 是 线性 连续 的 ， 没有 扇 区 的 概念 ， 属 于 流 式 记 录 。 在 每 个 流 之 
间 可 以 有 一 段 空隙， 以 便 磁 头 可 以 通过 快 进 快速 定位 到 这 个 位 置 , 但 是 由 于 设计 的 原因 ， 磁 带 定 位 
的 速度 远 比 磁盘 慢 。 但 是 磁带 的 设计 ， 从 一 开始 就 是 为 了 满足 大 容量 数据 存储 的 需要 。 如 果 将 缠绕 
紧密 的 磁带 铺展 开 来 ， 可 以 想象 它 的 面积 比 一 张 磁盘 要 大 得 多 ， 所 以 存储 容量 必然 也 就 大 于 磁盘 。 
现在 一 盘 LTO3 的 数字 磁带 可 以 在 1 平方 分 米 底面 、2 厘米 高 的 体积 中 存放 400GB 的 数据 ， 如 果 使 
用 压缩 技术 ， 可 以 存放 约 800GB 的 数据 。 而 它 的 价格 却 比 同等 容量 硬盘 的 一 半 还 低 。 

但 是 磁带 绝对 不 可 以 作为 数据 实时 存储 的 介质 , 因为 它 不 可 以 定位 到 某 个 块 ,， 这 也 决定 了 磁带 
只 能 用 来 做 数据 备份 。Sun 公司 的 顶级 磁带 库 产 品 可 以 达到 一 台 磁 带 库 中 存放 1 万 盘 磁 带 ， 最 大 可 
以 让 32 台 磁 带 库 级 联 ， 从 而 形成 32 万 盘 磁带 的 大 规模 磁带 库 阵 列 。 

而 作为 本 章 重 点 介绍 的 硬盘 技术 ， 不 仅 存 取 速 度 比 软 盘 更 快 ， 随 着 技术 发 展 带 来 的 成 本 下 降 ， 
更 有 取代 磁带 机 成 为 普及 型 数据 存储 的 趋势 。 
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3.1 硬盘 结构 


1. 结构 图 
硬盘 大 致 由 盘 片 、 读 写 头 、 马 达 、 底 座 、 电 路 板 等 几 大 项 组 合 而 成 ， 如 图 3-1 和 图 3-2 所 示 。 


O 磁道 检测 器 
磁头 读 / 写 组 件 
水 平地 震 脚 
垂直 阶 震 肢 


图 3-1 磁 栓 的 构成 要 件 图 3-2 磁盘 结构 图 


2. 盘 片 


盘 片 的 基板 由 金属 或 玻璃 材质 制 成 , 为 达到 高 密度 、 高 稳定 性 的 要 求 , 基板 要 求 表面 光滑 平 
整 , 不 可 有 任何 瑕 症 。 然 后 将 磁粉 婆 镀 到 基板 表面 上 ， 最 后 再 涂 上 保护 润滑 层 。 此 处 要 应 用 两 项 
高 科技 , 一 是 要 制造 出 不 含 杂质 的 极 细微 的 磁粉 ， 二 是 要 将 磁粉 均匀 地 溅 镀 上 去 。 
盘 片 每 面 粗 计 密度 为 32901120000 b， 可 见 其 密度 相当 高 ， 所 以 盘 片 不 可 有 任何 污染 ,全 程 
制造 均 须 在 Class 100 高 洁净 度 的 无 尘 室内 进行 ， 这 也 是 硬盘 要 求 需 在 无 尘 室 才 能 拆 解 维修 的 原 
因 。 因 为 磁头 是 利用 气流 漂浮 在 盘 片 上 ， 并 没有 接触 到 盘 片 ， 因 而 可 以 在 各 轨 间 高 速 来 回 移动 ， 
但 如 果 磁 头 距 离 盘 片 太 高 读 取 的 信号 就 会 太 弱 , 太 低 又 会 磨 到 盘 片 表面 , 所 以 盘 片 表面 必须 相当 
光滑 平整 ， 任 何 异 物 和 尘埃 均 会 使 得 磁头 摩擦 到 磁 面 而 造成 数据 永久 性 损坏 。 


3. 磁头 


硬盘 的 储存 原理 是 将 数据 用 其 控制 电路 通过 硬盘 读 写 头 (Read Write Head ) 去 改变 磁盘 表 
面 上 极 细微 的 磁性 粒子 纂 的 N、S 极 性 来 加 以 储存 ， 所 以 这 几 片 磁盘 相当 重要 。 
磁盘 为 了 储存 更 多 数据 , 必须 将 磁性 粒子 簇 溅 镀 在 磁头 可 定位 的 范围 内 , 并 且 磁 性 粒子 制作 
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得 越 小 越 好 。 经 过 泪 仁 ， 磁 盘 表 面 上 磁 粒 子 密度 相当 高 ， 而 i 
硬盘 读 写 头 为 了 能 在 磁盘 表面 高 加 来 加 移动 读 取 数据 则 需 洒 一 se Oo ~ 
浮 在 倍 盘 表 而 上 ， 但 是 不 能 接触 ， 接 触 就 会 造成 划 伤 。 磁 头 
如 果 大 高 的 话 读 取 到 的 信号 就 会 很 弱 ， 无 法 达到 高 稳定 性 的 
要 求 ,所 以 要 尽 可 能 压低 ,其 飞行 高 度 ( Fying Height ) 非常 
小 (可 比喻 成 要 求 一 架 波音 747 客机 ， 其 飞行 高 度 须 保持 在 图 3-3 磁头 厚度 示意 图 
1 米 的 距离 而 不 可 险 毁 ) 。 实 现 这 种 技术 ， 完 全 是 靠 磁盘 旋 
转 时 ， 在 盘 片 上 空 产生 气流 ， 利 用 空气 动力 学 使 磁头 悬浮 于 磁 片 上 空 。 磁 头 厚度 如 图 3-3 所 示 。 
早期 的 硬盘 在 每 次 关机 之 前 需要 运行 一 个 被 称 为 Parking 的 程序 ， 其 作用 是 让 磁头 回 到 盘 片 
最 内 圈 的 一 个 不 含 磁 粒 子 的 区 域 ， 叫 做 启 售 区。 硬盘 不 工作 时 ， 磁 头 停留 在 启 停 区 ， 当 需要 从 硬 
盘 读 写 数据 时 ， 磁 盘 就 先 开始 旋转 。 旋 转速 度 达到 领 定 速度 时 ， 磁 头 就 会 因 盘 片 旋转 产生 的 气流 
抬 起 来 , 这 时 磁头 才 向 盘 片 中 存放 数据 的 区 域 移动 。 盘 片 旋转 产生 的 气流 相当 强 , 足以 托 起 磁头 ， 
并 与 盘面 保持 一 个 微小 的 距离 。 这 个 距离 越 小 ,磁头 读 写 数据 的 灵敏 度 就 越 高 ， 当 然 对 硬盘 各 部 
件 的 要 求 也 就 越 高 。 
早期 设计 的 磁盘 驱动 加 可 使 磁头 保持 在 盘 而 上方 几 微 米 处 飞行, 稍 后 的 一 些 设计 使 磁头 在 盘 
面 上 的 飞行 高 度 降 到 约 0.1~0.5hm， 现 在 的 水 平 已 经 达到 0.005 ~ 0.01hm， 只 是 人 类 头发 直径 的 
干 分 之 一 。 气 流 既 能 使 磁头 脱离 开盘 面 ， 又 能 使 它 保持 在 离 盘面 足够 近 的 地 方 ,非常 紧密 地 随 着 
磁盘 表面 时 起伏 运 动 , 使 磁头 飞行 处 于 严格 受 控 状态 。 磁 头 必须 飞行 在 盘面 上 方 , 而 不 接触 盘面 ， 
这 种 距离 可 避免 控 伤 磁性 涂 层 ， 而 更 重要 的 是 不 让 磁性 涂 层 损伤 磁头 。 但 是 ,磁头 也 不 能 离 盘面 
大 远 ， 否 则 就 不 能 使 盘面 达到 足够 强 的 磁化 ， 难 以 读 出 盘 上 的 数据 。 
提示 : 硬盘 驱动 器 磁头 的 飞行 悬浮 高 度 低 、 速 度 快 ， 一 旦 有 小 的 尘埃 进入 硬盘 密封 脱 内 
或 者 磁头 与 盘 体 发 生 碰撞 ， 就 有 可 能 造成 数据 丢失 形成 环 块 ， 其 至 造成 磁头 盘 体 的 损 
十。 所以， 硬盘 系统 的 密封 一 定 要 可 靠 ， 在 非 专业 条 件 下 绝对 不 能 开启 硬盘 密封 腔 ， 否 
则 灰尘 进入 后 会 加 速 硬盘 的 损坏 。 另 外 ， 硬 盘 驱动 器 磁头 的 寻 道 伺服 电机 多 采用 音 轿 式 
旋转 或 直线 运动 步 进 电 机 ， 在 伺服 跟踪 的 调节 下 精确 地 跟踪 盘 片 的 磁道 ， 所 以 硬盘 工作 
时 不 要 有 冲击 碰撞 ， 搬 动 时 也 要 小 心 轻 放 。 


4. 步 进 电机 


为 了 让 磁头 精确 定位 到 每 个 磁道 , 用 普通 的 电机 达 不 到 这 样 的 精度 , 必须 用 步 进 电机 , 利用 
精确 的 齿轮 组 或 者 音 圈 , 每 次 旋转 可 以 仅仅 使 磁头 进行 微米 级 的 位 移 。 音 圈 电机 则 是 使 用 精密 绰 
绕 的 铜 丝 , 置 于 磁场 之 中 , 通过 控制 电流 的 流向 和 强度 , 使 得 磁头 臂 在 磁场 作用 下 作 精 确 的 步 进 。 
之 所 以 叫做 “ 音 圈 ”, 是 因为 这 种 方法 一 开始 是 用 在 喇叭 的 纸 贫 上 的 ， 通 过 控制 电流 来 控制 纸 盆 
的 精确 振动 。 


3.1.1 盘 片 上 的 数据 组 织 


硬盘 上 的 数据 是 如 何 组 织 与 管理 的 呢 ? 硬盘 首先 在 逻辑 上 被 划分 为 磁道 、 柱 面 以 及 扇 区 , 其 
结构 关系 如 图 3-4 所 示 。 
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圆柱 由 0 开始 ， 从 外 图 向 内 图 编号 


0 圆柱 
1 圆柱 


Ds 
Ry 
2 


图 3-4 ” 柱 面 和 盘 片 上 的 磁道 
每 个 盘 片 的 每 个 面 都 有 一 个 读 写 磁头 ， 磁 头 起 初 停 在 盘 片 的 最 内 轿 ， 即 线 速度 最 小 的 地 方 。 
这 是 一 个 特殊 区 域 ， 它 不 存放 任何 数据 ， 称 为 启 停 区 或 着 陆 区 ( Landing Zone ) 。 启 停 区 外 就 是 


数据 区 。 在 最 外 圈 ， 离 主轴 


的 地 方 是 0 磁道 ， 硬 盘 数 据 的 存放 就 是 从 最 外 圈 开 始 的 。 
么 ， 磁 头 如 何 找到 0 磁道 的 位 置 呢 ? 从 图 3.4 中 可 以 看 到 ， 有 一 个 0 磁道 检测 器 ,由 它 来 


完成 硬盘 的 初始 定位 。0 磁道 存放 着 用 于 操作 系统 启动 所 必需 的 程序 代码 , 因为 PC 启动 后 BIOS 


程序 在 加 载 人 


惜 的 。 


E 何 操作 系统 或 其 他 程序 时 ， 总 是 默认 从 磁盘 的 0 磁道 读 取 程序 代码 来 运行 。 
提示 : 0 磁道 是 如 此 重要 ， 以 至 于 很 多 硬盘 仅仅 因为 0 磁道 损坏 就 报废 了 ， 这 是 非常 可 


和 扇 


面 对 盘面 、 磁 道 、 柱 


百 


1. 盘面 
硬盘 的 盘 片 一 般 用 铝 合 金 材 料 


所 需 的 平面 度 和 光洁 度 ， 而 且 有 很 高 的 硬度 。 磁 头 传动 装置 是 使 磁头 作 径 向 移动 
传动 的 步 进 有 
则 采用 伺服 反馈 返回 到 正确 的 位 置 上 。 磁 头 传动 装置 以 很 小 的 


两 种 类 型 的 传动 装置 : 一 种 是 齿 条 
是 固定 推算 的 传动 定位 器 ,而 后 者 


区 的 含义 逐一 进行 介绍 。 


做 基 片 , 高 速 硬盘 也 有 用 玻璃 做 基 片 的 。 玻 璃 基 片 更 容易 达到 
的 部 件 ， 通 常 有 
是 音 圈 电机 传动 装置 。 前 者 


电机 传动 装置 ， 另 一 


等 距离 使 磁头 部 件 作 径 向 移动 ，F 
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硬盘 的 每 一 个 盘 片 都 有 两 个 盘面 , 即 上 、 下 盘面 。 每 个 盘面 都 能 利用 ， 都 可 以 存储 数据 , 成 
为 有 效 盘 片 。 每 一 个 这 样 的 有 效 盘 面 都 有 一 个 盘面 号 , 按 从 上 到 下 的 顺序 从 0 开始 依次 编号 。 在 
硬盘 系统 中 , 盘面 号 又 叫 磁头 号 ， 因 为 每 一 个 有 效 盘面 都 有 一 个 对 应 的 读 写 磁 头 。 硬 盘 的 盘 片 组 
在 2~14 片 不 等 , 通常 有 2~3 个 盘 片 ， 故 盘面 号 ( 磁头 号 ) 为 0~3 或 0~5。 


2. 磁道 


磁盘 在 格式 化 时 被 划分 成 许多 同心 圆 , 这些 同心 圆 轨迹 叫做 磁道 。 磁道 从 最 外 圈 向 内 圈 从 
0 开始 顺序 编号 。 硬盘 的 每 一 个 盘面 有 300 ~ 1024 个 磁道 , 新式 大 容量 硬盘 每 面 的 磁道 数 更 多 。 
这 些 同心 圆 磁道 不 是 连续 记录 数据 ， 而 是 被 划分 成 一 段 段 的 圆 弧 ， 这 些 圆 弧 的 角速度 一 样 。 由 
于 径 向 长 度 不 一 样 , 所 以 线 速度 也 不 一 样 , 外 圈 的 线 速度 较 内 圈 的 线 速度 大 。 在 同样 的 转速 下 ， 
外 圈 在 相同 的 时 间 段 里 ， 划 过 的 圆 弧 长 度 要 比 内 圈 划 过 的 圆 弧 长 度 大 ， 因 此 外 圈 数 据 的 读 写 要 
比 内 图 快 。 

每 段 贺 弧 叫做 一 个 扇 区 , 扇 区 从 1 开始 编号 , 每 个 扇 区 中 的 数据 作为 一 个 单元 同时 读 出 或 写 
入 , 是 读 写 的 最 小 单位 。 不 可 能 发 生 读 写 半 个 或 者 四 分 之 一 个 这 种 小 于 一 个 扇 区 的 情况 ， 因 为 磁 
只 能 定位 到 某 个 扇 区 的 开头 或 者 结尾 ， 而 不 能 在 扇 区 内 部 定位 。 所 以 ， 一 个 扇 区 内 部 的 数据 ， 
连续 流 式 记录 的 。 一 个 标准 的 3.5 英寸 硬盘 盘面 通常 有 几 百 到 几 千 条 磁道 。 磁 道 是 肉眼 看 不 见 
的 , 只 是 盘面 上 以 特殊 形式 磁化 了 的 一 些 磁化 区 。 划 分 磁道 和 扇 区 的 过 程 ， 叫 做 低级 格式 化 , 通 
常 在 硬盘 出 厂 的 时 候 就 已 经 格式 化 完毕 了 。 相 对 于 低级 格式 化 来 说 , 高 级 格式 化 指 的 是 对 磁盘 上 
所 存储 的 数据 进行 文件 系统 的 标记 ， 而 不 是 对 扇 区 和 磁道 进行 磁化 标记 。 


3. 柱 面 


所 有 盘面 上 的 同一 磁道 , 在 竖 直方 向 上 构成 一 个 圆柱 , 通常 称 做 柱 面 。 每 个 圆柱 上 的 磁头 由 
上 而 下 从 0 开始 编号 。 数据 的 读 写 按 柱 面 进行 , 即 磁头 读 写 数据 时 首先 在 同一 柱 面 内 从 0 磁头 开 
始 进行 操作 ,依次 向 下 在 同一 柱 面 的 不 同 盘面 ( 即 磁头 ) 上 进行 操作 。 只 有 在 同一 柱 面 所 有 的 磁 
头 全 部 读 写 完毕 后 磁头 才 转移 到 下 一 柱 面 , 因为 选取 磁头 只 需 通过 电子 切换 即 可 ， 而 选取 柱 面 则 
必须 通过 机 械 切换 ， 即 寻 道 。 
电子 切换 相当 快 , 比 使 用 机 械 将 磁头 向 邻近 磁道 移动 要 快 得 多 ,所 以 数据 的 读 写 按 柱 面 进行 ， 
而 不 按 盘 面 进行 。 也 就 是 说 ,一 个 磁道 写 满 数据 后 ,就 在 同一 柱 面 的 下 一 个 盘面 来 写 。 一 个 柱 面 
写 满 后 , 才 移 到 下 一 个 柱 面 开 始 写 数据 ,这 样 可 以 减少 寻 道 的 频繁 度 。 读 写 数据 也 按照 这 种 方式 
进行 ， 这 样 就 提高 了 硬盘 的 读 写 效率 。 

一 块 硬盘 驱动 器 的 圆柱 数 或 每 个 盘面 的 磁道 数 既 取决 于 每 条 磁道 的 宽窄 ( 也 与 磁头 的 大 小 有 
关 ) ,也 取决 于 定位 机 构 所 决定 的 磁道 间 步 距 的 大 小 。 如 果 能 将 磁头 做 得 足够 精细 ， 定 位 距离 足 
够 小 ,那么 就 会 获得 更 高 的 磁道 数 和 存储 容量 。 如 果 磁 头 太 大 ， 则 磁道 数 就 要 降低 以 容纳 这 个 磁 
头 ， 这 样 磁道 与 磁道 之 间 的 磁粉 将 无 法 利用 ， 浪 费 得 太 多 。 如 果 能 将 磁头 做 成 单个 原子 的 精度 ， 
那么 存储 技术 就 会 发 生 革命 性 的 质变 。 

提示 : 利用 原子 探 针 来 移动 物质 表面 的 原子 成 特定 形状 , 这 种 技术 早已 实现 。 如 果 能 将 

这 种 技术 应 用 到 数据 存储 领域 ， 则 存储 容量 和 速度 将 会 以 几何 倍数 上 升 。 
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4. 扇 区 


1) 扇 区 头 标 

将 每 个 环形 磁道 等 距离 切割 , 形成 等 长 
度 的 圆 弧 ， 每 个 圆 弧 就 是 一 个 扇 区 。 划 分 扇 
区 的 目的 是 为 了 使 数据 存储 更 加 条 理化 , 就 
像 一 个 大 仓库 要 划分 更 多 的 房间 一 样 。 每 个 
扇 区 可 以 存放 512B 的 数据 和 一 些 其 他 信息 。 
一 个 扇 区 有 两 个 主要 部 分 : 存储 数据 地 点 的 
标识 符 和 存储 数据 的 数据 段 , 如 图 3-5 所 示 。 

" ， 扇 区 头 标 包括 组 成 扇 区 三 级 地 址 

的 三 个 数字 。 

" 。 扇 区 所 在 的 柱 面 ( 磁道 ) 。 

”磁头 编号 。 

" ， 扇 区 在 磁道 上 的 位 置 ， 即 扇 区 号 。 

" ， 柱 面 ( Cylinder) 、 磁 头 ( Header ) 

和 启 区 ( Sector ) 三 者 简称 CHS， 3-5 遍 区 示意 图 
所 以 扇 区 的 地 址 又 称 为 CHS 地 址 。 

磁头 通过 读 取 当 前 扇 区 的 头 标 中 的 CHS 地 址 ， 就 可 以 知道 当前 是 处 于 盘 片 上 的 哪个 位 置 ， 
比如 是 内 圈 还 是 外 圈 ， 哪 个 磁头 正在 读 写 ( 同一 时 刻 只 能 有 一 个 磁头 在 读 写 ) 等 。 

CHS 编 址 方式 在 早期 的 小 容量 硬盘 中 非常 流行 ， 但 是 目前 的 大 容量 硬盘 的 设计 和 低级 格式 

化 方式 已 经 有 所 变化 , 所 以 CHS 编 址 方式 已 经 不 再 使 用 ， 而 转 为 LBA 编 址 方式 。LBA 编 址 方式 
不 再 划分 柱 面 和 磁头 号 ， 这 些 数据 由 硬盘 自身 保留 ， 而 磁盘 对 外 提供 的 地 址 全 部 为 线性 的 地 址 ， 
即 LBA 地 址 。 
所 谓 线性 , 指 的 是 把 磁盘 想象 成 只 有 一 个 磁道 , 这 个 磁道 是 无 限 长 的 直线 , 扇 区 为 这 条 直线 
上 的 等 长 线段 ， 从 1 开始 顺序 编号 ， 直 到 无 限 远 。 显 然 ， 这 种 方式 屏蔽 了 柱 面 、 磁 头 这 些 复杂 的 
东西 , 向 外 提供 了 简单 的 方式 , 所 以 非常 利于 编程 。 然而 磁盘 中 的 控制 电路 依然 要 找到 某 个 LBA 
地 址 到 底 对 应 着 哪个 磁道 哪个 磁头 上 的 哪个 扇 区 , 这 种 对 应 关系 保存 在 磁盘 控制 电路 的 ROM 芯 
片 中 ,磁盘 初始 化 的 时 候 载 入 缓存 中 以 便 随时 查询 。 

注意 : 基于 CHS 编 址 方式 的 磁盘 最 大 容量 

磁头 数 ( Heads ) 表示 硬盘 总 共有 几 个 磁头 ,也 就 是 有 几 面 盘 片 , 最 大 为 255 (用 8 个 

二 进 制 位 存储 ) 。 

柱 面 数 ( Cylinders ) 表示 硬盘 每 一 面 盘 片上 有 多 少 条 磁道 ， 最 大 为 1023 (用 10 个 二 

进 制 位 存储 ) 。 扇 区 数 ( Sectors ) 表示 每 一 条 磁道 上 有 多 少 扇 区 , 最 大 为 63 (用 6 个 

二 进 制 位 存储 ) 。 

每 个 肩 区 一 般 是 512B, 理论 上 讲 这 不 是 必须 的 。 目 前 很 多 大 型 磁盘 阵列 所 使 用 的 硬盘 ， 

由 于 阵列 控制 器 需要 做 一 些 诸如 校 验 信息 之 类 的 特殊 存储 ,这些 磁盘 都 被 格式 化 为 每 遍 

区 520B。 


肩 区 头 标 ,这 个 区 域 包含 此 肩 区 
的 地 址 号 〈 柱 面 ， 磁 头 ， 扇 区 )， 
以 及 其 他 标注 ,比如 是 否 为 坏 肩 
区 ， 或 者 重 定向 肩 区 号 等 等 
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如 果 按 照 每 扇 区 512B 来 计算 ,磁盘 最 大 容量 为 255 x 1023 x 63 x 512/ 1048576 = 8024 MB 
( 1MB =1048576 B ) 。 这 就 是 所 谓 的 8GB 容量 限制 的 原因 。 但 是 随 着 技术 的 不 断 发 展 ， 
CHS 地 址 的 位 数 在 不 断 增加 ， 所 以 可 寻 址 容量 也 在 不 断 增 加 。 


提示 : 磁盘 驱动 器 内 怎样 放下 255 个 磁头 呢 ? 这 是 不 可 能 的 。 目 前 的 硬盘 一 般 可 以 有 1 
盘 片 、2 盘 片 或 者 4 盘 片 ， 这样 就 对 应 着 2、4 磁头 或 者 8 磁头 。 那 么 这 样 算 来 , 硬盘 实 
际 容 量 一 定 小 于 8GB 了 ? 显然 不 是 这 样 的 .所 谓 255 个 磁头 ,这 只 是 一 个 逻辑 上 的 说 法 ， 
实际 的 磁头 、 磁 道 、 扇 区 等 信息 都 保存 在 硬盘 控制 电路 的 ROM 芯片 中 。 而 每 条 磁道 上 
真 的 最 多 只 有 64 个 扇 区 么 ?当然 也 不 是 ， 一 条 磁道 上 实际 的 扇 区 数 远 远大 于 64， 这 样 
就 分 扒 了 磁头 数 实际 少 于 255 个 所 产生 的 “容量 减 小 ”。 所 以 , 这 是 CHS 编 址 方式 沿袭 
了 老 的 传统 , 不 愿意 去 作 修改 导致 的 。 而 这 种 沿袭 达到 了 极限 之 后 , 最 终 导致 LBA 编 址 
方式 替代 了 CHS 编 址 方式 。 


头 标 中 还 包括 一 个 字段 , 其 中 有 显示 扇 区 是 否 能 可 靠 存 储 数据 , 或 者 是 已 发 现 某 个 故障 因而 
不 宜 使 用 的 标记 。 有 些 硬盘 控制 器 在 扇 区 头 标 中 还 记录 有 指示 字 , 可 在 原 扇 区 出 错时 指引 磁头 跳 
转 到 替换 扇 区 或 磁道 。 最 后 ， 扇 区 头 标 以 循环 元 余 校 验 CRC 值 作为 结束 ， 以 供 控制 器 检验 扇 区 
头 标的 读 出 情况 ， 确 保 准确 无 误 。 

2 ) 扇 区 编号 和 交叉 因子 

给 扇 区 编号 的 最 简单 方法 是 采用 1、2、3、4、5、6 等 顺序 编号 。 如 果 扇 区 按 顺 序 绕 着 磁道 
依次 编号 ,那么 磁盘 控制 电路 在 处 理 一 个 扇 区 的 数据 期 间 , 可 能 会 因为 磁盘 旋转 太 快 ， 没 等 磁头 
反应 过 来 , 已 经 超过 扇 区 间 的 间隔 而 进入 了 下 一 个 扇 区 的 头 标 部 分 , 则 此 时 磁头 若 想 读 取 这 个 扇 
区 的 记录 ， 就 要 青 等 一 圈 ， 等 到 盘 片 旋转 回来 之 后 再 次 读 写 ， 这 个 等 待 时 间 无 疑 是 非常 浪费 的 。 

显然 , 要 解决 这 个 问题 , 靠 加 大 扇 区 间 的 间隔 是 不 现实 的 , 那 会 浪费 许多 磁盘 空间 。 许 多 年 
前 , IBM 的 一 位 杰出 工程 师 想 出 了 一 个 绝妙 的 办 法 ， 即 对 扇 区 不 使 用 顺序 编号 , 而 是 使 用 一 个 交 
叉 因子 ( Interleave ) 进行 编号 。 交 叉 因 子 用 比值 的 方法 来 表示 ， 如 3 : 1 表示 磁道 上 的 第 1 个 扇 
区 为 1 号 扇 区 ， 跳 过 两 个 肩 区 即 第 4 个 扇 区 为 2 号 扇 区 , 这 个 过 程 持续 下 去 直到 给 每 个 物理 扇 区 
编 上 逻辑 号 为 止 。 

例如 ,每 磁道 有 17 个 扇 区 的 磁盘 按 2 : 1 的 交叉 因子 编号 就 是 1、10、2、11、3、12、4、13、 
5、14、6、15、7、16、8、17、9; 而 按 3 : 1 的 交叉 因子 编号 就 是 1、7、13、2、8、14、3、9、 
15、4、10、16、5、11、17、6、12。 当 设置 1 : 1 的 交叉 因子 时 ， 如 果 硬 盘 控 制 器 处 理 信息 足够 
快 ,那么 读 出 磁道 上 的 全 部 扇 区 只 需要 旋转 一 周 。 但 如 果 硬 盘 控制 器 的 处 理 动作 没有 这 么 快 ， 则 
只 有 磁盘 所 转 的 圈 数 等 于 针对 这 个 磁道 的 交叉 因子 时 , 才能 读 出 每 个 磁道 上 的 全 部 数据 。 将 交叉 
因子 设 定 为 2 : 1 时 , 磁头 要 读 出 磁道 上 的 全 部 数据 , 磁盘 只 需 转 两 周 。 如 果 2 : 1 的 交叉 因子 仍 
不 够 慢 ， 这 时 可 将 交叉 因子 调整 为 3 : 1， 如 图 3-6 所 示 。 
图 3-6 所 示 是 典型 的 MFM ( Modified Frequency Modulation， 改 进 型 调频 制 编码 ) 硬盘 ,每 
磁道 有 17 个 扇 区 ， 画 出 了 用 三 种 不 同 的 扇 区 交叉 因子 编号 的 情况 。 最 外 圈 的 磁道 ( 0 号 柱 面 ) 
上 的 扇 区 用 简单 的 顺序 连续 编号 ， 相 当 于 扇 区 交叉 因子 是 1 : 1。1 号 磁道 ( 柱 面 ) 的 扇 区 按 2 : 
1 的 交叉 因子 编号 ， 而 2 号 磁道 的 扇 区 按 3 : 1 的 交 义 因子 编号 。 
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3-6 ”MFM 改进 型 交叉 因子 示意 图 


在 早期 的 硬盘 管理 工作 中 , 设置 交叉 因 


了 需要 用 户 自己 完成 。 用 BIOS 中 的 低级 格式 化 程序 


对 硬盘 进行 低级 格式 化 时 ， 就 需要 指定 交叉 因子 ， 有 时 还 需要 设置 几 种 不 同 的 值 来 比较 其 性 能 ， 
而 后 确定 一 个 比较 好 的 值 。 现 在 的 硬盘 BIOS 已 经 自己 解决 了 这 个 问题 ， 所 以 一 般 低 级 格式 化 程 


序 中 就 不 再 提供 这 一 设置 选项 了 。 
系统 将 文件 存储 到 磁盘 上 时 ， 是 按 柱 面 


、 磁 头 、 扇 区 方式 进行 的 ， 即 最 先是 第 1 磁道 的 第 1 


磁头 下 (也 就 是 第 1 盘面 的 第 一 磁道 ) 所 有 的 扇 区 ， 然 后 是 同一 柱 面 的 下 一 磁头 ,直到 整个 柱 面 
都 存 满 。 系 统 也 是 以 相同 的 顺序 去 读 出 数据 。 读 数据 时 通过 告诉 磁盘 控制 器 要 读 出 数据 所 在 的 柱 
面 号 、 磁 头号 和 扇 区 号 ( 物理 地 址 的 三 个 组 成 部 分 ) 进行 读 取 ( 现在 都 是 直接 使 用 LBA 地 址 来 
告诉 磁盘 所 要 读 写 的 扇 区 ) 。 磁 盘 控制 电路 则 直接 将 磁头 部 件 步 进 到 相应 的 柱 面 , 选中 相应 磁头 ， 
然后 立即 读 取 当 前 磁头 下 所 有 的 扇 区 头 标 地 址 , 然后 把 这 些 头 标 中 的 地 址 信息 与 期 待 检 出 的 磁头 
和 柱 面 号 做 比较 。 如 果 不 是 要 读 写 的 扇 区 号 则 读 取 扇 区 头 标 地 址 进行 比较 , 直到 相同 以 后 , 控制 


电路 知道 当前 磁头 下 的 扇 区 就 是 要 读 写 的 扇 
如 果 是 读数 据 ， 控 制 电 路 会 计算 此 数据 


区 ， 然 后 立即 让 磁头 读 写 数据 。 
的 ECC 码 , 然后 把 ECC 码 与 已 记录 的 ECC 码 相 比 


较 ; 如 果 是 写 数据 ， 控 制 电路 会 计算 出 此 数据 的 ECC 码 ， 存 储 到 数据 部 分 的 末尾 。 在 控制 电路 
对 此 扇 区 中 的 数据 进行 必要 的 处 理 期 间 , 磁盘 会 继续 旋转 。 由 于 对 信息 的 后 处 理 需要 耗费 一 定 的 


时 间 ， 在 这 段 时 间 内 磁盘 可 能 已 旋转 了 相当 
交叉 因子 的 确定 是 一 个 系统 级 的 问题 。 


一 个 特定 的 硬盘 驱动 器 的 交叉 因子 取决 于 磁盘 控制 


器 的 速度 、 主 板 的 时 钟 速 度 、 与 控制 电路 相连 的 输出 总 线 的 操作 速度 等 。 如 果 磁 盘 的 交叉 因子 
值 太 高 ， 就 需要 多 花 一 些 时 间 等 待 数据 在 磁盘 上 存 入 和 读 出 ; 相反 ,交叉 因子 值 太 低 也 同样 会 


影响 性 能 。 


1 面 已 经 说 过 ， 系 统 在 磁盘 上 写 入 信息 


时 ， 写 满 一 个 磁道 后 会 转 到 同一 柱 面 的 下 一 个 磁头 ， 


当 柱 面 写 满 时 , 再 转向 下 一 柱 面 。 从 同一 盘面 的 一 个 磁道 转 到 另 一 个 磁道 , 也 就 是 从 一 个 柱 面 转 
到 下 一 个 柱 面 ， 这 个 动作 叫做 换 道 。 在 换 道 期 间 磁 盘 始 终 保持 旋转 ， 这 就 会 带 来 一 个 问题 : 假定 
系统 刚刚 结束 了 对 一 个 磁道 前 一 个 扇 区 的 写 入 , 并 且 已 经 设置 了 最 佳 交叉 因子 比值 , 现在 准备 在 
下 一 磁道 的 第 一 扇 区 写 入 ,这 时 必须 等 到 磁头 换 道 结 束 ， 让 磁头 部 件 重新 定位 在 下 一 道上 。 如 果 
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这 种 操作 占用 的 时 间 超过 了 一 点 ,尽管 是 交叉 存 取 , 磁头 仍 会 延迟 到 达 。 这 个 问题 的 解决 办 法 是 
以 原先 磁道 所 在 位 置 为 基准 , 把 新 的 磁道 上 全 部 扇 区 号 移动 约 一 个 或 几 个 扇 区 位 置 , 这 就 是 磁头 
扭 斜 。 磁头 扭 斜 可 以 理解 为 柱 面 与 柱 面 之 间 的 交叉 因子 , 已 经 由 生产 厂家 设置 好 , 一 般 不 用 去 改 
变 它 。 磁头 扭 斜 的 更 改 比较 困难 ,但 是 它们 只 在 文件 很 长 、 超 过 磁道 结尾 进行 读 出 和 写 入 时 才 发 
挥 作用 ， 所 以 扭 斜 设置 不 正确 所 带 来 的 损失 比 采 用 不 正确 的 肩 区 交叉 因子 值 带 来 的 损失 要 小 得 
多 。 交叉 因子 和 磁头 扭 斜 可 用 专用 工具 软件 来 测试 和 更 改 , 更 具体 的 内 容 这 里 就 不 再 详 述 了 ,上 毕 
竟 现 在 很 多 用 户 都 没有 见 过 这 些 参 数 。 

提示 :最 初 , 硬盘 低级 格式 化 程序 只 是 行使 有 关 磁 盘 控制 器 的 专门 职能 来 完成 设置 任务 。 

由 于 这 个 过 程 可 能 会 破坏 低级 格式 化 的 磁道 上 的 全 部 数据 ， 现 在 也 极 少 采 用 了 。 


扇 区 号 存储 在 扇 区 头 标 中 ， 扇 区 交叉 因子 和 磁头 扭 斜 的 信息 也 存放 在 这 里 。 

扇 区 交叉 因子 由 写 入 到 扇 区 头 标 中 的 数字 设 定 , 所 以 , 每 个 磁道 可 以 有 自己 的 交叉 因子 。 在 
大 多 数 驱动 器 中 , 所 有 磁道 都 有 相同 的 交叉 因子 。 但 有 时 因为 操作 上 的 原因 ,也 可 能 导致 各 磁道 
有 不 同 的 扇 区 交叉 因子 。 比 如 在 交叉 因子 重 置 程序 工作 时 ,由 于 断 电 或 人 为 中 断 就 会 造成 一 些 磁 
道 的 交叉 因子 发 生 了 改变 ,而 另 一 些 磁道 的 交叉 因子 没有 改变 。 这 种 不 一 致 性 对 计算 机 不 会 产生 
不 利 影响 ， 只 是 有 最 佳 交叉 因子 的 磁道 要 比 其 他 磁道 的 工作 速度 更 快 。 


3.1.2 “硬盘 控制 电路 简介 


了 解 了 磁盘 的 结构 之 后 , 知道 磁盘 是 靠 磁性 子 来 存放 数据 的 , 有 人 会 问 : 一 个 磁性 子 到 底 是 
什么 概念 ? 是 一 个 磁性 分 子 么 ? 不 是 , 这 个 “ 子 ”的 概念 是 指 一 个 区 域 , 这 个 区 域 存在 若干 磁性 
分 子 ,这些 分 子 聚 集 到 一 起 ， 直 到 磁头 可 以 感觉 到 它 的 磁性 为 止 。 所 以 和 磁带 一 样 ， 磁 记录 追根 
到 底 就 是 利用 线性 中 的 段 。 根 据 这 一 段 区 域 上 的 一 片 分 子 是 N 极 还 是 S 极 ， 然 后 将 其 转换 成 电 
信号 , 也 就 产生 了 字 节 , 从 而 记录 了 数据 。 当 然 只 有 存储 介质 还 远 远 不 够 , 要 让 数据 可 以 被 读 出 ， 
被 写 入 ， 还 要 有 足够 的 速度 和 稳定 性 满足 人 们 的 需求 ， 这 就 需要 配套 的 电路 了 。 

图 3-7 给 出 一 个 完整 详细 的 硬盘 电路 示意 框图 。 硬 盘 电 路 由 14 个 部 分 组 成 。 


Read/Write Head 


To/From 
Host Interface 


图 3-7 硬盘 控制 电路 示意 图 
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. Buffer Memory: 缓冲 区 存储 器 。 

时 Interface Controller: 接口 控制 器 。 

. Micro-processor: 微 控制 器 ,缩写 为 MCU。 

PRML: Partial-Response Maximum 一 Likelihood Read Channel。 

. Timing ASIC: 时 间 控 制 专 用 集成 电路 。 

于 Servo Demodulator: 伺服 解 调 器 。 

= Digiual Signal Processor ( DSP ) : 数字 信号 处 理 器 。 

四 Preamp : 预 放 大 器 。 

Positioning Driver: 定位 驱动 器 。 

" ”VCM (Voice Coil Motor ) : 音 圈 电 动机 。 

Magnetic Media Disk: 磁 介 质 盘 片 。 

. Spindle Motor: 主轴 电机 。 

. Spindle Driver: 主轴 驱动 器 。 

"Read/Write Head: 读 / 写 磁头 。 

实际 电路 不 会 有 这 么 多 一 片 一 片 的 独立 芯片 ,硬盘 生产 厂家 在 设计 电路 时 都 是 选取 高 度 集成 
的 IC 芯片 ， 这 样 既 减 小 了 体积 又 提高 了 可 靠 性 。 当 然 这 也 正 是 芯片 厂商 努力 的 目标 。 

大 家 可 以 看 到 图 3-7 中 的 Spindle Driver 与 Positioning Driver 这 两 部 分 用 虚线 圈 了 起 来 , 并 
日 标注 了 Servo/MSC Controller Combination 字样 。 其 中 MSC 是 Motor Speed Control 的 缩写 ， 
意思 是 伺服 /电机 速度 控制 器 组 合 。 我 们 现在 能 看 到 的 硬盘 电路 板 中 就 有 这 样 一 块 合并 芯片 。 


3.1.3 ”磁盘 的 IO 单位 


到 此 ， 大 家 应 该 对 磁盘 的 构造 有 所 理解 了 。 磁 盘 读 写 的 时 候 都 是 以 扇 区 为 最 小 寻 址 单位 的 ， 
也 就 是 说 不 可 能 往 某 某 扇 区 的 前 半 部 分 写 入 某 某 数据 。 一 个 扇 区 的 大 小 是 512B， 每 次 磁头 连续 
读 写 的 时 候 ， 只 能 以 扇 区 为 单位 , 即使 一 次 只 写 了 一 个 字 节 的 数据 , 那么 下 一 次 就 不 能 再 向 这 个 
扇 区 剩余 的 部 分 接着 写 入 ， 而 是 要 寻找 一 个 空 扇 区 来 写 。 

注意 : 对 于 磁盘 来 说 , 一 次 磁头 的 连续 读 或 者 写 叫 做 一 次 I0。 请 注意 这 里 的 措辞 : “对 

于 磁盘 来 说 ”。 

提示 : 目前 4KB 大 小 扇 区 的 硬盘 已 经 发 布 。 因 为 操作 系统 的 Page、 文 件 系统 的 Block 一 

般 都 是 4KB 大 小 ， 所 以 硬盘 扇 区 512B 的 容量 一 直 为 业界 所 诉 病 。 将 扇 区 容量 与 上 层 的 

单位 匹配 ， 可 以 大 大 提高 效率 。 

IO 这 个 概念 ， 充 分 理解 就 是 输入 输出 。 我 们 知道 从 最 上 层 到 最 下 层 ， 层 次 之 间 存 在 着 太 多 
的 接口 ， 这 些 接口 之 间 每 次 交互 都 可 以 称 做 一 次 IO， 也 就 是 广义 上 的 IO。 比 如 卷 管理 程序 对 磁 
盘 控 制 器 驱动 程序 API 所 作 的 IO, 一 次 这 种 IO 可 能 要 产生 针对 磁盘 的 N 个 IO， 也 就 是 说 上 层 
的 IO 是 稀 政 的 、 简 单 的 ， 越 往 下 层 走 越 密集 、 越 复杂 。 
除了 卷 管 理 程序 之 外 ,凌驾 于 卷 管理 之 上 的 文件 系统 对 卷 的 IO ， 就 比 卷 更 稀疏 简单 了 。 同 
样 ， 上 层 应 用 对 文件 系统 API 的 IO 更 加 简单 ， 只 需 几 句 代码 、 几 个 调用 就 可 以 了 。 比 如 Open0 
某 个 文件 ，Seek0 到 某 个 位 置 ，Write0 一 段 数据 ，Close0 这 个 文件 等 ， 就 是 一 次 IO。 而 就 是 这 一 
次 IO， 可 能 对 应 文件 系统 到 卷 的 N 个 IO， 对 应 卷 到 控制 器 驱动 的 NxN 个 IO， 对 应 控制 器 对 
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最 终 磁 盘 的 NxNxN 个 IO。 总 之 ,磁盘 一 次 IO 就 是 磁头 的 一 次 连续 读 或 者 写 。 而 一 次 连续 读 
或 者 写 的 过 程 , 不管 读 写 了 几 个 扇 区 ， 扇 区 剩余 部 分 均 不 能 再 使 用 。 这 无 疑 是 比较 浪费 的 ， 但 是 
没有 办 法 ， 总 得 有 个 最 小 单位 。 


关于 最 小 单位 一 一 龟 免 赛 跑 悖 论 


色 在 兔子 前 面 100 米 ， 兔 子 的 速度 是 龟 的 10 倍 。 龟 对 兔子 说 : “我 们 同时 起 跑 ， 你 沿 直线 
追 我 ， 你 永远 也 追 不 上 我 。” 这 个 结论 猛 一 看 ， 会 觉得 荒唐 至 极 ! 可 是 怨 分 析 了 : “兔子 跑 到 
100 米 我 当前 的 位 置 时 ， 我 同时 也 向 前 跑 了 10 米 。 然 后 兔子 跑 了 10 米 的 时 候 ， 而 我 同时 也 向 前 
跑 了 1 米 。 它 再 人 妃 1 米 ， 而 我 又 跑 了 0.1 米 。 依 此 类 推 , 兔子 永远 追 不 上 我 。 大 家 看 到 这 里 就 糊 
涂 了 ， 这 么 一 分 析 确 实 是 追 不 上 ， 但 事实 却 是 能 追 上 。 那 么 问题 出 在 哪里 呢 ? 

假如 兔子 的 速度 是 每 秒 100 米 ， 龟 的 速度 每 秒 10 米 。 首 先 兔子 追 出 100 米 时 ， 用 时 1 秒 ， 
此 时 多 在 兔子 前 方 10 米 处 。 然 后 兔子 再 追 出 10 米 ， 用 时 0.1 秒 ， 此 时 色 在 前 方 1 米 处 。 接 着 免 
子 再 追 出 1 米 ， 用 时 0.01 秒 ， 学 过 小 学 算术 的 人 都 能 算出 来 ， 免 子 掉 入 了 一 个 无 限 循 环 小 数 中 ， 
什么 时 候 结束 了 循环 , 才能 追 上 旬 。 那 么 这 就 悖 论 了 ， 小 数 是 无 限 循环 的 ， 这 到 底 是 多 少 秒 呢 ? 
如 果 时 间 可 以 以 无 限 小 的 单位 延伸 ,那么 兔子 确实 永远 也 追 不 上 龟 。 虽然 时 间 确 实 是 连续 的 , 时 
间 没 有 理由 不 连续 ， 时 间 是 一 个 思想 中 的 概念 ， 时 间 不 是 物质 ， 所 以 时 间 是 唯一 能 连续 的 东西 ， 
既然 时 间 是 无 限 的、 连续 的 ， 那么 兔子 按理 说 追 不 上 包 了 , 但 是 事实 确实 能 追 上 ,但 有 一 个 元 素 
我 们 忽略 了 ， 它 就 是 长 度 的 最 小 单位 ! 仔细 分 析 一 下 ,时 间 和 长 度 是 对 应 的 ， 时 间 可 以 无 限 小 ， 
那么 这 个 无 限 小 的 时 间 也 应 该 对 应 无 限 小 的 长 度 , 这 样 悖 论 到 这 里 就 解决 了 ! 因为 存在 一 个 长 度 
的 最 小 单位 ,而 没有 无 限 小 ! 也 就 是 说 ， 当 兔子 走 的 长 度 是 最 小 长 度 时 旬 就 黔 驴 技 穷 了 ， 因 为 不 
可 能 再 行走 比 这 长 度 更 小 的 距离 了 , 那么 兔子 自然 就 超过 了 旬 。 而 这 个 时 间 是 很 短暂 的 , 它 发 生 
在 有 限时 间 点 上 。 至 于 这 个 最 小 长 度 , 据说 有 人 计算 出 来 了 , 它 可 能 是 一 个 原子 的 长 度 , 也 可 能 
比 这 还 小 。 目 前 看 来 ， 我 们 移动 的 时 候 ， 最 小 似乎 也 不 可 能 移动 半 个 原子 的 距离 ! 

芝 诺 悖 论 ( 龟 免 赛 跑 悖 论 ) 证 明了 , 对 于 我 们 目前 可 观察 到 的 世界 来 说 , 是 有 一 个 最 小 距离 
单位 的 。 如 果 我 们 以 这 个 结论 为 前 提 , 就 可 以 推翻 芝 诺 悖 论 了 。 假设 这 个 距离 最 小 单位 是 一 块 石 
头 的 长 度 。 开始, 兔子 在 乌龟 后 面相 隔 2 块 石头 的 距离 ,同样 兔子 的 速度 是 乌龟 的 2 倍 ,按照 量 
子 距离 理论 ， 这 个 2 倍速 度 ， 不 是 无 限 可 分 的 ， 那 么 我 们 表达 这 个 2 倍速 的 时 候 ， 应 该 这 么 说 : 
兔子 每 前 进 2 块 石头 的 时 间 ， 乌 旬 只 能 前 进 一 块 石头 的 距离 ， 而 不 可 能 前 进 半 块 石头 。 这 样 的 前 
提 下 ， 连 小 学 生 都 可 以 计算 兔子 何 时 追赶 上 乌龟 了 。 


3.2 ”磁盘 的 通俗 演绎 


想象 一 张 很 大 很 大 的 白 纸 , 你 要 在 上 面 写 日 记 。 当 你 写 满 这 张 白 纸 之 后 ,如 果 某 天 想 查 看 某 
条 日 记 , 无 疑 将 是 个 焉 梦 ,因为 白 纸 上 没 有 任何 格子 或 行 分 割 线 等 ， 你 只 能 通过 一 行 一 行 地 读 取 
日 记 , 搜索 你 要 查看 的 那 条 记录 。 如 果 给 白 纸 打 上 格子 或 行 分 割 线 , 那么 不 但 书写 起 来 不 会 凌乱 ， 
而 且 还 工整 。 

那么 对 于 一 张 上 面 布 满 磁性 介质 的 盘 片 来 说 , 想 要 在 它 上 面 记录 数据 , 如 果 不 给 它 打 格子 划 
线 的 话 ， 无 疑 就 无 法 达到 块 级 的 记录 。 所 以 在 使 用 之 前 ， 需 要 将 其 低级 格式 化 ， 也 就 是 划分 扇 区 
(格子 ) 。 我 们 见 过 稿 纸 ， 上 面 的 格子 是 方形 阵列 排 布 的 ， 原 因 很 简单 ， 因 为 稿 纸 是 方形 的 。 那 
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么 对 于 圆 形 来 说 ， 格 子 应 该 怎么 排 布 呢 ? 答案 是 同心 圆 排 布 ， 一 个 同心 圆 ( 磁道 ) ， 就 类 似 于 稿 
纸 上 的 一 行 ， 而 这 一 行 之 内 又 可 以 排列 上 很 多 格子 ( 扇 区 ) 。 每 个 盘 片上 的 行 密度 、 每 行 中 的 格 
子 〈 扇 区 ) 密度 都 有 标准 来 规定 ， 就 像 稿 纸 一 样 。 

我 们 把 稿 纸 放 入 打印 机 。 打印 机 的 打印 头 按照 格子 的 距离 精确 地 做 着 位 移 , 并 不 停 地 喷 出 黑 
水 , 将 字体 打 入 纸张 上 的 格子 里 。 一 旦 一 行 打 满 , 走 纸 轮 精确 地 将 稿 纸 位 移 到 下 一 行 ， 打 印 头 在 
这 一 行 上 水 平 位 移 打 满 格子 。 走 纸 轮 竖 直方 向 位 移 , 打印 头 水 平方 向 位 移 , 形成 了 方形 扫描 阵列 ， 
能 够 定位 到 整 张 纸 上 的 每 个 格子 。 

同样 , 把 圆 形 盘 片 安装 到 一 个 电机 ( 走 纸 轮 ) 上 , 然后 在 盘 片 上 方 加 一 个 磁头 ( 打印 喷头 ) 。 
但 是 和 打印 机 不 同 的 是 ， 做 换行 这 个 动作 不 是 由 走 纸 轮 来 完成 ， 而 是 由 磁头 来 完成 ， 称 做 径 ( 半 
径 ) 向 扫描 ， 也 就 是 在 不 同 同心 圆 上 作 切 换 ( 换行 ) 。 同 样 作 行内 扫描 这 个 动作 是 由 电机 ( 走 纸 
轮 ) 而 不 是 磁头 (打印 头 ) 来 完成 ， 称 做 线 扫描 ( 沿 着 同心 圆 的 圆周 进行 扫描 ) 。 

形成 这 种 角色 倒置 的 原因 , 很 显然 是 由 圆 形 的 特殊 性 决定 的 。 作 圆周 运动 毕竟 比 作 水 平 竖 直 
运动 要 复杂 ,如果 让 磁头 沿 着 同心 贺 作 线 扫描 ， 则 需要 将 磁头 放 在 一 个 可 以 旋转 的 部 件 上 ， 此 时 
磁头 动 而 盘 片 不 动 , 可 以 达到 相同 的 目的 ,但 是 技术 难度 就 复杂 多 了 。 因 为 磁头 上 有 电路 连接 着 
磁头 和 芯片 。 如 果 让 磁头 高 速 旋转 ， 磁 头 动 而 芯片 不 动 , 电路 的 连通 性 怎么 保证 ? 不 如 让 盘 片 转 
动 来 得 干脆 利索 。 

和 打印 机 一 样 , 定位 到 某 个 特定 的 格子 之 后 , 磁头 开始 用 磁性 来 对 这 个 格子 中 的 每 个 磁 粒 子 
区 做 磁化 操作 ， 每 个 磁极 表示 一 个 0 或 者 1 状态 。 每 个 格子 规定 可 以 存放 4096 位 这 种 状态 ， 也 
就 是 512B (很 多 供 大 型 机 使 用 的 磁盘 阵列 上 的 磁盘 是 用 520B 为 一 个 扇 区 ) 。 这 就 像 打 印 机 在 一 
个 格子 再 次 细 分 ， 形 成 24 x 24 点 阵 ， 每 个 坐标 上 的 一 个 点 都 对 应 一 种 色彩 。 只 不 过 对 于 磁盘 来 
说 只 有 0 或 者 1， 而 对 于 打印 机 来 说 ,可 以 是 各 种 色彩 中 的 一 种 ( 黑白 打印 机 也 只 有 黑 或 者 白 两 
种 状态 ) 。 

磁盘 的 扇 区 中 没有 点 阵 ， 一 个 扇 区 可 以 看 作 是 线性 的 。 它 没有 宽 ， 只 有 长 ， 记 录 是 顺序 的 ， 
不 能 像 打 印 机 那样 可 以 定位 到 扇 区 中 的 某 个 点 。 然 而 ,磁盘 比 打印 机 有 先天 的 优势 。 打印 机 内 能 
从 头 到 尾 打印 , 而 且 打 印 之 后 不 能 更 改 。 磁 盘 却 可 以 对 任意 的 格子 进行 写 入 、 读 取 和 更 改 等 操作 。 
打印 机 的 走 纸 轮 和 打印 喷头 移动 起 来 很 慢 , 而 且 嘎嘎 作 响 , 听 了 都 费劲 。 而 磁盘 的 转速 则 快 很 多 ， 
目前 可 以 达到 每 分 钟 15000 转 。 磁头 的 位 移动 作 也 非常 快 ， 它 使 用 步 进 电 机 来 精确 地 换行 ( 换 磁 
道 ) 。 但 是 相对 于 盘 片 的 转动 而 言 ， 步 进 的 速度 就 慢 多 了 , 所 以 制约 磁盘 性 能 的 主要 因素 就 是 这 
个 步 进 速度 ( 换行 或 者 换 道 速度 ) ， 也 就 是 寻 道 速度 。 

如 果 从 最 内 同心 圆 换 到 最 外 同心 圆 , 耗费 的 时 间 无 疑 是 最 长 的 。 目 前 磁盘 的 平均 寻 道 速度 最 
高 可 以 达到 5ms 多 ， 不 同 磁盘 的 寻 道 速度 不 同 ， 普 通 IDE 磁盘 可 能 会 超过 10ms。 有 了 这 个 磁盘 
记录 模型 , 我 们 就 该 研究 怎么 将 这 个 模型 抽象 虚拟 化 出 来 ,让 向 磁盘 写 数据 的 人 感觉 使 用 起 来 非 
常 方 便 。 就 像 打 印 机 一 样 ， 点 一 下 打印 ， 一 会 纸 就 踢 足 地 往外 冒 。 下 面 还 是 要 一 层 一 层 地 来 做 ， 
不 能 直接 就 抽象 到 这 么 高 的 层次 。 

首先 ， 要 精确 寻 址 每 个 格子 就 一 定 需要 给 每 个 格子 一 个 地 址 。 早 期 的 磁盘 都 是 用 “ 盘 片 ， 磁 
道 ， 扇 区 ”来 寻 址 的 ， 一 个 磁盘 盒子 中 可 能 不 止 一 片 盘 片 ， 就 像 一 查 稿 纸 中 有 好 几 张 纸 一 样 。 一 
个 盘 片 上 的 某 一 “ 行 ”也 就 是 某 个 磁道 ， 应 该 可 以 再 区 分 。 一 个 磁道 上 的 某 个 扇 区 也 可 以 区 分 。 
到 这 ， 就 是 最 终 可 寻 址 的 最 小 单位 了 ， 而 不 能 再 精确 定位 到 一 个 扇 区 中 的 某 个 点 了 。 磁 头 只 能 顺 
序 地 写 入 或 者 读 取出 这 些 点 ,而 不 能 只 更 新 或 者 读 取 其 中 某 个 点 。 也 就 是 说 磁头 只 能 一 次 成 批 写 
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入 或 者 读 取出 一 个 扇 区 的 内 容 ， 而 不 能 读 写 半 个 或 者 四 分 之 一 个 扇 区 的 内 容 。 

后 来 的 扇 区 寻 址 体系 变 了 , 因为 后 来 的 磁盘 中 每 个 磁道 的 扇 区 数目 不 同 了 , 外 圈 由 于 周 长 比 
较 长 , 所 以 容纳 的 扇 区 可 以 很 多 , 干脆 采用 了 逻辑 地 址 来 对 每 个 扇 区 编 址 ,将 具体 的 盘 片 、 磁 道 
和 扇 区 ， 抽 象 成 LBA ( Logical Block Address， 顺 序 编 址 ) 。LBA1 表示 0 号 盘 片 0 号 磁道 的 0 号 
扇 区 , 依 此 类 推 , LBA 地 址 到 实际 的 盘 片 、 磁 道 和 扇 区 地 址 的 映射 工作 由 磁盘 内 部 的 逻辑 电路 来 
查询 ROM 中 的 对 应 表 而 得 到 ， 这 样 就 完成 了 物理 地 址 到 逻辑 地 址 的 抽象 、 虚 拟 和 映射 。 

寻 址 问题 解决 之 后 , 就 应 该 考虑 怎么 向 磁盘 发 送 需要 写 入 的 数据 了 。 针 对 这 个 问题 ,人们 抽 
象 出 一 套 接 口 系统 ， 专 门 用 于 计算 机 和 其 外 设 交 互 数据 ， 称 为 SCSI 接口 协议 ， 即 小 型 计算 机 系 
统 接口 。 

下 面 举 个 例子 来 说 明 ， 比 如 某 时 刻 要 向 磁盘 写 入 512B 的 数据 ， 磁 盘 控 制 器 先 向 磁盘 发 一 个 
命令 ， 表 明 要 准备 做 IO 操作 了 ， 而 且说 明了 附带 参数 ( 是 否 启用 磁盘 缓存 、 完 成 后 是 否 中 断 通 
知 CPU 等 ) ， 磁 盘 应 答 说 可 以 进行 ， 控 制 器 立即 将 所 要 IO 的 类 型 ( 读 / 写 ) 和 扇 区 的 起 始 地 址 
以 及 随后 扇 区 的 数量 ( 长度 ) 发 送 给 磁盘 ， 如 果 是 写 IO， 则 随后 还 要 将 需要 写 入 的 数据 发 送 给 
磁盘 ， 磁 盘 将 这 块 数据 顺序 写 入 先前 通告 的 扇 区 中 。 

提示 : 新 的 SCSI 标准 中 有 一 种 促进 IO 效率 的 新 的 方式 ， 即 Skip Mask IO 模式 。 如 果 有 

两 个 IO0， 二 者 I0 的 目标 扇 区 段 被 滞 开 了 一 人 小段， 比如 第 一 个 写 I0 的 目标 为 从 1000 开 

始 的 随后 128 扇 区 ， 第 二 个 写 I0 的 目标 则 为 1500 开始 的 随后 128 扇 区 ， 可 以 合并 这 两 

个 I0 为 一 个 针对 1000 开始 的 随后 628 个 扇 区 的 IO。 控 制 器 将 这 条 指令 下 发 到 磁盘 之 后 ， 

还 会 立即 发 送 一 个 Mask 帧 ， 这 个 帧 中 包含 了 一 串 比 特 流 ， 每 一 位 表示 一 个 扇 区 ， 此 位 

为 1， 则 表示 进行 该 扇 区 的 I0， 为 0， 则 表示 跨 过 此 扇 区 ， 不 进行 IJ0。 这 样 ， 多 了 这 串 

很 小 的 比特 流 ， 却 能 省 下 一 轮 额 外 的 IO 开销 。 

SCSI 接口 完成 了 访问 磁盘 过 程 的 虚拟 化 和 抽象 , 极 大 的 简化 了 访问 磁盘 的 过 程 , 它 屏蔽 

了 磁盘 内 部 结构 和 逻辑 ， 使 得 控制 器 只 知道 LBA 是 一 个 房间 ， 有 什么 数据 就 给 出 地 址 ， 

然后 磁盘 就 会 将 数据 写 人 这 个 地 址 对 应 的 房间 ， 读 取 操 作 也 一 样 。 


3.3 ”磁盘 相关 高 层 技 术 


3.3.1 磁盘 中 的 队列 技术 


想象 有 一 个 包含 10000 个 同心 圆 的 转盘 在 旋转 , 现在 有 两 个 人 在 转盘 外 面 , 有 一 个 机 械 手 臂 
可 以 将 物体 放 到 任何 一 个 同心 贺 上 去 。 现在, 第 一 个 人 想到 半径 最 小 的 同心 加 上 去 ,而 另外 一 个 
人 却 想到 半径 最 大 的 同心 园 上 去 , 这 可 让 机 械 手 辟 犯 了 难 , 机 械 手 臂 只 能 按照 顺序 ， 先 照顾 第 一 
个 人 的 要 求 。 它 首先 寻 道 到 最 内 侧 同 心 圆 ,然后 转盘 旋转 到 待定 位 置 后 将 这 个 人 放 到 轨道 上 , 随 
后 立即 驱动 磁头 璧 到 最 外 侧 的 圆 ， 再 将 第 二 个 人 放 上 去 。 这 期 间 的 主要 时 间 都 用 于 从 内 侧 到 外 侧 
的 换 道 过 程 了 ， 非 常 浪费 。 

这 只 是 两 个 人 的 情况 , 那么 如 果 有 多 个 人 , 比如 3 个 人 先后 告诉 机 械 手 臂 ， 第 一 个 人 说 要 放 
到 最 内 侧 的 圆 上 ， 第 二 个 人 说 要 放 到 最 外 侧 的 圆 上 ， 第 三 个 人 要 放 到 最 内 侧 的 圆 上 。 

如 果 这 时 候 机 械 手 臂 还 是 按照 顺序 来 操作 , 那么 中 间 就 会 多 了 一 次 无 谓 的 换 道 操作 , 极其 浪 
费 。 所 以 机 械 手臂 自作 主张 , 在 送 完 第 一 个 人 后 ， 它 没有 立即 处 理 第 二 个 人 的 请 求 ， 而 是 在 脑海 
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中 算计 , 它 看 第 三 个 人 也 要 求 到 内 侧 贺 上 , 而 它 自己 此 时 也 恰好 正在 内 侧 贺 上, 何不 趁 此 撒 带 第 
三 个 人 呢 ? 所 以 磁头 跳 过 第 二 个 人 的 请 求 ， 先 把 第 三 个 人 送 到 目的 地 ， 然 后 再 换 道 送 第 二 个 人 。 
因为 磁头 算计 用 的 时 间 比 来 回 换 道 快 得 多 , 所 以 这 种 排队 技术 大 大 提高 了 读 写 效率 。 这 种 例 
子 还 有 很 多 , 比如 电梯 就 是 个 很 好 的 例子 。 实 现 队 列 功能 的 程序 控制 代码 是 存放 在 磁盘 控制 电路 
芯片 中 的 ， 而 不 是 主板 上 的 磁盘 控制 器 上 。 也 就 是 说 ， 由 控制 器 发 给 磁盘 指令 ， 然 后 由 磁盘 自己 
的 DSP 固化 电路 或 者 由 磁盘 上 的 微 处 理 器 载 入 代码 从 而 执行 指令 排队 功能 。 

但 是 一 个 巴掌 拍 不 响 , 排队 必须 也 要 由 磁盘 控制 器 来 支持 , 所 谓 的 支持 就 是 说 ,如 果 磁 盘 擅 
自 排队 ,不 按照 控制 器 发 送 过 来 的 顺序 一 条 一 条 执行 指令 ， 则 在 读 出 数据 之 后 , 由 于 步调 和 控制 
器 期 望 的 不 一 致 ， 预 先 读 出 的 数据 只 能 先 存放 到 磁盘 驱动 器 的 缓存 中 , 等 待 控制 器 主动 来 取 。 因 
为 控制 器 给 磁盘 发 送 的 读 写 数据 的 指令 ， 有 可 能 是 有 先后 顺序 的 ,如 果 磁 盘 擅 自 做 了 排队 , 将 后 
来 发 送 的 指令 首先 执行 ， 那 么 读 出 的 数据 就 算 传送 给 了 磁盘 控制 器 ， 也 会 造成 错乱 。 

所 以 , 要 实现 排队 技术 , 仅仅 有 磁盘 驱动 器 自身 是 不 够 的 , 还 必须 在 磁盘 控制 器 ( 指 主 板 上 
的 磁盘 控制 ， 而 不 是 磁盘 本 身 的 控制 电路 ) 电路 中 同化 代码 处 理 排队 ， 和 磁盘 达成 一 致 。 或 者 不 
使 用 固化 代码 方式 ， 而 是 修改 磁盘 控制 器 驱动 程序 ， 加 入 处 理 排队 的 功能 从 而 配合 磁盘 驱动 器 。 

提示 : Intel 在 WinHEC 2003 会 议 上 发 布 了 高 级 主机 控制 器 接口 0.95 版 规范 ( Advanced 

Host Controller Interface，AHCI ) ， 为 驱动 程序 和 系统 软件 提供 了 发 现 并 实施 命令 队列 、 

热 插 拔 及 电源 管理 等 高 级 SATA 功能 的 标准 接口 。 这 个 接口 就 是 在 新 的 控制 器 硬件 之 上 

的 驱动 层面 提供 一 层 接口 ， 解 决 了 磁盘 控制 器 不 支持 硬盘 驱动 器 自身 的 排队 这 个 问题 。 


3.3.2 无 序 传输 技术 


还 有 一 种 提高 磁盘 性 能 的 技术 , 叫做 无 序数 据 传输 。 也 就 是 说 ,控制 器 发 出 一 条 指令 要 求 读 
取 某 些 扇 区 中 的 内 容 , 磁盘 可 以 不 从 数据 所 在 的 初始 扇 区 开始 读 ， 而 是 采取 就 近 原 则 。 比 如 , 磁 
头 恰好 处 于 待 读 取 数据 的 尾部 , 此 时 如 果 等 待 磁盘 旋转 到 磁头 位 于 这 块 数据 的 头 部 时 磁头 才 开 始 
读 ， 那 么 就 要 等 一 圈 时 间 ， 也 就 是 所 谓 的 “旋转 延迟 ”， 时 间 就 被 白白 地 浪费 了 。 如 果 磁 头 按照 
能 读 多 少 先 读 多 少 的 原则 , 在 尾部 时 就 先 读 出 尾部 的 数据 ， 然 后 立即 发 给 控制 器 ,控制 器 立即 通 
过 DMA 将 数据 放 到 内 存 ， 等 磁盘 转 到 数据 块头 部 时 再 读 出 剩余 的 部 分 发 给 控制 器 ， 这 样 就 避免 
了 时 间 的 浪费 。 然 而 ， 这 种 技术 同样 也 要 由 磁盘 控制 器 来 支持 ， 或 是 通过 控制 器 硬件 ， 或 是 通过 
驱动 程序 。 

通过 指令 排队 和 无 序 传送 可 以 最 大 化 利用 磁盘 资源 。 也 就 是 , 把 麻烦 留 给 控制 器 ,把 简单 留 
给 磁盘 。 因 为 控制 器 的 处 理 速度 永远 比 磁盘 的 机 械 运动 快 。 


3.3.3 ” 几 种 可 控 磁 头 扫描 方式 概论 


假设 目前 磁盘 控制 器 的 队列 中 存在 如 下 的 一 些 IO ,这 些 IO 所 需要 查找 的 磁道 号 码 按照 先后 
排列 顺序 为 98、183、37、122、14、124、65 和 67， 而 当前 磁头 处 于 53 号 磁道 ， 磁 头 执行 寻 道 
操作 有 以 下 几 种 模式 。 


1. FCFS ( First Come First Serve ) 


在 FCFS 模式 下 ， 磁 头 完全 按照 IO 进入 的 先后 顺序 执行 寻 道 操作 ， 即 从 53 号 磁道 跳 到 98 
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， 然 后 到 183 号 ， 再 回 到 37 号 ， 依 此 类 推 。 可 以 算出 在 这 个 例子 中 ， 此 模式 下 磁头 衫 过 的 磁 


道 总 数 为 640。 对 应 的 扫描 图 如 图 
显然 ，FCFS 模式 很 不 科学 ， 


3-8 所 示 。 


2. SSTF ( Shortest Seek Time First ) 


在 随机 IO 的 环境 中 严重 影响 IO 效率 。 


在 SSTF 模式 下 ， 控 制 器 会 优先 让 磁头 跳 到 离 当前 磁头 位 置 最近 的 一 个 IO 磁道 去 读 写 ， 读 
写 完毕 后 ， 再 次 跳 到 离 刚 读 写 完 的 这 个 磁道 最 近 的 一 个 IO 磁道 去 读 写 ， 依 此 类 推 。 在 SSTF 模 


式 下 ， 这 个 例子 呈现 的 扫描 图 如 图 3-9 所 示 。 


queue = 98, 183, 37, 122, 14, 124, 65, 67 
head starts at 53 
37 536567 
1 1L JU 


98 122124 183199 
1 Tn | 
] 


queue = 98, 183, 37, 122, 14, 124, 65, 67 
head starts at 53 
37 536567 
1 i 


98 122124 183199 
1 1 L_ | 
| 


图 3-8 FCFS 模式 扫描 图 


图 3-9 SSTF 模式 扫描 图 


本 例 中 ， 磁 头 初始 位 置 在 53 号 磁道 ， 如 果 此 时 IO 队列 中 不 断 有 位 于 53 号 磁道 周围 磁道 的 
IO 进入 ， 比 如 55 号 、50 号 、51 号 磁道 等 ， 那 么 诸如 183 号 这 种 离 53 号 磁道 较 远 的 IO 将 会 被 
俄 死 ， 永 远 也 轮 不 到 183 号 磁道 的 IO。 所 以 SSTF 模式 的 限制 也 是 很 大 的 。 


3. SCAN ( 回旋 扫描 模式 ) 


这 种 扫描 方式 是 最 传统 、 最 经 典 的 方式 了 。 它 类 似 于 电梯 模型 ， 从 一 端 到 另 一 端 ， 然 后 折 


返 ， 再 折返 ， 这 样 循环 下 去 。 磁 头 从 最 内 侧 
磁道 依次 向 外 圈 磁 道 寻 道 。 然 而 就 像 电 梯 一 
样 , 如 果 这 一 层 没有 人 等 待 搭乘 , 那么 磁头 就 
不 在 本 层 停止 .也 就 是 说 如 果 当 前 队列 中 没有 
某 个 磁道 的 IO 在 等 待 , 那么 磁头 就 不 会 跳 到 
这 个 磁道 上 ， 而 是 直接 略 过 去 。 但 是 SCAN 
模型 中 ， 即 使 最 外 圈 或 者 最 内 图 的 磁道 没有 
IO， 磁头 也 要 触及 到 之 后 才能 折返 ， 这 就 像 
50 米 往返 跑 一 样 ， 必 须 触 及 到 终点 线 才能 折 
返回 去 ,SCAN 模式 的 扫描 图 如 图 3-10 所 示 。 

SCAN 模式 不 会 俄 死 任何 IO, 每 个 IO 


都 有 机 会 搭乘 磁头 这 个 电梯 。 然 而 ，SCAN 模式 也 会 带 来 不 必要 的 开销 ,因为 磁头 从 来 不 会 在 中 


0 14 
bm 


queue = 98, 183, 37, 122, 14, 124, 65, 67 
head starts at 53 
37 536567 98 122124 183199 

上 | _ | 上 儿 | ] 

| 


图 3-10 SCAN 模式 扫描 图 


途 折返 ,而 只 能 触及 到 终点 之 后 才能 折返 。 如 果 磁头 正 从 中 间 磁 道 向 外 圈 移 动 ， 而 此 时 队列 中 进 
入 一 个 内 圈 磁 道 的 IO， 那 么 此 时 磁头 并 不 会 折返 ， 即 使 队列 中 只 有 这 一 个 IO。 这 个 IO 只 能 等 
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待 磁头 触及 最 外 圈 之 后 折返 回来 被 执行 。 
4. C-SCAN ( 单 向 扫描 模式 ) 


在 C-SCAN 模式 中 磁头 总 是 从 内 圈 向 外 圈 扫 描 ， 达 到 外 圈 之 后 迅速 返回 内 圈 ， 返 回 途 中 不 
接受 任何 IO， 然 后 再 从 内 圈 向 外 圈 扫 描 。C-SCAN 模式 的 扫描 图 如 图 3-11 所 示 。 


5. LOOK ( 智能 监察 扫描 模式 ) 和 C-LOOK ( 智能 监察 单 向 扫描 模式 ) 


LOOK 模式 相对 于 SCAN 模式 的 区 别 在 于 ， 磁 头 不 必 达 到 终点 之 后 才 折返 ， 而 只 要 完成 最 
两 端的 IO 即 可 折返 。 同 样 ，C-LOOK 也 是 一 样 的 道理 ， 只 不 过 是 单 向 扫描 。 图 3-12 所 示 的 是 
C-LOOK 模式 的 扫描 图 。 


queue = 98, 183, 37, 122, 14, 124, 65, 67 queue ”98, 183, 37, 122, 14, 124, 65, 67 
head starts at 53 head starts at 53 
0 14 37 536567 98 122124 183199 0 14 37 536567 98 122124 183199 
| 上 [a 1 山 1 | [ 1 1 1 沁 山 | | 
) 下 | 
图 3-11 C-SCAN 模式 扫描 图 图 3-12 C-LOOK 模式 扫描 图 


提示 : 关于 几 种 扫描 模式 的 选择 : 总 地 说 来 ,在 负载 不 高 的 情况 下 ，SSTF 模式 可 以 获得 

最 佳 的 性 能 。 但 是 鉴于 可 能 造成 某 些 较 远 的 I0 饿 死 的 问题 , 所 以 在 高 负载 条 件 下 , SCAN 

或 者 C-SCAN 、C-LOOK 模式 更 为 合适 。 

在 大 量 随机 IO 的 情况 下 ， 磁 盘 的 磁头 璧 会 像 密 蜂 翅 膀 一 样 振动 ， 当 然 它们 的 频率 可 能 相差 
很 大 ,但 是 用 肉眼 观察 的 话 , 磁 头 臂 确实 会 像 琴 弦 一 样 摆动 ,频率 是 比较 高 的 。 大 家 可 以 去 mtemet 
上 搜索 一 下 磁盘 寻 道 的 一 个 视频 ， 来 增强 感 观 认识 。 


3.3.4 ”关于 磁盘 缓存 


磁盘 上 必须 有 缓存 , 用 来 接收 指令 和 数据 , 还 被 用 来 进行 预 读 。 磁盘 缓存 时 刻 处 于 打开 状态 。 
有 很 多 文档 资料 上 提 到 某 些 情况 下 可 以 “禁用 ”磁盘 缓存 ， 这 是 容易 造成 误解 的 说 法 。 缓 存在 磁 
盘 上 就 表现 为 一 块 电路 板 上 的 RAM 芯片 ,目前 有 2MB 、8MB 、16MB 、32MB 、64MB 等 容量 规 
格 。 所 谓 “禁用 ”磁盘 缓存 指 的 其 实 是 本 书 第 5 章 中 描述 的 Write Through 模式 ， 即 磁盘 收 到 写 
入 指令 和 数据 后 ， 必 须 先 将 其 写 入 盘 片 ， 然 后 才 向 控制 器 返回 成 功 信号 ， 这 样 就 相当 于 “禁用 ” 

了 缓存 。 但 是 实际 上 ， 指 令 和 数据 首先 到 达 的 一 定 是 缓存 。 

SCSI 指令 中 有 两 个 参数 可 以 控制 对 磁盘 缓存 的 使 用 。 

(1) DPO (Disable Page Out ) : 这 个 参数 的 作用 是 禁止 缓存 中 的 数据 页 ( 缓存 中 的 数据 以 
页 为 单位 存在 ) 被 换 出 。 不 管 读 还 是 写 , 被 置 了 这 个 参数 位 的 数据 在 缓存 空间 不 够 的 时 候 不 能 覆 
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盖 缓 存 中 的 其 他 数据 ， 也 就 是 不 能 将 其 他 数据 换 出 。 

(2) FUA (Force Unit Access ) : 这 个 参数 的 作用 是 强制 盘 片 访问 。 对 于 写 操作 ， 磁 盘 必 须 
将 收 到 的 数据 写 入 盘 片 才 返 回 成 功 信号 ， 也 就 是 进行 Write Through。 对 于 读 操作 ， 磁 盘 收 到 指 
令 后 ， 直 接 去 盘 片 上 读 取 数据 ， 而 不 搜索 缓存 。 

所 以 ， 当 某 个 SCSI 指令 的 DPO 和 FUA 两 个 参数 的 值 都 被 设置 为 1 时 ， 便 相当 于 完全 不 使 
用 缓存 的 提速 功能 了 ， 但 是 指令 和 数据 依然 会 先 到 达 缓 存 中 ， 这 一 点 需要 分 清和 理解 。 

目前 基于 SCSI 指令 的 磁盘 比如 SCSI/FC/SAS 等 都 支持 FUA 和 DPO。 对 于 基于 ATA 指令 
的 IDE/SATA/USB-SATA/VUSB-IDE 等 ， 尚 不 支持 这 两 个 功能 位 ， 有 另外 的 函数 来 绕 过 缓存 。 
比如 在 Windows 系统 中 ， 可 以 使 用 下 列 函数 来 控制 磁盘 缓存 的 行为 : 

typedef struct DISK CACHE INFORMATION {} 


BOOLEAN ParametersSavable; 
BOOLEAN ReadCacheEnabled; 
BOOLEAN WriteCacheEnabled; 


DISK CACHE RETENTION PRIORITY ReadRetentionPriority; 
DISK CACHE RETENTION PRIORITY WriteRetentionPriority; 


WORD DisablePrefetchTransferLength; 
BOOLEAN Prefetchscalar; 
union { 

struct { 


WORD Minimum; 
WORD Maximum; 
WORD MaximumBlocks; 
} ScalarPrefetch; 
struct { 
WORD Minimum; 
WORD Maximum; 
} BlockPrefetch; 
1 
} DISK CACHE INFORMATION, *PDISK CACHE INFORMATION; 
一 次 性 禁用 磁盘 写 缓存 也 是 可 以 的 , 通过 调用 操作 系统 提供 的 一 些 接口 即 可 实现 , 操作 系统 
会 利用 对 应 磁盘 的 驱动 程序 来 将 磁盘 的 写 缓存 一 次 性 关闭 ， 直 到 下 次 磁盘 掉 电 或 者 Reset 为 止 ， 
禁用 效果 一 直 会 保持 。 对 于 用 于 磁盘 阵列 中 的 磁盘 ， 写 缓存 一 律 禁 用 。 


3.3.5 ”影响 磁盘 性 能 的 因素 


目前 的 磁盘 可 以 分 为 单 碟 盘 和 多 碟 盘 , 前 者 在 盘 体内 只 有 一 张 盘 片 , 后 者 则 有 多 张 。 前面 已 
经 讲 过 , 每 张 盘 片 的 正 反 两 面 都 可 以 存放 数据 ,所 以 每 张 盘 片 需要 有 两 个 磁头 ， 各 读 写 一 面 。 然 
而 ， 有 一 点 必须 澄清 ， 磁 盘 每 个 时 刻 只 人 允许 一 个 磁头 来 读 写 数 据 。 也 就 是 说 ,不 管 盘 体内 盘 片 和 
磁头 再 多 ， 也 不 可 能 提高 硬盘 的 吞吐 量 和 IO 性 能 ， 只 能 提高 容量 。 然 而 ， 已 经 有 很 多 人 致力 于 
改变 这 个 现状 ， 希 望 能 让 磁头 在 盘 内 实现 并 发 读 写 ， 也 就 相当 于 盘 片 和 盘 片 之 间 相 互 形 成 RAID 
从 而 提高 性 能 ， 但 是 这 项 工程 目前 还 没有 可 以 应 用 的 产品 。 

影响 硬盘 性 能 的 因素 包括 以 下 几 种 。 
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(1 ) 转速 : 转速 是 影响 硬盘 连续 IO 时 吞吐 量 性 能 的 首要 因素 。 读 写 数 据 时 ， 磁 头 不 会 动 ， 
全 靠 盘 片 的 转动 来 将 对 应 扇 区 中 的 数据 感应 给 磁头 ， 所 以 盘 片 转 得 越 快 ， 数 据 传输 时 间 就 越 短 。 
在 连续 IO 情况 下 ， 磁 头 臂 寻 道 次 数 很 少 ， 所 以 要 提高 吞吐 量 或 者 IOPS 的 值 ， 转 速 就 是 首要 影 
响 因 素 了 。 目 前 中 高 端 硬盘 一 般 都 为 10000 转 每 分 或 者 15000 转 每 分 .最近 也 有 厂家 要 实现 20000 
转 每 分 的 硬盘 ,已 经 有 了 成 形 的 产品 ， 但 是 最 终 是 否 会 被 广泛 应 用 ， 尚 待 观察 。 

(2 ) 寻 道 速度 : 寻 道 速度 是 影响 磁盘 随机 IO 性 能 的 首要 因素 。 随 机 IO 情况 下 ， 磁 头 臂 需 
要 频繁 更 换 磁道 , 用 于 数据 传输 的 时 间 相 对 于 换 道 消 耗 的 时 间 来 说 是 很 少 的 , 根本 不 在 一 个 数量 
级 上 。 所 以 如 果 磁 头 臂 能 够 以 很 高 的 速度 更 换 磁 道 ， 那 么 就 会 提升 随机 IOPS 值 。 目 前 高 端 磁盘 
的 平均 寻 道 速度 都 在 10ms 以 下 。 

(3 ) 单 碟 容 量 : 单 碟 容量 也 是 影响 磁盘 性 能 的 一 个 间接 因素 。 单 碟 容 量 越 高 , 证明 相同 空间 
内 的 数据 量 越 大 , 也 就 是 数据 密度 越 大 。 在 相同 的 转速 和 寻 道 速度 条 件 下 ， 具 有 高 数据 密度 的 硬 
盘 会 显示 出 更 高 的 性 能 。 因 为 在 相同 的 开销 下 ， 单 碟 容量 高 的 硬盘 会 读 出 更 多 的 数据 。 目 前 已 有 
厂家 研发 出 单 碟 容量 超过 300GB 的 硬盘 ， 但 是 还 没有 投入 使 用 。 
(4) 接口 速度 : 接口 速度 是 影响 硬盘 性 能 的 一 个 最 不 重要 的 因素 。 目前 的 接口 速度 在 理论 上 
都 已 经 满足 了 磁盘 所 能 达到 的 最 高 外 部 传输 带宽 。 在 随机 IO 环境 下 , 接口 速度 显得 更 加 不 重要 ， 
因为 此 时 瓶颈 几乎 全 部 都 在 寻 道 速度 上 。 不 过 ， 高 端 硬盘 都 用 高 速 接口 ， 这 是 普遍 做 法 。 


3.4 “硬盘 接口 技术 


硬盘 制造 是 一 项 复杂 的 技术 , 到 目前 为 至 也 只 有 了 欧洲、 美国 等 发 达 国家 和 地 区 掌握 了 关键 技 
术 。 但 不 管 硬盘 内 部 多 么 复杂 ， 它 必定 要 给 使 用 者 一 个 简单 的 接口 ， 用 来 对 其 访问 读 取 数据 ， 而 
不 必 关 心 这 串 数据 到 底 该 什么 时 候 写 入 ， 写 入 到 哪个 盘 片 ， 用 哪个 磁头 ， 等 等 。 

下 面 就 来 看 一 下 硬盘 向 用 户 提供 的 是 什么 样 的 接口 。 注意 , 这 里 所 说 的 接口 不 是 物理 上 的 接 
口 ， 而 是 包括 物理 、 逻 辑 在 内 的 抽象 出 来 的 接口 。 也 就 是 说 ,一 个 事物 面向 外 部 的 时 候 ， 为 达到 
被 人 使 用 的 目的 而 向 外 提供 的 一 种 打开 的 、 抽 象 的 协议 ， 类 似 于 说 明 书 。 

目前 , 硬盘 提供 的 物理 接口 包括 如 下 几 种 。 

， ”用 于 ATA 指令 系统 的 IDE 接口 。 

" ”用 于 ATA 指令 系统 的 SATA 接口 。 

" ”用 于 SCSI 指令 系统 的 并 行 SCSI 接口 。 

" ”用 于 SCSI 指令 系统 的 串 行 SCSI ( SAS ) 接口 。 

" ”用 于 SCsSI 指令 系统 的 IBM 专用 串 行 SCSI 接 口 (SSA ) 。 

" ”用 于 SCSI 指令 系统 的 并 且 承 载 于 FabreChannel 协议 的 串 行 FC 接口 (FCP ) 。 


3.4.1 IDE 硬盘 接口 


IDE 的 英文 全 称 为 Integrated Drive Electronics， 即 电子 集成 驱动 器 ， 它 的 本 意 是 指 把 控制 电 
路 和 盘 片 、 磁 头等 放 在 一 个 容器 中 的 硬盘 驱动 器 。 把 盘 体 与 控制 电路 放 在 一 起 的 做 法 减少 了 硬盘 
接口 的 电缆 数目 与 长 度 ， 数据 传输 的 可 靠 性 得 到 了 增强 。 而 且 硬 盘 制 造 起 来 更 加 容易 ， 因 为 硬盘 
生产 厂商 不 需要 再 担心 自己 的 硬盘 是 否 与 其 他 厂商 生产 的 控制 器 兼容 。 对 用 户 而 言 , 硬盘 安装 起 
来 也 更 为 方便 了 。IDE 这 一 接口 技术 从 诞生 至 今 就 一 直 在 不 断 发 展 , 性 能 也 不 断 地 提高 。 其 拥有 
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价格 低廉 、 兼 容 性 强 的 特点 。IDE 接口 技术 至 今 仍然 有 很 多 用 户 ， 但 是 正在 不 断 减少 。 

IDE 接口 ,也 称 为 PATA 接口 , 即 Parallel ATA( 并 行 传输 ATA ),ATA 的 英文 拼写 为 Advanced 
Technology Attachment， 即 高 级 技术 附加 ， 貌 似 发 明 ATA 接口 的 人 认为 这 种 接口 是 有 高 技术 含 
量 的 。 不 过 在 那个 年 代 应 该 也 算是 比较 有 技术 含量 的 了 。ATA 接口 最 早 是 在 1986 年 由 Compaq、 
West Digital 等 几 家 公司 共同 开发 的 , 在 20 世纪 90 年 代 初 开始 应 用 于 台式 机 系统 。 最 初 , 它 使 用 
一 个 40 芯 电 费 与 主板 上 的 ATA 接口 进行 连接 , 只 能 支持 两 个 硬盘 , 最 大 容量 也 被 限制 在 504MB 
之 内 。 后 来 ， 随 着 传输 速度 和 位 宽 的 提高 ， 最 后 一 代 的 ATA 规范 使 用 80 芯 的 线 缆 ， 其 中 有 一 部 

是 屏蔽 线 ， 不 传输 数据 ， 只 是 为 了 屏蔽 其 他 数据 线 之 间 的 相互 干扰 。 


1.7 种 ATA 物理 接口 规范 


ATA 接口 从 诞生 至 今 ， 共 推出 了 7 个 不 同 的 版 本 ,分 别 是 ATA-1 (IDE ) 、ATA-2 ( EIDE 
Enhanced IDE/Fast ATA ) 、ATA-3 ( FastATA-2) 、ATA-4 (ATA33 ) 、ATA-5 ( ATA66) 、 
ATA-6 (ATA100) 和 ATA-7 (ATA 133 ) 。 

， ”ATA-1: 在 主板 上 有 一 个 插口 ,支持 一 个 主 设备 和 一 个 从 设备 ， 每 个 设备 的 最 大 容量 

为 504MB， 支 持 的 PIO-0 模式 传输 速率 只 有 3.3MB/s。ATA-1 支持 的 PIO 模式 包括 
PIO-0、PIO-1 和 PIO-2 模式 ， 另 外 还 支持 4 种 DMA 模式 (没有 得 到 实际 应 用 ) 。 
ATA-1 接口 的 硬盘 大 小 为 5 英寸 ， 而 不 是 现在 主流 的 3.5 英寸 。 

" ”ATA-2: 是 对 ATA-1 的 扩展 ， 习 惯 上 也 称 为 EIDE ( Enhanced IDE ) 或 Fast ATA。 它 
在 ATA 的 基础 上 增加 了 两 种 PIO 和 两 种 DMA 模式 (PIO-3 ) ， 不 仅 将 硬盘 的 最 高 传 
输 率 提高 到 16.6MB4， 同 时 还 引进 了 LBA 地 址 转换 方式 ， 突 破 了 固有 的 504MB 的 限 
制 ,可 以 支持 最 高 达 8.1GB 的 硬盘 ,在 支持 ATA-2 的 BIOS 设置 中 , 一 般 可 以 看 到 LBA 
(Logical Block Address ) 和 CHS ( Cylinder、Head 、Sector ) 设置 选项 。 同 时 在 EIDE 接 
口 的 主板 上 一 般 有 两 个 EIDE 插口 ,也 就 是 由 同一 个 ATA 控制 器 操控 的 两 个 IDE 通道 ， 

每 个 通道 可 以 分 别 连接 一 个 主 设备 和 一 个 从 设备 ， 这 样 一 块 主板 就 可 以 支持 4 个 EIDE 
设备 。 这 两 个 EDIE 接口 一 般 称 为 IDE1 和 IDE2。 

， ”ATA-3: 没有 引入 更 高 速度 的 传输 模式 ， 在 传输 速度 上 并 没有 任何 的 提升 ， 最 高 速度 
仍旧 为 16.6MB/s。 只 在 电源 管理 方案 方面 进行 了 修改 ， 引 入 了 简单 的 密码 保护 安全 方 
案 。 同 时 还 引入 了 一 项 划时代 的 技术 ， 那 就 是 S.M.A.R.T ( Self-Monitoring Analysis and 
Reporting Technology， 自 监测 、 分 析 和 报告 技术 ) 。 这 项 技术 可 以 对 磁头 、 盘 片 、 电 
机 、 电 路 等 硬盘 部 件 进行 监测 ， 通 过 检测 电路 和 主机 的 监测 软件 对 磁盘 进行 检测 ， 把 
其 运行 状况 和 历史 记录 同 预 设 的 安全 值 进行 比较 分 析 。 当 检测 到 的 值 超出 了 安全 值 的 
范围 时 ,会 自动 向 用 户 发 出 警告 ， 进 而 对 硬盘 潜在 故障 做 出 有 效 预 测 ， 提 高 了 数据 存 
储 的 安全 性 。 

" ”ATA-4: 从 ATA-4 接口 标准 开始 正式 支持 Ultra DMA 数据 传输 模式 ， 因 此 也 习惯 称 
ATA-4 为 Ulra DMA 33 或 ATA33，33 是 指数 据 传输 的 速率 为 33.3MB/s。 并 首次 在 
ATA 接口 中 采用 了 Double Data Rate ( 双 倍数 据 传输 ) 技术 ,让 接口 在 一 个 时 钟 周 期 内 
传输 数据 两 次 ， 时 钟 上 升 期 和 下 降 期 各 有 一 次 数据 传输 ， 这 样 数据 传输 速率 一 下 子 从 
16.6MB/s 提升 至 33.3MB/s。Ultra DMA 33 还 引入 了 元 余 校 验 技 术 (CRC ) 。 该 技术 
的 设计 原理 是 系统 与 硬盘 在 进行 传输 的 过 程 中 ， 随 数据 一 起 发 送 循环 的 元 余 校 验 码 ， 
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图 3-13 所 示 为 几 种 ATA 接口 的 总 结 。 


对 方 在 收取 的 时 候 对 该 校 验 码 进行 检验 ， 只 有 在 检验 完全 正确 的 情况 下 才 接 收 并 处 理 
得 到 的 数据 ， 这 对 于 高 速 传输 数据 的 安全 性 提供 了 极其 有 力 的 保障 。 

ATA-5: ATA-5 也 就 是 Ultra DMA 66， 也 叫 ATA66， 是 建立 在 Ultra DMA 33 硬盘 接 
口 的 基础 上 的 , 同样 采用 了 UDMA 技术 。Ultra DMA 66 将 接口 传输 电路 的 频率 提高 为 
原来 的 两 倍 ， 所 以 接收 /发 送 数据 速率 达到 66.6 MB/s。 它 保留 了 Ultra DMA 33 的 核心 
技术 一 一 元 余 校 验 技术 。 在 工作 频率 提升 的 同时 ， 电 磁 干 扰 问 题 开始 出 现在 ATA 接口 
中 。 为 保障 数据 传输 的 准确 性 ,防止 电磁 干扰 ，Ultra DMA 66 接口 开始 使 用 40 针脚 80 
芯 的 电缆 。40 针脚 是 为 了 兼容 以 往 的 ATA 插 槽 ， 减 小 成 本 的 增加 。80 芯 中 新 增 的 都 
是 信号 屏蔽 线 ， 这 40 条 屏蔽 线 不 与 接口 相连 ， 所 以 针脚 不 需要 增加 。 这 种 设计 可 以 降 
低 相 邻 信号 线 之 间 的 电磁 干扰 。 
ATA-6: ATA100 接口 的 数据 线 与 ATA66 一 样 , 也 是 使 用 40 针 80 芯 的 数据 传输 电缆 ， 
并 且 ATA100 接口 完全 向 下 兼容 ， 支 持 ATA33 和 ATA66 接口 的 设备 完全 可 以 继续 在 
ATA100 接口 中 使 用 。ATA100 规范 将 电路 的 频率 又 提升 了 一 个 等 级 ， 可 以 让 硬盘 的 外 
部 传输 率 达 到 100MB/s。 它 提高 了 硬盘 数据 的 完整 性 与 数据 传输 速率 ， 对 桌面 系统 的 
磁盘 子 系统 性 能 有 较 大 的 提升 作用 , 而 CRC 技术 更 有 效 保证 了 在 高 速 传输 中 数据 的 完 
整 性 和 可 靠 性 。 

ATA-7: ATA-7 是 ATA 接口 的 最 后 一 个 版 本 ， 也 叫 ATA133。ATA133 接口 支持 133 
MB/s 的 数据 传输 速度 ， 这 是 第 一 种 在 接口 速度 上 超过 100MB/s 的 IDE 硬盘 。 迈 拓 是 
目前 唯一 一 家 推出 这 种 接口 标准 硬盘 的 制造 商 。 由 于 并 行 传输 随 着 电路 频率 的 提升 ， 
传输 线 缆 上 的 信号 干扰 越 来 越 难以 解决 ， 已 经 达到 了 当前 技术 的 极限 ， 所 以 其 他 IDE 
硬盘 厂商 停止 了 对 IDE 接口 的 开发 ， 转 而 生产 Serial ATA 接口 标准 的 硬盘 。 


ATA 硬盘 接口 规格 

接口 名 称 传输 模式 传输 速率 电缆 

2.IDE 数据 传输 模式 ATA-1 单字 节 DMA 0 2.1 MB/s | 40 针 电 比 
FI0-0 3.3 MB/s 
" PIO 模式 ( Programming Input/Output 单字 节 DNA 1 ,多 字 节 DNAO | 4.2 MB/s 
Model ) : 一 种 通过 CPU 执行 MO Fo-1 5.2 MB/s 
要 \ 二 2 一 :而 4 i PI0-2 ,单字 节 DMA 2 8.3 NB/s 

端口 指令 来 进行 数据 读 写 的 数据 交 

换 模式 ， 是 最 早 的 硬盘 数据 传输 模 ATA-2 FI0-3 11.1 WB/s | 40 针 电 绕 
式 。 这 种 模式 的 数据 传输 速率 低下 ， Se 1 
FI0-4 ,多 字 节 DNA 2 16.6 MB/s 
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CPU 占有 率 也 很 高 ， 传 输 大 量 数 据 


时 会 因为 占 用 过 多 的 CPU 资源 而 导 ATA-3 FI0-4， 多 宇 节 DMA 2 16.6 MB/s | 40 针 电缆 
致 系统 停顿 ， 无 法 进行 其 他 的 操作 。 ATA-4 多 字 节 DNA3 ,WLtra DA 33 | 33.3 NB/s | 40 针 电缆 


在 PIO 模式 下 ， 硬 盘 控 制 器 接收 到 


硬盘 驱动 器 传 来 的 数据 之 后 , 必须 由 ATA-S tra DMA 66 66.7 MB/s | 40 针 80 芯 电缆 


CPU 发 送信 号 将 这 些 数据 复制 到 内 


ATA-B Mtra DA 100 100.0 MB/s | 40 针 80 艺 电 绕 


存 中 , 这 就 是 PIO 模式 高 CPU 占用 


率 的 原因 。PIO 数据 传输 模式 又 分 为 ATA-T tra DMA 133 133.0 MB/s | 40 针 80 芯 电缆 


关口 总 结 
PIO mode 0、PIO mode 1 PIO mode 国生 3 玫 各 如 A 入 生态 妆 
2、PIO mode 3 和 PIO mode 4 几 种 模式 , 数据 传输 速率 从 3.3MB/s 到 16.6MB/s 不 等 。 


第 3 章 ”磁盘 大 挪移 一 一 磁盘 原理 与 技术 详解 @ 


受 限于 传输 速率 低下 和 极 高 的 CPU 占有 率 ， 这 种 数据 传输 模式 很 快 就 被 淘汰 了 。 
" ”DMA 模式 (Direct Memory Access ) : 直译 的 意思 就 是 直接 内 存 访问 ， 是 一 种 不 经 过 
CPU 而 直接 从 内 存 存 取 数据 的 数据 交换 模式 。PIO 模式 下 硬盘 和 内 存 之 间 的 数据 传输 
是 由 CPU 来 控制 的 , 而 在 DMA 模式 下 , CPU 只 须 向 DMA 控制 器 下 达 指 令 , 让 DMA 
控制 器 来 处 理 数据 的 传送 。DMA 控制 器 直接 将 数据 复制 到 内 存 的 相应 地 址 上 ， 数据 传 
送 完毕 后 再 把 信息 反馈 给 CPU， 这 样 就 很 大 程度 上 减轻 了 CPU 资源 的 占用 率 。DMA 
模式 与 PIO 模式 的 区 别 就 在 于 DMA 模式 不 过 分 依赖 CPU， 可 以 大 大 节省 系统 资源 。 
二 者 在 传输 速度 上 的 差异 并 不 十 分 明显 ，DMA 所 能 达到 的 最 大 传输 速率 也 只 有 
16.6MB/s。DMA 模式 可 以 分 为 Single-Word DMA( 单字 节 DMA ) 和 Muli-Word DMA 
(多 字 节 DMA ) 两 种 。 
"Ultra DMA 模式 ( Ultra Direct Memory Access ) : 一 般 简写 为 UDMA, 含义 是 高 级 直接 
内 存 访 问 。UDMA 模式 采用 16-bit Multi-Word DMA (16 位 多 字 节 DMA ) 模式 为 基 
准 , 可 以 理解 为 是 DMA 模式 的 增强 版 本 。 它 在 包含 了 DMA 模式 的 优点 的 基础 上 , 又 
增加 了 CRC ( Cydic Redundancy Check， 循 环 见 余 码 校 验 ) 技术 ， 提 高 了 数据 传输 过 
程 中 的 准确 性 ， 使 数据 传输 的 安全 性 得 到 了 保障 。 在 以 往 的 硬盘 数据 传输 模式 下 ， 一 
个 时 钟 周期 只 传输 一 次 数据 ， 而 在 UDMA 模式 中 逐渐 应 用 了 Double Data Rate( 双 倍 
数据 传输 ) 技术 ， 因 此 数据 传输 速度 有 了 极 大 的 提高 。 此 技术 就 是 在 时 钟 的 上 升 期 和 
下 降 期 各 自 进 行 一 次 数据 传输 ， 可 以 使 数据 传 
输 速度 成 倍 地 增长 。 
可 以 在 ATA 控制 器 属性 中 选择 使 用 PIO 还 是 DMA 
传输 模式 ， 如 图 3-14 所 示 。 
在 UDMA 模式 发 展 到 UDMA133 之 后 , 受 限于 IDE 
接口 的 技术 规范 ， 无 论 是 连接 器 、 连 接 电缆 还 是 信号 协 
议 都 表现 出 了 很 大 的 技术 瓶颈 ， 而 且 其 支持 的 最 高 数据 
传输 率 也 有 限 。 在 IDE 接口 传输 率 提高 的 同时 ， 也 就 是 
工作 频率 提高 的 同时 ，IDE 接口 交叉 干扰 、 地 线 增多 、 
信号 混乱 等 缺陷 也 给 其 发 展 带 来 了 很 大 的 制约 ， 被 新 一 
代 的 SATA 接口 取代 也 就 在 所 难免 了 。 


3.4.2 SATA 硬盘 接口 


SATA 的 全 称 是 Serial ATA， 即 串 行 传输 ATA。 相 
对 于 PATA 模式 的 IDE 接口 来 说 , SATA 是 用 串 行 线路 传输 数据 , 但 是 指令 集 不 变 , 仍然 是 ATA 

SATA 标准 是 由 Intel、IBM、Dell、APT、Maxtor 和 Seagate 公司 共同 提出 的 硬盘 接口 规范 。 
在 IDF Fall 2001 大 会 上 ，Seagate 宣布 了 Serial ATA 1.0 标准 ， 正 式 宣 告 了 SATA 规范 的 确立 。 自 
2003 年 第 二 季度 Intel 推出 支持 SATA 1.5Gbps 的 南 桥 芯片 (ICHS ) 后 ,SATA 接口 取代 传统 PATA 
接口 的 趋势 日 渐 明显 。 此 外 ，SATA 与 现存 于 PC 上 的 USB、IEEE 1394 相 比 ,在 性 能 和 功能 方 
面 的 表现 也 更 加 突出 。 然 而 经 过 一 年 的 市 场 洗礼 , 原 有 的 SATA 1.0/1.0a ( 1.5Gb/s ) 规格 遇 到 了 
一 些 问题 。2005 年 SATA 硬盘 步 入 了 新 的 发 展 阶段 ， 性 能 更 强 、 配 置 更 高 的 SATA 2.0 产品 出 现 


忆 亡 NB-ZHANGDONG 
四 骂 DVD/CD-ROM 驱动 器 
时 IDE ATA/ATAPI 控制 器 
局 IntelR) 82801GBM/GHM (CH7-M Family) Serial ATA St 
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图 3-14 ”DMA 模式 示意 图 
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在 了 市 场 上 ， 这 些 高 性 能 的 SATA 2.0 硬盘 的 到 来 无 疑 加 速 


了 硬盘 市 场 的 转变 。 


SATA 与 IDE 结构 在 硬件 上 有 着 本 质 区 别 ,其 数据 接 
图 3-16 及 图 3-17 所 示 。 


图 3-15 IDE 线 缆 和 SATA 线 缆 对 比 ”图 3-16 SATA 硬 盘 的 电源 线 图 3-17 SATA 接口 实物 图 


1. SATA 规范 的 发 展 历程 


` 电 源 接口 以 及 接口 实物 图 如 图 3-15、 


SATA 技术 是 Intel 公司 在 IDF 2000 大 会 上 推出 的 ， 其 最 大 的 优势 是 传输 速率 高 。SATA 的 
工作 原理 非常 简单 : 采用 连续 串 行 的 方式 来 实现 数据 传输 从 而 获得 较 高 的 传输 速率 。2003 年 发 


布 的 SATA 1.0 规范 提供 的 传输 速率 就 已 经 达到 了 150MB/s， 不 但 高 出 


普通 IDE 硬盘 所 提供 的 


100MB/s( ATA100 ) ， 甚 至 超过 了 IDE 最 高 传输 速率 133MB/s ( ATA133 ) 。 
SATA 在 数据 可 靠 性 方面 也 有 了 大 幅度 提高 。SATA 可 同时 对 指令 及 数据 封包 进行 循环 元 余 


校 验 (CRC ) ， 不 仅 可 检测 出 所 有 单 比特 和 双 比 特 的 错误 


， 而 且 根据 统计 学 的 原理 还 能 够 检测 


出 99.998% 可 能 出 现 的 错误 。 相 比 之 下 ，PATA 只 能 对 来 回 传输 的 数据 进行 校 验 ， 而 无 法 对 指令 


进行 校 验 ， 加 上 高 频率 下 干扰 甚大 ， 因 此 数据 传输 稳定 性 很 差 。 


除了 传输 速率 更 高 、 传 输 数 据 更 可 靠 外 , 节省 空间 是 SATA 最 具 吸 引力 的 地 方 。 由 于 线 绕 相 


对 于 80 芯 的 IDE 线 绕 来 说 瘦 了 不 少 ,更 有 利于 机 箱 内 部 的 


散热 ， 线 缆 间 的 串扰 也 得 到 了 有 效 控 


制 。 不 过 SATA 1.0 规范 存在 不 少 缺 点 ， 特 别 是 缺乏 对 于 服务 器 和 网 络 存 储 应 用 所 需 的 一 些 先进 


特性 的 支持 。 比 如 在 多 任务 、 多 请 求 的 典型 服务 器 环境 里 面 ，SATA 1.0 硬盘 的 确 会 有 性 能 大 幅 


度 下 降 ， 还 有 可 维护 性 不 强 、 可 连接 性 不 好 等 缺点 。 这 时 ， 
好 的 补充 。 


2. SATA 2.0 规范 中 的 新 特性 


SATA 2.0 的 出 现 使 这 方面 得 到 了 很 


与 SATA 1.0 规范 相 比 ，SATA 2.0 规范 中 添加 了 一 些 新 的 特性 ， 具 体 如 下 。 

， ”3Gb/s 的 传输 速率 : 在 SATA 2.0 扩展 规范 中 ,3Gb/s 的 速率 是 最 大 的 亮点 。 由 于 SATA 
使 用 8bit/10bit 编码 ， 所 以 3Gb/s 等 同 于 300MB/s 的 接口 速率 。 不 过 ， 从 性 能 角度 看 ， 
3Gb/s 并 不 能 带 来 多 大 的 提升 , 即便 是 RAID 应 用 的 场合 , 性 能 提升 也 没有 想象 的 那么 
大 。 因 为 硬盘 内 部 传输 速率 还 达 不 到 与 接口 速率 等 同 的 程度 。 在 大 多 数 应 用 中 ， 硬 盘 
是 将 更 多 的 时 间 花 在 了 寻 道 上 ， 而 不 是 传输 上 。 接 口 速率 的 提高 直接 影响 的 是 从 缓存 
进行 读 写 的 操作 ， 所 以 理论 上 大 缓存 的 产品 会 从 3Gb/s 的 传输 速率 中 得 到 更 大 的 好 处 。 

" ”支持 NCQ 技术 : 在 SATA 2.0 扩展 规范 所 带 来 的 一 系列 新 功能 中 ，NCQ ( Native 
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Command Queuing， 自 身 命令 队列 ) 功能 也 非常 令 人 关注 。 硬 盘 是 机 电 设备 ， 容 易 受 
内 部 机 械 部 件 惯性 的 影响 ， 其 中 旋转 等 待 时 间 和 寻 道 等 待 时 间 就 大 大 限制 了 硬盘 对 数 
据 访 问 和 检索 的 效率 。 前 面 曾经 描述 过 一 个 模型 ， 指 的 就 是 这 种 由 硬盘 驱动 器 自身 实 
现 的 排队 技术 。 

如 果 对 磁头 寻 道 这 个 机 械 动 作 的 执行 过 程 实施 智能 化 的 内 部 管理 ,就 可 以 大 大 地 提高 整个 工 
作 流 程 的 效率 。 所 谓 智能 化 的 内 部 管理 就 是 取出 队列 中 的 命令 ， 然 后 重新 排序 ， 以 便 有 效 地 获取 
和 发 送 主机 请 求 的 数据 。 在 硬盘 执行 某 一 命令 的 同时 , 队列 中 可 以 加 入 新 的 命令 并 排 在 等 待 执行 
的 作业 中 。 如 果 新 的 命令 恰好 是 处 理 起 来 机 械 效率 最 高 的 , 那么 它 就 是 队列 中 要 处 理 的 下 一 个 命 
令 。 但 有 效 的 排序 算法 既 要 考虑 目标 数据 的 线性 位 置 ， 又 要 考虑 其 角度 位 置 , 并 且 还 要 对 线性 位 
置 和 角度 位 置 进行 优化 ,以 使 总 线 的 服务 时 间 最 小 ,这 个 过 程 也 称 做 “基于 寻 道 和 旋转 优化 的 命 
令 重 新 排序 ”。 

台式 SATA 硬盘 队列 一 直 被 严格 地 限制 为 深度 不 得 超过 32 级 。 如 果 增 加 队列 深度 ， 可 能 会 
起 到 反作用 一 一 增加 命令 堆积 的 风险 。 通常 SATA 硬盘 接收 命令 时 有 两 种 选择 , 一 是 立即 执行 命 
令 ， 二 是 延迟 执行 。 对 于 后 一 种 情况 ， 硬 盘 必 须 通过 设置 注意 标志 和 Service 位 来 通知 主机 何 时 
开始 执行 命令 。 然 而 硬盘 不 能 主动 与 主机 通信 ， 这 就 需要 主机 定期 轮回 查询 ， 发 现 Service 位 后 
将 发 出 一 条 Service 命令 ， 然 后 才能 从 硬盘 处 获得 将 执行 哪 一 条 待 执行 命令 的 信息 。 而 且 Service 
位 不 包含 任何 对 即将 执行 命令 的 识别 信息 , 所 必需 的 命令 识别 信息 是 以 标记 值 的 形式 与 数据 请 求 
一 同 传输 的 ,并 仅 供 主机 用 于 设置 DMA 引擎 和 接收 数据 缓冲 区 。 这 样 主机 就 不 能 预先 掌握 硬盘 
所 设置 的 辅助 位 是 哪 条 命令 设置 的 , 数据 传输 周期 开始 前 也 无 法 设置 DMA 引擎 ， 这 最 终 导致 了 
SATA 硬盘 效率 低下 。 

NCQ 包含 如 下 两 部 分 内 容 。 

一 方面 ， 硬 盘 本 身 必 须 有 能 力 针 对 实体 数据 的 扇 区 分 布 对 命令 缓冲 区 中 的 读 写 命令 进行 排 
序 。 同 时 硬盘 内 部 队列 中 的 命令 可 以 随 着 必要 的 跟踪 机 制 动 态 地 重新 调整 或 排序 ,其 中 跟踪 机 制 
用 于 掌握 待 执行 和 已 完成 作业 的 情况 , 而 命令 排队 功能 还 可 以 使 主机 在 设备 对 命令 进行 排队 的 时 
候 , 断 开 与 硬盘 间 的 连接 以 释放 总 线 。 一 旦 硬盘 准备 就 结 ， 就 重新 连接 到 主机 ， 尽 可 能 以 最 快 的 
速率 传输 数据 ， 从 而 消除 占用 总 线 的 现象 。 

另 一 方面 ， 通 信 协 议 的 支持 也 相当 重要 。 因 为 以 前 的 PATA 硬盘 在 传输 数据 时 很 容易 造成 
中 断 ， 这 会 降低 主 控 器 的 效率 , 所 以 NCQ 规范 中 定义 了 中 断 聚 集 机 制 。 相 当 于 一 次 执行 完 数 个 
命令 后 ， 再 对 主 控 器 回 传 执 行 完毕 的 信息 ,改善 处 理 队列 命令 的 效能 。 

从 最 早 的 希捷 7200.7 系列 硬盘 开始 , NCQ 技术 应 用 于 桌面 产品 的 时 间 至 今 已 超过 半年 , 不 
过 目前 NCQ 对 个 人 桌面 应 用 并 没有 带 来 多 大 的 性 能 提升 , 在 某 些 情 况 下 还 会 引起 副作用 。 而 且 
不 同 硬盘 厂商 的 NCQ 方案 存在 着 差异 ， 带 来 的 效果 也 不 同 。 

= 端口 选择 器 (Port Selector ) : 目前 的 SATA 2.0 扩展 规范 还 具备 了 Port Selector ( 端口 

选择 器 ) 功能 。Port Selector 是 一 种 数据 元 余 保护 方案 ， 使 用 Port Selector 可 增加 元 余 
度 ， 具 有 Port Selector 功能 的 SATA 硬盘 ， 外 部 有 两 个 SATA 接口 ， 同 时 连接 这 两 个 接 
口 到 控制 器 上 ， 一 旦 某 个 接口 坏 掉 或 者 连 线 故 障 ， 则 立刻 切换 到 另 一 个 接口 和 连 线 上 ， 
不 会 影响 数据 传输 。 

”端口 复 用 器 (Port Multiplier ) : SATA 1.0 的 一 个 缺点 就 是 可 连接 性 不 好 ， 即 连接 多 个 

硬盘 的 扩展 性 不 好 。 因 为 在 SATA 1.0 规范 中 ,一 个 SATA 接口 只 能 连接 一 个 设备 -SATA 
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规范 的 制定 者 们 显然 也 意识 到 了 这 个 问题 ， 于 是 在 SATA 2.0 中 引入 了 Port Multiplier 
的 概念 。Port Multiplier 是 一 种 可 以 在 一 个 控制 器 上 扩展 多 个 SATA 设备 的 技术 ， 它 采 
用 4 位 (bit) 宽度 的 Port Multiplier 端口 字段 ， 其 中 控制 端口 占用 一 个 地 址 ， 因 此 最 多 
能 输出 2 的 四 次 方 减 1 个 , 即 15 个 设备 连接 ， 这 与 并 行 SCSI 相当 。Port Multiplier 的 
上 行 端口 只 有 1 个 ,在 带宽 为 150MB/s 的 时 候 容易 成 为 瓶颈 ,但 如 果 上 行 端口 支持 
300MBAs 的 带宽 , 就 与 Ultra320 SCSI 的 320MB/s 十 分 接近 了 。Port Multiplier 技术 对 需 
要 多 硬盘 的 用 户 很 有 用 ， 不 过 目前 提供 这 种 功能 的 芯片 组 极 少 。 

”服务 器 特性 : 在 SATA 2.0 扩展 规范 中 还 增加 了 大 量 的 新 功能 ， 比 如 防止 开机 时 多 硬盘 
同时 启动 带 来 太 大 电流 负荷 的 交错 启动 功能 ;强大 的 温度 控制 、 风 扇 控 制 和 环境 管理 ; 
背 板 互 联 和 热 插 拔 功能 等 。 这 些 功 能 更 侧重 于 低 端 服务 器 方面 的 扩展 。 

”接口 和 连 线 的 强化 : 作为 一 个 还 在 不 断 添加 内 容 的 标准 集合 ，SATA 2.0 最 新 的 热点 是 
eSATA, 即 外 置 设备 的 SATA 接口 标准 , 采用 了 屏蔽 性 能 更 好 的 两 米 长 连接 线 ,目标 是 
最 终 取 代 USB 和 IEEE 1394。 在 内 部 接口 方面 ，Click Connect 加 强 了 连接 的 可 靠 性 ， 
在 接 上 时 有 提示 声 ， 拔 下 时 需要 先 按 下 卡 口 。 这 些 细微 的 结构 变化 显示 出 SATA 接口 
更 加 成 熟 和 可 靠 。 

下 面 单独 用 一 节 来 讲解 在 存储 方面 应 用 最 为 广泛 的 SCSI 硬盘 接口 。 


3.5 ”SCSI 硬盘 接口 


SCSI 与 ATA 是 目前 现行 的 两 大 主机 与 外 设 通信 的 协议 规范 , 而 且 它们 各 自 都 有 自己 的 物理 
接口 定义 。 对 于 ATA 协议 ， 对 应 的 就 是 IDE 接口 ; 对 于 SCSI 协议 ， 对 应 的 就 是 SCSI 接口 。 凡 
是 作为 一 个 通信 协议 , 就 可 以 按照 OSI 模型 ( 本 书 第 7 章 将 介绍 ) 来 将 其 划分 层次 , 尽管 有 些 层 
次 可 能 是 合并 的 或 者 是 缺失 的 。 划 分 了 层次 之 后 , 我 们 就 可 以 把 这 个 协议 进行 分 解 , 提取 每 个 层 
次 的 功能 和 各 个 层次 之 间 的 接口 ， 从 而 可 以 将 这 个 协议 融合 到 其 他 协议 之 中 ， 形 成 一 种 “杂交 ” 
协议 来 适应 各 种 不 同 的 环境 ， 这 个 话题 将 在 本 书 第 13 章 加 以 阐述 。 

SCSI 的 全 称 是 Small Computer System Interface， 即 小 型 计算 机 系统 接口 ， 是 一 种 较为 特殊 的 
接口 总 线 , 具备 与 多 种 类 型 的 外 设 进行 通信 的 能 力 , 比如 硬盘 、CD-ROM、 磁带 机 和 扫描 仪 等 。 
SCSI 采用 ASPI ( 高 级 SCSI 编程 接口 ) 的 标准 软件 接口 使 驱动 器 和 计算 机 内 部 安装 的 SCSI 适 配 
器 进行 通信 。SCSI 接口 是 一 种 广泛 应 用 于 小 型 机 上 的 高 速 数 据 传输 技术 。SCSI 接口 具有 应 用 范 
围 广 、 多 任务 、 带 宽大 、CPU 占用 率 低 以 及 热 插 拔 等 优点 。 

SCSI 接口 为 存储 产品 提供 了 强大 、 灵 活 的 连接 方式 ， 还 提供 了 很 高 的 性 能 ， 可 以 有 8 个 或 
更 多 (最 多 16 个 ) 的 SCSI 设备 连接 在 一 个 SCSI 通道 上 ， 其 缺点 是 价格 过 于 昂贵 。SCSI 接口 的 
设备 一 般 需 要 配合 价格 不 菲 的 SCSI 卡 一 起 使 用 ( 如 果 主 板 上 已 经 集成 了 SCSI 控制 器 , 则 不 需要 
额外 的 适配器 ) ， 而 且 SCSI 接口 的 设备 在 安装 、 设 置 时 比较 麻烦 ， 所 以 远 远 不 如 IDE 设备 使 用 
广泛 。 虽然 从 2007 年 开始 ，IDE 硬盘 就 被 SATA 硬盘 彻底 逐 出 了 市 场 。 

在 系统 中 应 用 SCSI 必须 要 有 专门 的 SCSI 控制 器 , 也 就 是 一 块 SCSI 控制 卡 , 才能 支持 SCSI 
设备 ， 这 与 IDE 硬盘 不 同 。 在 SCSI 控制 器 上 有 一 个 相当 于 CPU 的 芯片 ， 它 对 SCSI 设备 进行 控 
制 ， 能 处 理 大 部 分 的 工作 , 减少 了 CPU 的 负担 ( CPU 占用 率 ) 。 在 同时 期 的 硬盘 中 ，SCSI 硬 
盘 的 转速 、 缓 存 容量 、 数 据 传输 速率 都 要 高 于 IDE 硬盘 ， 因 此 更 多 是 应 用 于 商业 领域 。 
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下 面 简单 介绍 一 下 SCSI 规范 的 发 展 过 程 。 

SCSI 最 早 是 1979 年 由 美国 的 Shugart 公司 ( 希捷 公司 前 身 ) 制 订 的 , 在 1986 年 获得 了 ANSI 
(美国 标准 协会 ) 的 承认 , 称 为 SASI( Shugart Associates System Interface ) , 也 就 是 最 初版 本 SCSI-1。 

SCSI-1 是 第 一 个 SCSI 标准 ， 支 持 同步 和 异步 SCSI 外 围 设备 ; 使 用 8 位 的 通道 宽度 ; 最 多 
人 允许 连接 7 个 设备 ; 异步 传输 时 的 频率 为 3MB/s, 同步 传输 时 的 频率 为 5MB/s; 支持 WORM 外 
围 设备 。 它 采用 25 针 接 口 ， 因 此 在 连接 到 SCSI 卡 (SCSI 卡 上 接口 为 50 针 ) 上 时 ， 必 须要 有 一 
个 内 部 的 25 针对 50 针 的 接口 电缆 。 该 种 接口 已 基本 被 淘汰 , 在 相当 古老 的 设备 上 或 个 别 扫描 仪 
设备 上 可 能 还 可 以 看 到 。 

SCSI-2 又 被 称 为 Fast SCSI， 它 在 SCSI-1 的 基础 上 做 了 很 大 的 改进 ， 增 加 了 可 靠 性 ， 数 据 
传输 率 也 被 提高 到 了 10MB/s; 但 仍旧 使 用 8 位 的 并 行 数据 传输 ， 还 是 最 多 连接 7 个 设备 。 后 来 
又 进行 了 改进 ,推出 了 支持 16 位 并 行 数据 传输 的 WIDE-SCSI-2( 宽带 ) 利 FAST-WIDE-SCSI-2 
(快速 宽带 ) 。 其 中 WIDE-SCSI-2 的 数据 传输 速率 并 没有 提高 ， 只 是 改 用 16 位 传输 ; 而 
FAST-WIDE-SCSI-2 则 是 把 数据 传输 速率 提高 到 了 20MB/s。 

SCSI-3 标准 版 本 是 在 1995 年 推出 的 ， 也 习惯 称 为 Ultra SCSI， 其 同步 数据 传输 速率 为 
20MB/s。 若 使 用 16 位 传输 的 Wide 模式 时 ,数据 传输 率 更 可 以 提高 至 40MB/s。 其 允许 接口 电线 
的 最 大 长 度 为 1.5 米 。 

1997 年 推出 了 Ultra 2 SCSI( Fast-40 ) 标 准 版 本 , 其 数据 通道 宽度 仍 为 8 位 , 但 其 采用 了 LVD 
(Low Voltage Differential， 低 电 平 微分 ) 传输 模式 ， 传 输 速率 为 40MB/s， 人 允许 接口 电缆 的 最 大 长 
度 为 12 米 , 大 大 增加 了 设备 的 灵活 性 , 且 支 持 同时 挂 接 7 个 设备 。 随 后 推出 了 Wide Ultra 2 SCSI 
接口 标准 ， 它 采用 16 位 数据 通道 带宽 , 最 高 传输 速率 可 达 80MB/s， 人 允许 接口 电缆 的 最 大 长 度 为 
12 米 ， 支持 同时 挂 接 15 个 装置 。 

LVD 可 以 使 用 更 低 的 电压 , 因此 可 以 将 差 动 驱动 程序 和 接收 程序 集成 到 硬盘 的 板 载 SCSI 控 
制 嚣 中。 不 再 需要 单独 的 高 成 本 外 部 高 电压 差 动 组 件 。 而 老式 SCSI 需要 使 用 独立 的 、 耗 电 的 高 
压 器 件 。 

LVD 硬盘 可 进行 多 模式 转换 。 当 所 有 条 件 都 满足 时 ， 硬 盘 就 工作 在 LVD 模式 下 ; 反之 ， 
如 果 并 非 所 有 条 件 都 满足 ， 硬 盘 将 降 为 单 端 工作 模式 。LVD 硬盘 带宽 的 增加 对 于 服务 器 环境 来 
说 意味 着 更 理想 的 性 能 。 服务器 环境 都 有 快速 响应 、 必 须 能 够 进行 随机 访问 和 大 工作 量 的 队列 操 
作 等 要 求 。 当 使 用 诸如 CAD 、CAM 、 数 字 视 频 和 各 种 RAID 等 软件 的 时 候 ， 带宽 增 加 的 效果 能 
立竿见影 信息 可 以 迅速 而 轻松 地 进行 传输 。 

Ultra 160 SCSI, 也 称 为 Ultra 3 SCSILVD ,是 一 种 比较 成 熟 的 SCSI 接 口 标准 ,是 在 Ultra 2 SCSI 
的 基础 上 发 展 起 来 的 , 采用 了 双 转 换 时 钟 控制 、 循 环 匈 余 码 校 验 和 域名 确认 等 新 技术 。 在 增强 了 
可 靠 性 和 易 管理 性 的 同时 ，Ultra 160 SCSI 的 传输 速率 为 Ultra 2 SCSI 的 2 倍 ， 达到 160MB/s。 这 
是 采用 了 双 转 换 时 针 控 制 的 结果 。 双 转 换 时 钟 控制 在 不 提高 接口 时 钟 频率 的 情况 下 使 数据 传输 率 

是 高 了 一 倍 ， 这 也 是 Ultra 160 SCSI 接口 速率 大 幅 提高 的 关键 。 

Ultra 320 SCSI， 也 称 为 Ultra 4 SCSI LVD， 是 比较 新 型 的 SCSI 接口 标准 。Ultra 320 SCSI 是 
在 Ultra 160 SCSI 的 基础 上 发 展 起 来 的 ，Ultra 160 SCSI 的 3 项 关键 技术 ， 即 双 转 换 时 钟 控制 、 循 
环 匈 余 码 校 验 和 域名 确认 ， 都 得 到 了 保留 。 以 往 的 SCSI 接口 标准 中 ，SCSI 接口 支持 异步 和 同步 
两 种 传输 模式 。Ultra 320 SCSI 引入 了 调 步 传输 模式 ， 在 这 种 传输 模式 中 简化 了 数据 时 钟 逻辑 ， 
使 Ultra 320 SCSI 的 高 传输 速率 成 为 可 能 。Ultra 320 SCSI 的 传输 速率 可 以 达到 320MB/s。 
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图 3-18 为 SCSI 总 线 连接 示意 图 。 


SCSI 战 统 
到 主机 IO 控制 器 < 


信号 终结 电阻 


图 3-18 SCSI 总 线 连接 示意 图 
下 面 介绍 SCSI 协议 中 的 OSI 模型 。 


上 面 描述 的 SCSI 接口 的 各 个 规范 ， 全 部 限于 物理 电气 层 ， 即 描述 传输 速率 、 电 气 技术 性 能 
等 。SCSI 是 一 套 完整 的 数据 传输 协议 。 一 个 通信 协议 必然 会 跨越 OSI 的 所 有 7 个 层次 ， 而 物理 
电气 参数 只 是 OSI 模型 中 的 第 一 层 ， 那 么 第 二 层 到 第 七 层 ，SCSI 规范 中 也 包含 么 ? 答案 当然 是 
肯定 的 。 


1. SCSI 协 议 的 链 路 层 


OSI 模型 中 链 路 层 的 功能 就 是 用 来 将 数据 帧 成 功 地 传送 到 这 条 线路 的 对 端 。SCSI 协议 中 ， 
利用 CRC 校 验 码 来 校 验 每 个 指令 或 者 数据 的 帧 ,如 果 发 现 对 方 发 来 的 校 验 码 与 本 地 计算 的 不 同 ， 
则 说 明 这 个 数据 帧 在 传输 过 程 中 受到 了 比较 强 的 干扰 而 使 其 中 某 个 或 者 某 些 位 发 生 了 翻转 , 那么 
就 会 丢弃 这 个 帧 ， 发 送 方便 会 重 传 这 个 帧 。 


2. SCSI 协 议 的 网 络 层 


1) SCS1 总 线 编 址 机 制 

OSI 模型 中 网 络 层 的 功能 就 是 用 来 寻 址 的 , 那么 面 对 总 线 或 者 交换 架构 下 的 多 个 节点 , 各 个 
节点 之 间 又 是 如 何 区 分 对 方 呢 ? 只 有 解决 了 这 个 问题 ， 才 能 继续 ， 否 则 是 没有 意义 的 。SCSI 协 
议 利 用 了 一 个 SCSIID 的 概念 来 区 分 每 个 节点 。 在 Ultra 320 SCSI 协议 中 , 一 条 SCSI 总线 上 可 以 
存在 16 个 节点 ,其 中 SCSI 控制 器 占用 一 个 节点 ,SCSI ID 被 恒定 设置 为 7。 其 他 15 个 节点 的 SCSI 
ID 可 以 随便 设置 但 是 不 能 重复 。 这 16 个 ID 中 ,7 具有 最 高 的 优先 级 。 也 就 是 说 ， 如 果 ID7 要 
发 起 传输 ， 则 其 他 15 个 ID 都 必须 乖乖 把 总 线 的 使 用 权 让 给 它 。 图 3-19 是 SCSI 总 线 ID 优先 级 


示意 图 。 
[7 lelsTs[sT2fT:lofsTsTslelrnfolelTs] 


最 高 优先 权 最 低 优 先 权 
图 3-19 SCSI 总 线 ID 优先 级 示意 图 

由 于 总 线 是 一 种 共享 的 线路 , 总 线 上 的 每 个 节点 都 会 同时 感知 到 这 条 线路 上 的 电位 信号 , 所 
以 同一 时 刻 只 能 由 一 个 节点 向 这 条 总 线 上 放 数 据 ， 也 就 是 给 这 条 线路 加 一 个 高 电位 或 者 低 电 位 。 
其 他 所 有 节点 都 能 感知 到 这 个 电位 的 增 降 , 但 是 只 有 接受 方 节点 才 会 将 感知 到 的 电位 增 降 信号 保 
存 到 自己 的 缓存 中 ， 这 些 保存 下 来 的 信号 就 是 数据 。 电 路 上 是 高 电位 则 接受 方 会 保存 为 1， 低 电 
位 则 保存 成 0， 反 过 来 保存 也 可 以 。 图 3-20 所 示 的 一 个 只 有 两 条 导线 的 总 线 网 络 ( 实际 中 的 总 
线 远 远 不 止 两 条 导线 ) ， 其 中 总 线 终结 电阻 的 作用 是 终结 导线 上 的 电位 信号 。 
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此 导线 上 电 


此 导线 上 电 位 处 处 相等 


位 处 处 相等 


A 
sre 


图 3-20 SCSI 总 线 ID 
图 3-21 是 一 个 32 位 数据 总 线 的 SCSI ID 与 其 优先 级 以 及 导线 的 对 应 表 。 


图 3-21 SCSI ID 与 其 优先 级 以 及 导线 的 对 应 表 

那么 这 些 节 点 是 如 何 知道 现在 正在 通信 的 两 个 节点 之 中 有 没有 自己 呢 ? 要 了 解 当 前 线路 上 
是 不 是 自己 在 通信 , 或 者 自己 想 争 夺 线 路 的 使 用 权 而 通告 其 他 节点 ， 这 个 过 程 叫做 仲裁 。 有 总 线 
的 地 方 就 有 仲裁 ， 因 为 总 线 是 共享 的 ， 各 个 节点 都 申请 使 用 ， 所 以 必须 有 一 个 仲裁 机 制 。SCSI 
接口 并 不 只 有 8 或 者 16 条 数据 线 ， 还 有 很 多 控制 信号 线 。 

普通 台式 机 主板 一 般 不 集成 SCSI 控制 器 , 如 果 想 接 入 SCSI 磁盘 , 则 必须 增加 SCSI 卡 。 SCSI 
卡 一 端 接 入 主机 的 PCI 总 线 , 另 一 端 用 一 个 SCSI 控制 器 接 入 SCSI 总 线 。 卡 上 有 自己 的 CPU( 频 
率 很 低 ， 一般 为 RISC 架构 ) ， 通 过 执行 ROM 中 的 代码 来 控制 整个 SCSI 卡 的 工作 。 经 过 这 样 
的 架构 ，SCSI 卡 将 SCSI 总 线 上 的 所 有 设备 经 过 PCI 总 线 传递 给 内 存 中 运行 着 的 SCSI 卡 的 驱动 
程序 ， 这 样 操作 系统 便 会 知道 SCSI 总 线 上 的 所 有 设备 了 。 如 果 这 块 卡 有 不 止 一 个 SCSI 控制 器 ， 
则 每 个 控制 器 都 可 以 单独 掌管 一 条 SCSI 总 线 , 这 就 是 多 通道 SCSI 卡 。 通 道 越 多 , 一 张 卡 可 接 入 
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的 SCSI 设备 就 越 多 。 
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图 3-22 是 SCSI 总线 接 入 计算 机 总 线 的 示意 图 。 


桥 间 连 接 总 线 


USB 总 线 = 


CI 总线 


系统 (CPU) 总 线 


证 
人 上 性 作 后 


SCSI 总 线 个 
图 3-22 SCSI 总 线 与 计算 机 总 线 

2) SCS1 寻 址 机 制 和 几 个 阶段 

(1) 空闲 阶段 

总 线 一 开始 是 处 于 一 种 空闲 状态 ， 没 有 节点 要 发 起 通信 。 总 线 空 闲 的 时 候 ，BSY 和 SEL 
这 两 条 控制 信号 线 的 状态 都 为 False 状态 ( 用 一 个 持续 的 电位 表示 ) ， 此 时 任何 节点 都 可 以 发 
起 通信 。 

(2 ) 仲裁 阶段 

节点 是 通过 在 8 条 或 者 16 条 数据 总 线 上 ( 8 位 宽 SCSI 有 8 条 ,16 位 宽 SCSI 有 16 条 ) 提升 
自己 对 应 的 那 条 线路 的 电位 来 申请 总 线 使 用 权 的 。 提 升 自己 ID 对 应 线路 的 电位 的 同时 ， 这 个 节 
点 也 提升 BSY 线路 的 电位 。 每 个 ID 号 对 应 这 8 条 或 者 16 条 线 中 的 一 条 。SCSI 设备 上 都 有 跳 线 
用 来 设置 这 个 设备 的 ID 号 。 跳 线 设置 好 之 后 ， 这 个 设备 每 次 申请 仲裁 都 只 会 在 SCSI 接口 的 8 
条 或 16 条 数据 线 中 的 对 应 它 自 身 ID 的 那 条 线 上 提升 电位 。 如 果 同时 有 多 个 节点 提升 了 各 自 线路 
上 的 电位 , 那么 所 有 发 起 申请 的 节点 均 判 断 总 线 上 的 这 些 信号 ， 如 果 自 己 是 最 高 优先 级 的 ， 那 么 
就 持续 保留 这 个 信号 。 而 其 他 低 优先 级 的 节点 一 旦 检测 到 高 优先 级 的 ID 线路 上 有 信号 ， 则 立即 
撤销 自身 的 信号 ， 回 到 初始 状态 等 待 下 轮 仲 裁 ， 而 最 高 优先 级 的 ID 就 在 这 轮 仲裁 中 获胜 ， 取 得 
总 线 的 使 用 权 ， 同 时 将 SEL 信号 线 提升 电位 。 

SCSI 总 线 的 寻 址 方式 ， 按 照 控 制 器 一 通道 -SCSI ID -LUN ID 来 寻 址 。LUN 是 个 新 名 词 ， 
全 称 是 Logical Unit Number， 后 文 会 对 它 进行 描述 。 

先 看 一 下 控制 器 一 级 寻 址 。 控 制 器 就 是 指 SCSI 控制 器 ， 这 个 控制 器 集成 在 南 桥 上 ， 或 者 
独立 于 某 个 PCI 插 卡 。 但 不 管 在 哪里 ， 它 们 都 要 连接 到 主机 IO 总 线 上 。 有 IO 端口 ， 就 可 以 
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让 CPU 访问 到 。 一 个 主机 IO 总 线 上 不 一 定 只 有 一 个 SCSI 控制 器 ， 可 以 有 多 个 ， 比 如 插入 多 
张 SCSI 卡 到 主板 ， 那么 就 会 在 Windows 系统 的 设备 管理 器 中 发 现 多 个 SCSI 控制 器 。 系 统 会 
区 分 每 个 控制 器 。 

每 个 控制 器 又 可 以 有 多 个 通道 。 通 道 也 就 是 SCSI 总 线 ， 一 条 SCSI 总 线 就 是 一 个 通道 。 那 
么 多 条 SCSI 总 线 ( 通道 ) 可 以 被 一 个 控制 器 管理 么 ? 答案 是 肯定 的 ， 这 个 物理 控制 器 会 被 逻辑 
划分 为 多 个 虚拟 的 、 可 以 管理 多 个 通道 ( SCSI 总 线 ) 的 控制 器 ， 称 为 多 通道 控制 器 。 目 前 市 场 
上 有 的 产品 可 以 将 4 个 通道 集成 到 一 个 单独 的 SCSI 卡 上 。 不 仅仅 SCSI 控制 器 可 以 有 多 通道 ,IDE 
控制 器 也 有 通道 的 概念 。 我 们 知道 ， 普 通 台式 机 主板 上 一 般 会 有 两 个 IDE 插 槽 ,一 个 IDE 插 模 
可 以 连接 两 个 IDE 设备 , 但 是 设备 管理 器 中 只 有 一 个 IDE 控制 器 ， 如 图 3-23 所 示 。 也 就 是 说 一 
个 控制 器 掌管 着 两 个 通道 ， 每 个 通道 ( 总线) 上 都 可 以 接 入 两 个 IDE 设备 。 

I Te Intel(R) 82801GBM/GHM (ICH7-M Family) Serial ATA Storage Controller - 27C4 


号 次 要 1DE 通道 
局 主要 IDE 通道 


图 3-23 Windows 中 的 IDE 控制 器 

常 说 的 “ 单 通道 SCSI 卡 ”和 “ 双 通 道 SCSI 卡 ”， 就 是 指 上 面 可 以 接 几 条 SCSI 总 线 。 当 然 
通道 数目 越 多 ， 能 接 入 的 SCSI 设备 也 就 越 多 。 

每 个 通道 ( 总线) 上 可 以 接 入 8 或 16 个 SCSI 设备 ， 所 以 必须 区 分 开 每 个 SCSI 设备 。SCSI 

ID 就 是 针对 每 个 设备 的 编号 ， 每 个 通道 上 的 设备 都 有 自己 的 ID。 不 同 通道 之 间 的 设备 ID 可 以 

相同 ， 并 不 影响 它们 的 区 分 ， 因 为 它们 的 通道 号 不 同 。 如 图 3-24 所 示 为 多 通道 控制 器 示意 图 。 


图 3-24 多 通道 控制 器 示意 图 


图 3-25 中 所 示 的 机 器 安装 了 一 块 LSI 的 SCSI 卡 , 但 是 显示 为 两 个 设备 , 这 两 个 设备 就 是 两 


个 通道 。 
E et 
| LSI Adapter, tra320 SCSI 2000 series， (with 1020/1030) 
i LSI Adapter, Ultra320 SCSI 2000 series, (with 1020/1030) 
图 3-25 Windows 中 的 SCSI 控制 器 
其 中 一 个 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 ( 第 三 个 PCI 插 槽 ) 上 。 功 能 0 指 的 就 是 0 号 
通道 ， 如 图 3-26 所 示 。 
另 一 个 也 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 ( 第 三 个 PCI 插 槽 ) 上 ， 表 明 这 个 设备 也 在 同 
一 块 SCSI 卡 上 。 功 能 1 指 的 是 1 号 通道 ， 如 图 3-27 所 示 。 
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图 3-26 Windows 中 的 控制 器 通道 号 (1) 图 3-27 Windows 中 的 控制 器 通道 号 (2 ) 

然而 ，SCSIID 并 不 是 SCSI 总 线 网 络 中 的 最 后 一 层 地 址 , 还 有 一 个 LUN ID。 这 个 是 做 什么 
用 的 呢 ? 难道 一 个 SCSI ID， 也 就 是 一 个 SCSI 设备 ， 还 可 以 再 划分 ?是 的 ， 可 以 再 分 ! 再 分 就 
不 是 物理 上 的 分 制 了 ， 总 不 能 把 一 个 SCSI 设备 艇 开 两 半 吧 。 只 能 在 逻辑 上 分 ,每 个 SCSI ID 下 
可 以 再 区 分 出 来 若干 个 LUN ID。 控 制 器 初始 化 的 时 候 ， 会 对 每 个 SCSI ID 上 的 设备 发 出 一 条 
Report LUN 指令 ， 用 来 收集 每 个 SCSI ID 设备 的 LUN 人 信息。 这样， 一 条 SCSI 总 线 上 可 接 入 的 
最 终 逻 辑 存 储 单元 数量 就 大 大 增加 了 。LUN 对 传统 的 SCSI 总 线 来 说 意义 不 大 ， 因 为 传统 SCSI 
设备 本 身 已 经 不 可 物理 上 再 分 了 。 如 果 一 个 物理 设备 上 没有 再 次 划分 的 逻辑 单元 , 那么 这 个 物理 
设备 必须 向 控制 器 报告 一 个 LUN0， 代 表 物 理 设备 本 身 。 对 于 带 RAID 功能 的 SCSI 接口 磁盘 阵 
列 设备 来 说 ， 由 于 会 产生 很 多 的 虚拟 磁盘 ， 所 以 只 靠 SCSI ID 是 不 够 的 ， 这 时 候 就 要 用 到 LUN 
来 扩充 可 寻 址 的 范围 ， 所 以 习惯 上 称 磁盘 阵列 生成 的 虚拟 磁盘 为 LUN。 关 于 RAID 和 磁盘 阵列 
会 分 别 在 本 书 的 第 4~6 章 中 介绍 。 

(3 ) 选择 阶段 

仲裁 阶段 之 后 , 获胜 的 节点 会 将 BSY 和 SEL 信号 线 置 位 , 然后 将 8 或 16 条 数据 总 线 上 对 应 
它 自身 ID 的 线路 和 对 应 它 要 通信 的 目标 ID 的 线路 的 电位 提升 ,这 样 目的 节点 就 能 感知 到 它 自己 
的 线路 上 来 了 信号 ， 开 始 做 接收 准备 。 

提示 : SCSI 控制 器 也 是 总 线 上 的 一 个 节点 ， 它 的 优先 级 必须 是 最 高 的 ， 即 等 于 7， 因 


总 线 上 最 常 发 生 的 是 控制 器 向 其 他 节点 发 送 和 接收 数据 , 而 除 控制 器 之 外 的 其 他 节点 之 间 交 
互 数据 , 一 般 是 不 会 发 生 的 。 如 果 要 从 总 线 上 的 一 块 硬盘 复制 数据 到 另 一 块 硬盘 , 那 也 必须 先 将 
数据 发 送 到 控制 器 ， 控 制 器 再 复制 到 内 存 ， 经 过 CPU 运算 后 再 次 发 给 控制 器 ， 然 后 控制 器 再 发 
给 另外 一 块 硬盘 。 经 过 这 么 长 的 路 径 而 不 直接 让 这 两 块 硬盘 建立 通信 , 原因 就 是 硬盘 本 身 是 不 能 
感知 文件 这 个 概念 的 ， 硬 盘 只 理解 SCSI 语言 ， 而 SCSI 语言 是 处 理 硬 盘 LBA 块 的 ， 即 告诉 硬盘 
读 或 者 写 某 些 LBA 地 址 上 的 扇 区 ( 块 ) ， 而 不 可 能 告诉 硬盘 读 写 某 个 文件 。 文 件 这 个 层次 的 功 
能 是 由 运行 在 主机 上 的 文件 系统 代码 所 实现 的 , 所 以 硬盘 必须 将 数据 先 传送 到 主机 内 存 由 文件 系 
统 处 理 ， 然 后 再 发 向 另外 的 硬盘 。 

这 就 是 SCSI 的 网 络 层 。 每 个 节点 都 在 有 条 不 紊 地 和 控制 器 交互 着 数据 。 


3. SCSI 协 议 的 传输 层 


OSI 模型 中 的 传输 层 的 功能 就 是 保障 此 端的 数据 成 功 地 传送 到 彼 端 。 与 链 路 层 不 同 的 是 , 链 
路 层 只 是 保障 线路 两 端 数据 的 传送 , 而 且 一 旦 某 个 帧 出 错 , 链 路 层 程序 本 身 不 会 重新 传送 这 个 帧 。 
所 以 , 需要 有 一 个 端 到 端的 机 制 来 保障 传输 ,这 个 机 制 是 运行 在 通信 双方 最 终 的 两 端的 , 而 不 是 
某 个 链 路 的 两 端 。 
图 3-28 显示 了 SCSI 协议 是 如 何 保障 每 个 指令 都 被 成 功 传送 到 对 方 的 。 
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SSP initiator port SSP target port 
Send SCSI — COMMAND frame—> 
eh SCSI Command Received () 
4-XFER_RDY frame Receive Data Out () SSP larget port 
ls 
i XFER_RDY 
initiator port DATA fral es 
lesto _ | receives DATA 
FER ROY U : frames until all 
one or 4 
whone or : Data Out Receved () wte dala nas 
IUs transferred 
4 一 RESPONSE frame— 
te 
ps i I 
een Send Command Complete () 


图 3-28 ”控制 器 向 设备 发 送 数 据 ( 写 入 数据 ) 
发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCSI Command 写 命令 帧 ， 其 中 包含 对 应 的 LUN 
号 以 及 LBA 地 址 段 。 接 收 端 接收 后 ， 就 知道 下 一 步 对 方 就 要 传输 数据 了 。 接 收 方 做 好 准备 后 ， 
向 发 起 方 发 送 一 个 XFER_RDY 帧 ， 表 示 已 经 做 好 接收 准备 ， 可 以 随时 发 送 数据 。 
发 起 方 收 到 XFER_RDY 帧 之 后 ， 会 立即 发 送 数据 。 每 发 送 一 帧 数据 ， 接 收 方 就 回 送 一 个 
XFER_RDY 帧 ， 表 示 上 一 帧 成 功 收 到 并 且 无 错误 ， 可 以 立即 发 送 下 一 帧 ， 直 到 数据 发 送 结束 。 
接收 方 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCSI 命令 执行 完毕 。 


图 3-29 是 一 个 SCSI 读 过 程 的 示意 图 。 


SSP initiator port SSP target port 
Send SCSI 一 COMMAND frame-»> 
0 SCSI Command Received (0 
4— DATA frame Send Data in () SSp target 
Data In Delivered 0 ppor ones 
until all read 
data has 
transferred 
Command 
Complete RESPONSEframe— | Send Command Complete () 
Received () 
time 


time 


图 3-29 控制 器 向 设备 读 取 数据 
发 起 方 在 获得 总 线 仲裁 之 后 , 会 发 送 一 个 SCSI Command 读 命 令 帧 。 接收 端 接收 后 , 立即 将 
该 命令 中 给 出 的 LUN 以 及 LBA 地 址 段 的 所 有 扇 区 的 数据 读 出 ， 传 送 给 发 起 端 。 
所 有 数据 传输 结束 后 ， 目 标 端 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCSI 命令 执行 完毕 。 


SCSI 协议 语言 就 是 利用 这 种 两 端 节点 之 间 相 互 传送 一 些 控制 帧 ， 来 达到 保障 数据 成 功 传输 
的 目的 。 


4. SCSI 协议 的 会 话 层 、 表 示 层 和 应 用 层 


会 话 层 、 表 示 层 和 应 用 层 是 OSI 模型 中 最 上 面 的 三 层 ， 是 与 底层 网 络 通信 语言 无 关 的 ， 底 
层 语言 没有 必要 了 解 上 层 语言 的 含义 。 有 没有 会 话 层 , 完全 取决 于 利用 这 个 协议 进行 通信 的 应 用 
程序 。 这 里 我 们 就 不 再 详 述 了 。 
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3.6 ”磁盘 控制 器 、 驱 动 器 控制 电路 和 磁盘 控制 器 驱动 程序 


3.6.1 ”磁盘 控制 器 


硬盘 的 接口 包括 物理 接口 , 也 就 是 硬盘 接 入 到 磁盘 控制 器 上 需要 用 的 接口 , 具体 的 针 数 、 某 
个 针 的 作用 等 。 除 了 物理 接口 规范 之 外 , 还 定义 了 一 套 指 令 系 统 ， 叫 做 逻辑 接口 。 磁 盘 通 过 物理 
线 费 和 接口 连接 到 磁盘 控制 器 之 后 , 若 想 在 磁盘 上 存放 一 个 字母 应 该 怎么 操作 ? 这 是 需要 业界 定 
义 的 很 重要 的 东西 。 指 令 集 定义 了 “怎样 向 磁盘 发 送 数据 和 从 磁盘 读 取 数据 以 及 怎样 控制 其 他 行 
为 ” ,比如 SCSI 和 ATA 指令 。 其 中 ,逻辑 接口 ， 也 就 是 SCSI 或 者 ATA 指令 集 部 分 ， 指 令 实体 
内 容 是 需要 由 运行 于 操作 系统 内 核 的 驱动 程序 来 生成 的 , 而 物理 接口 的 连接 , 就 是 磁盘 控制 器 芯 
片 需要 负责 的 ， 比 如 ATA 控制 器 或 SCSI 控制 器 。 磁 盘 控 制 器 的 作用 是 参与 底层 的 总 线 初始 化 、 
仲裁 等 过 程 以 及 指令 传输 过 程 、 指 令 传 输 状态 机 、 重 传 、ACK 确认 等 ， 将 这 些 太 过 底层 的 机 制 
过 滤 掉 ， 从 而 向 驱动 程序 提供 一 种 简洁 的 接口 。 驱 动 程序 只 要 将 要 读 写 的 设备 号 、 起 始 地 址 等 信 
息 ， 也 就 是 指令 描述 块 ( Command Description Block，CDB ) 传递 给 控制 器 即 可 ， 控 制 器 接受 指 
令 并 做 相应 动作 ， 将 执行 后 的 结果 信号 返回 给 驱动 程序 。 


3.6.2 ”驱动 器 控制 电路 


应 该 将 磁盘 控制 器 和 磁盘 驱动 器 的 控制 电路 区 别 开 来 , 二 者 是 作用 于 不 同 物理 位 置 的 。 磁盘 
驱动 器 控制 电路 位 于 磁盘 驱动 器 上 , 它 专门 负责 直接 驱动 磁头 臂 做 运动 来 读 写 数据 : 而 主板 上 的 
磁盘 控制 器 专门 用 来 向 磁盘 驱动 器 的 控制 电路 发 送 指令 ， 从 而 控制 磁盘 驱动 器 读 写 数据 。 由 磁盘 
控制 器 对 磁盘 驱动 器 发 出 指令 ， 进 而 操作 磁盘 ，CPU 做 的 仅仅 是 操作 控制 器 就 可 以 了 。 来 梳理 
一 下 这 个 结构 ，CPU 通过 主板 上 的 导线 发 送 SCSI 或 者 ATA 指令 ( CDB ) 给 同样 处 于 主板 上 的 
磁盘 控制 器 ， 磁 盘 控 制 器 继而 通过 线 缆 将 指令 发 送 给 磁盘 驱动 器 并 维护 底层 指令 交互 状态 机 , 由 
磁盘 驱动 器 解析 收 到 的 指令 从 而 根据 指令 的 要 求 来 控制 磁头 臂 。 

SCSI 或 者 ATA 指令 CDB 是 由 OS 内 核 的 磁盘 控制 器 驱动 程序 生成 并 发 送 的 。CPU 通过 执 
行 磁盘 控制 器 驱动 程序 ， 生 成 指令 发 送 给 磁盘 控制 器 ， 控 制 器 收 到 这 些 CDB 后 ， 会 做 一 定 程度 
的 翻译 映射 工作 ， 生 成 最 底层 的 磁盘 可 接受 的 纯 SCSI 指令 ， 然 后 通过 底层 的 物理 操作 ， 比 如 总 
线 仲 裁 ， 然 后 编码 ， 再 在 线 缆 上 将 指令 发 送 给 对 应 的 磁盘 。 


3.6.3 ”磁盘 控制 器 驱动 程序 


那么 机 器 刚 通电 , 操作 系统 还 没有 启动 起 来 并 加 载 磁盘 控制 器 驱动 的 时 候 , 此 时 是 怎么 访问 
磁盘 的 呢 ? CPU 必须 执行 磁盘 通道 控制 器 驱动 程序 才能 与 控制 器 交互 ， 才 能 读 写 数据 。 所 以 ， 
系统 BIOS 中 存放 了 初始 化 系统 所 必需 的 基本 代码 。 系 统 BIOS 初始 化 过 程 中 有 这 么 一 步 ， 就 是 
去 发 现 并 执行 磁盘 控制 器 的 Optional ROM ( 该 ROM 被 保存 在 磁盘 通道 控制 器 中 或 者 单独 的 
Flash 芯片 内 ) ,该 ROM 内 包含 了 该 控制 器 的 最 原始 的 、 可 在 主 BIOS 下 执行 的 驱动 程序 ， 主 
BIOS 载 入 并 执行 该 ROM， 从 而 就 加 载 了 其 驱动 程序 ， 也 就 可 以 与 控制 器 进行 交互 了 。 最 后 主 
BIOS 通过 执行 驱动 程序 而 使 得 CPU 可 以 发 送 对 应 的 读 指 令 , 提取 磁盘 的 0 磁道 的 第 一 个 扇 区 中 
的 代码 载 入 内 存 执行 ， 从 而 加 载 OS。 
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系统 BIOS ( 主 BIOS ) 中 是 包含 常用 的 磁盘 控制 器 驱动 程序 的 ， 但 是 对 于 一 些 不 太 常用 的 较 
高 端的 板 载 控制 器 或 者 PCIE 卡 形式 的 控制 卡 ， 主 BIOS 一 般 不 包含 其 驱动 ， 所 以 必须 主动 加 载 其 
Optional ROM 才能 在 主 BIOS 下 驱动 。 如 果 根 本 不 需要 在 主 BIOS 下 使 用 该 控制 器 ， 那 么 就 不 必 
加 载 Optional ROM。 在 OS 内 核 启动 过 程 中 ,会 用 高 性 能 的 驱动 程序 来 接管 BIOS 中 驻 留 的 驱动 
程序 。 当 然 ，BIOS 中 也 要 包含 键盘 驱动 ， 如 果 支 持 USB 移动 设备 启动 ， 还 要 有 USB 驱动 。 
图 3-30 显示 了 磁盘 控制 器 驱动 程序 、 磁 盘 控 制 器 和 磁盘 驱动 器 控制 电路 三 者 之 间 的 关系 。 
控制 器 驱动 程序 负责 将 上 层 下 发 的 SCSI/ATA 指令 传递 给 控制 器 硬件 。 


SCSI 或 者 
IDE 接口 


2 产生 _/ AN 
或 六 
人 SCSI 或 者 


1IDE 线 缆 


3. 
i 
裸 指令 集 


硬盘 控制 器 的 

赐 动 程序 驻 贸 

在 内 存 中 

图 3-30 磁 和 控 制 器 驱动 程序 、 磁 盘 控 制 器 和 磁 青 驱动 器 控制 电路 三 者 的 关系 
安装 操作 系统 时 ,安装 程序 要 求 必须 加 载 完 整 的 磁盘 控制 器 驱动 程序 之 后 才 可 以 识别 到 控制 

器 后 面 的 磁盘 从 而 才 可 以 继续 安装 。 此 时 虽然 系统 BIOS 里 的 基本 简化 驱动 已 经 可 以 向 磁盘 进行 
读 写 操作 ， 但 是 其 性 能 是 很 差 的 ， 基 本 都 使 用 Int13 调用 方式 ; 而 现代 操作 系统 都 抛弃 了 这 种 方 
式 , 所 以 安装 操作 系统 过 程 中 必须 加 载 完 整 驱 动 才 可 以 获得 较 高 的 性 能 。 至 于 系统 安装 完 后 的 启 
动 过 程 ， 一 开始 必须 由 BIOS 来 将 磁盘 的 0 磁道 代码 读 出 执行 以 便 加 载 操作 系统 ， 使 用 的 是 简化 
驱动 ， 启 动 过 程 中 ，OS 的 完整 驱动 会 蔡 代 掉 BIOS 的 简化 驱动 被 加 载 。 


提示 : 本 书 第 9 章 会 详细 描述 SAN Boot 的 启动 过 程 以 及 磁盘 控制 器 驱动 程序 的 详细 架构 。 
3.7 ”内 部 传输 速率 和 外 部 传输 速率 


3.7.1 ”内 部 传输 速率 


磁盘 的 内 部 传输 速率 指 的 是 磁头 读 写 磁盘 时 的 最 高 速率 。 这 个 速率 不 包括 寻 道 以 及 等 待 扁 区 
旋转 到 磁头 下 所 耗费 时 间 的 影响 。 它 是 一 种 理想 情况 ， 即 假设 磁头 读 写 的 时 候 不 需要 换 道 , 也 不 
专门 读 取 某 个 扇 区 , 而 是 只 在 一 个 磁道 上 连续 地 循环 读 写 这 个 磁道 的 所 有 扇 区 , 此 时 的 速率 就 叫 
做 硬盘 的 内 部 传输 速率 。 

通常 ， 每 秒 10000 转 的 SCSI 硬盘 的 内 部 传输 速率 的 数量 级 大 概 在 1000MB/s 左右 。 但 是 为 
何 实际 使 用 硬盘 的 时 候 , 比如 复制 一 个 文件 , 其 传输 速率 充其量 只 是 每 秒 几 十 兆 字 节 呢 ? 原因 就 
是 磁头 需要 不 断 换 道 。 
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想象 : 闪电 侠 正 在 做 数学 题 ， 假 设 我 们 不 打 断 他 ， 他 每 秒 能 连续 做 100 道 题 ， 此 时 我 们 

每 隔 0.1 秒 ， 就 和 他 交谈 打 断 他 一 次 ， 每 次 交谈 的 时 间 是 0.5 秒 。 也 就 是 说 闪电 使 实际 

上 做 数学 题 的 时 间 是 每 隔 0.5 秒 做 一 次 , 每 次 只 能 做 0.1 秒 的 时 间 。 这样, 每 0.6 秒 闪 电 

侠 只 能 做 10 道 题 ， 那 么 可 以 计算 出 闪电 使 实际 每 秒 能 做 的 数学 题 只 有 区 区 16 道 ， 这 和 

我 们 不 打 断 他 时 的 每 秒 100 道 题 相 比 差 了 6 信和 多 。 

同样 ， 磁 盘 也 是 这 个 道理 ,我 们 不 断 地 用 换 道 来 打 断 磁头 。 磁 头 滑 过 盘 片 一 图 ， 只 需要 很 
短 的 时 间 ， 而 换 道 所 需 的 时 间 远 远 比 盘 片 旋转 一 圈 耗 费 的 时 间 多 ,所 以 造成 磁盘 整体 外 部 传输 
速率 显著 下 降 。 有 人 问 ， 必 须要 换 道 么 ?如 果 要 读 写 的 数据 仅仅 在 一 条 磁道 上 ， 那 是 可 以 获得 
极 高 的 传输 速率 的 ,但 是 这 并 不 容易 实现 。 如 今 ， 随 着 硬盘 容量 的 加 大 ， 应 用 程序 产生 的 文件 
更 是 在 肆 无 忌 习 地 加 大 ， 动 辑 几 十 、 几 百 兆 甚至 上 GB 大 小 ， 敢 问 这 种 文件 用 一 个 磁道 能 放下 
么 ? 显然 不 能 。 

所 以 , 磁头 必须 不 断 地 被 “ 打 断 ”去 进行 换 道 操作 ， 整 体 传输 速率 就 会 大 大 降低 。 实 际 中 一 
块 10000 转 的 SCSI 硬盘 的 实际 外 部 传输 速率 也 只 有 80MB/s 左右 ( 最 新 的 15000 转 的 SAS 硬盘 
外 部 传输 率 最 大 已 经 可 以 达到 200MB/s ) 。 为 了 避免 磁头 被 不 断 打 断 的 问题 ， 人 们 发 明了 RAID 
技术 ,让 一 个 硬盘 的 磁头 在 换 道 时 ， 另 一 个 磁盘 的 磁头 在 读 写 。 如 果 有 很 多 磁盘 联合 起 来 ， 同 一 
时 刻 总 有 某 块 硬盘 的 磁头 在 读 写 状态 而 不 是 都 在 换 道 状 态 , 这 就 相当 于 一 个 大 虚拟 磁盘 的 磁头 总 
是 处 于 读 写 状态 , 所 以 RAID 可 以 显著 提升 传输 速率 。 不 仅 如 此 , 如 果 我 们 将 RAID 阵列 再 次 进 
行 联合 , 就 能 将 速率 在 RAID 提速 的 基础 上 , 再 次 成 倍 地 增加 。 这 种 工作 ， 就 需要 大 型 磁盘 阵列 
设备 来 做 了 。 

提示 : RAID 技术 的 细节 在 本 书 第 4 章 详细 阐述 ;磁盘 阵列 技术 将 在 本 书 第 6 章 介绍 。 


3.7.2 ”外 部 传输 速率 


磁头 从 盘 片 上 将 数据 读 出 , 然后 存放 到 硬盘 驱动 器 电路 板 上 的 缓存 芯片 内 , 再 将 数据 从 缓存 
内 取出 , 通过 外 部 接口 传送 给 主板 上 的 硬盘 控制 器 。 从 外 部 接口 传送 给 硬盘 控制 器 时 的 传输 速率 ， 
就 是 硬盘 的 外 部 传输 速率 。 这 个 动作 是 由 硬盘 的 接口 电路 来 发 起 和 控制 的 。 接 口 电路 和 磁头 控制 
电路 是 不 同 的 部 分 ， 磁 头 电路 部 分 是 超 精 密 高 成 本 的 部 件 ， 可 以 保证 磁头 读 写 时 的 高 速率 。 但 是 
因为 磁头 要 被 不 断 地 打 断 , 所 以 外 部 接口 传输 速率 无 须 和 磁头 传输 速率 一 样 ,只 要 满足 最 终 的 实 
际 速率 即 可 。 外 部 接口 的 速率 通常 大 于 实际 使 用 中 磁头 读 写 数据 的 速率 ( 计 入 换 道 的 损失 ) 。 


3.8 “并行 传输 和 串 行 传输 
3.8.1 并 行 传输 

来 举 一 个 例子 ， 有 8 个 数字 从 1 到 8， 需 要 传送 给 对 方 。 此 时 我 们 可 以 与 对 方 连接 8 条 线 ， 
每 条 线 上 传输 一 个 字符 ， 这 就 是 并 行 传输 。 并 行 传输 要 求 通信 双方 之 间 的 距离 足够 短 。 因 为 如 果 
距离 很 长 ， 那 么 这 8 条 线 上 的 数字 因为 导线 电阻 不 均衡 以 及 其 他 各 种 原因 的 影响 , 最 终 到 达 对 广 


的 速度 就 会 显现 出 差距 ,从 而 造成 接收 方 必须 等 8 条 线 上 的 所 有 数字 都 到 达 之 后 , 才能 发 起 下 一 
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并 行 传输 应 用 到 长 距离 的 连接 上 就 无 优点 可 言 了 。 首先 , 在 长 距离 上 使 用 多 条 线路 要 比 使 用 
一 条 单独 线路 昂贵 ; 其 次 ,长 距离 的 传输 要 求 较 粗 的 导线 ， 以 便 降 低 信号 的 衰减 ， 这 时 要 把 它们 
捆 到 一 条 单独 电缆 里 相当 困难 。IDE 硬盘 所 使 用 的 40 或 者 80 芯 电 费 就 是 典型 的 并 行 传输 。40 
芯 中 有 32 芯 是 数据 线 ， 其 他 8 芯 是 承载 其 他 控制 信号 用 的 。 所 以 ， 这 种 接口 一 次 可 以 同时 传输 
32b 的 数据 ， 也 就 是 4B。 

提示 : I0 延迟 与 Queue Depth 

IO 延迟 是 指控 制 器 将 IO 指令 发 出 之 后 , 直到 IO 完成 的 过 程 中 所 耗费 的 时 间 。 目前 业界 

有 不 成 文 的 规定 ; 只 要 I0 延迟 在 20ms 以 内 ， 此 时 IO 的 性 能 对 于 应 用 程序 来 说 都 是 可 

以 接受 的 ， 但 是 如 果 延 迟 大 于 20ms， 应 用 程序 的 性 能 将 会 受到 比较 大 的 影响 。 

我 们 可 以 推算 出 ,存储 设备 应 当 满 足 的 最 低 IOPS 要 求 应 该 为 1000/20 = 50， 即 只 要 存储 

设备 能 够 提供 每 秒 50 次 IO， 则 就 能 够 满足 10 延迟 小 于 等 于 20ms 的 要 求 。 但 是 每 秒 50 

次 ， 这 显然 太 低估 存储 设备 的 能 力 了 。 

单 块 SATA 硬盘 能 够 提供 最 大 两 倍 于 这 个 最 低 标准 的 数值 ， 而 FC 磁盘 则 可 以 达到 4 倍 

于 这 个 数值 。 对 于 大 型 磁盘 阵列 设备 ， 由 若干 磁盘 共同 接受 10， 加 上 若干 个 IO 通道 并 

行 工 作 ， 目 前 中 高 端 设 备 达 到 十 几 万 的 IOPS 已 经 不 成 问题 。 

然而 , 不 能 总 以 最 低 标准 来 要 求 存 储 设 备 。 当 接受 I0 很 少 的 时 候 , IO 延迟 一 般 会 很 小 ， 

比如 lms 甚至 小 于 lms。 此 时 ， 每 个 I0 通道 的 IOPS = 1000/1 = 1000， 这 个 数值 显然 也 

不 对 ， 上 文 所 述 的 几 十 万 IOPS， 如 果 每 个 I0 通道 仅 提供 1000 的 IOPS， 那 么 达到 几 十 

万 , 需要 几 百 路 10 通道 , 这 显然 不 切实 际 。 那 么 几 十 万 的 IOPS 是 怎么 达到 的 呢 ? 这 就 

引出 了 另 一 个 概念 : Queue Depth。 

控制 器 向 存储 设备 发 起 的 指令 ， 不 是 一 条 一 条 顺序 发 送 的 ， 而 是 一 批 一 批 地 发 送 ， 存 储 

目标 设备 批量 执行 I0, 然后 将 数据 和 结果 返回 控制 器 。 也 就 是 说 ,只 要 存储 设备 肚 量 

消化 能 力 足 够 ， 在 IO 比较 少 的 时 候 ， 处 理 一 条 指令 和 同时 处 理 多 条 指令 将 会 耗费 几乎 

相同 的 时 间 。 控 制 器 所 发 出 的 批量 指令 的 最 大 条 数 ， 由 控制 器 上 的 Queue Depth 决定 。 

如 果 连 接 外 部 独立 磁盘 阵列 , 则 一 般 主 机 控制 器 端 可 以 将 其 Queue Depth 设置 为 64、128 

等 值 ， 视 情况 而 定 。 

如 果 给 出 Queue Depth、IOPS、IO 延迟 三 者 中 的 任意 两 者 ， 则 可 以 推算 出 第 三 者 ， 公 式 

为 : IOPS = (Queue Depth)MIO Latency)。 实 际 上 ， 随 着 Queue Depth 的 增加 ，I0 延迟 也 会 

随即 增加 ， 二 者 是 互相 促进 的 关系 ， 所 以 ， 随 着 I0 数目 的 增多 ， 将 很 快 达到 存储 设备 

提供 的 最 大 IOPS 处 理 能 力 ， 此 时 I0 延迟 将 会 陡峭 地 升 高 ， 而 IOPS 则 增加 缓慢 。 好 的 

存储 系统 ， 其 IO 延迟 的 增加 应 该 是 越 缓慢 越 好 ， 也 就 是 说 存储 设备 内 部 应 该 具有 快速 

IO 消化 能 力 。 而 对 于 消化 不 良 的 存储 设备 , 其 IO 延迟 将 升 高 得 很 快 , 以 至 于 在 IOPS 较 

低 时 ，I0 延迟 已 经 达到 了 20ms 的 可 接受 值 。 消 化 能 力 再 高 ， 也 有 饱和 的 时 候 。 图 3-31 

所 示 为 I0 延迟 与 Queue Depth 示意 图 。 
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+ 消化 不 良 


20ms 


IO 延迟 


IOPS 
图 3-31 I0 延迟 与 Queue Depth 示意 图 


3.8.2” 串 行 传输 


还 是 上 面 的 例子 ,如 果 只 用 一 条 连 线 来 连接 到 对 方 , 则 我 们 依次 在 这 条 线 上 发 送 这 8 个 数字 ， 
需要 发 送 8 次 才能 将 数字 全 部 传送 到 对 方 。 串 行 传输 在 效率 上 ,显然 比 并 行 传输 低 得 多 。 但 是 串 
行 也 有 串 行 的 优势 ， 就 是 凭借 这 种 优势 使 得 硬盘 的 外 部 接口 已 经 彻底 被 串 行 传输 所 占领 。USB 
接口 、IEEE 1394 接口 和 和 COM 接口 ， 这 些 都 是 串 行 传输 的 计算 机 外 部 接口 。 

并 行 传输 表面 上 看 来 比 串 行 传输 效率 要 高 很 多 倍 , 但 是 并 行 传输 有 不 可 逾越 的 技术 困难 , 那 
就 是 它 的 传输 频率 不 可 大 高 。 由 于 在 电路 高 速 震 荡 的 时 候 , 数据 线 之 间 会 产生 很 大 的 干扰 ,造成 
数据 出 错 ， 所 以 必须 增加 屏蔽 线 。 即 使 加 了 屏蔽 线 ， 也 不 能 保证 屏 殴 掉 更 高 的 频率 干扰 。 所 以 并 
行 传输 效率 高 但 是 速度 慢 。 而 串 行 传输 则 刚好 相反 ,效率 是 最 低 的 , 每 次 只 传输 一 位 ,但 是 它 的 
速度 非常 高 ， 现 在 已 经 可 以 达到 10Gb/s 的 传输 速率 ， 但 传输 导线 不 能 太 多 。 

这 样 算 来 , 串 行 传输 反而 比 并 行 传输 的 总 体 速 率 更 快 。 串 行 传输 不 仅仅 用 于 远 距 离 通信 , 现 
在 就 连 PCI 接口 都 转向 了 串 行 传输 方式 。PCIE 接口 就 是 典型 的 串 行 传输 方式 ， 其 单条 线路 传输 
速率 高 达 2.5Gb/s, 还 可 以 在 每 个 接口 上 将 多 条 线路 并 行 ， 从 而 将 速率 翻 倍 , 比如 4 的 PCIE 最 
高 可 达 16X， 也 就 是 说 将 16 条 2.5Gb/s 的 线路 并 行 连接 到 对 方 。 这 仿佛 又 回 到 了 并 行 时 代 , 但 
是 也 只 有 在 短 距离 传输 上 , 比如 主板 上 的 各 个 部 件 之 间 , 才能 承受 如 此 高 速 的 并 行 连接 ,， 远 距离 
传输 是 达 不 到 的 。 


3.9 ”磁盘 的 IOPS 和 传输 带宽 ( 吞吐 量 ) 


3.9%1 ‘IOPS 


磁盘 的 IOPS， 也 就 是 每 秒 能 进行 多 少 次 IO, 每 次 IO 根据 写 入 数据 的 大 小 ， 这 个 值 也 不 是 
固定 的 。 如 果 在 不 频繁 换 道 的 情况 下 ， 每 次 IO 都 写 入 很 大 的 一 块 连续 数据 ， 则 此 时 每 秒 所 做 的 
IO 次 数 是 比较 低 的 ; 如 果 磁 头 频繁 换 道 , 每 次 写 入 数据 还 比较 大 的 话 , 此 时 IOPS 应 该 是 这 块 硬 
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盘 的 最 低 数 值 了 ; 如果 在 不 频繁 换 道 的 条 件 下 ,每 次 写 入 最 小 的 数据 块 ， 比 如 512B， 那 么 此 时 
的 IOPS 将 是 最 高 值 ;， 如 果 使 IO 的 payload 长 度 为 0， 不 包含 开销 ， 这 样 形成 的 IOPS 则 为 理论 
最 大 极限 值 。IOPS 随 着 上 层 应 用 的 不 同 而 有 很 大 变化 。 

提示 : 如 何 才 算 一 次 I0 呢 ? 这 是 很 多 人 都 没有 弄 清 楚 的 问题 ， 也 是 定义 很 混乱 的 一 个 

问题 。 其 根本 原因 就 在 于 一 次 IO 在 系统 路 径 的 每 个 层次 上 都 有 自己 的 定义 。 整 个 系统 

是 由 一 个 一 个 的 层次 模块 组 合 而 成 的 ， 每 个 模块 之 间 都 有 各 自 的 接口 ， 而 在 接口 间 流 动 

的 数据 就 是 I0。 那 么 如 何 才 算 “ 一 次 ”IO 呢 ? 以 下 列举 了 各 个 层次 上 的 “一 次 ”I0 的 

应 用 程序 向 操作 系统 请 求 : “ 读 取 C:vead.txt 到 我 的 缓冲 区 ”。 操 作 系统 读 取 后 返回 应 

用 程序 一 个 信号 ， 这 次 I0 就 完成 了 。 这 就 是 应 用 程序 做 的 一 次 IO。 

文件 系统 向 磁盘 控制 器 驱动 程序 请 求 : “ 读 取 从 LBA10000 开始 的 后 128 个 扇 区 ”， 然 

后 “请 读 取 从 LBA50000 开始 的 后 64 扇 区 ”， 这 就 是 文件 系统 向 下 做 的 两 次 I0。 这 两 

次 IO0， 假 设 对 应 了 第 一 步 里 那个 应 用 程序 的 请 求 。 

磁盘 控制 器 驱动 程序 用 信和 号 来 驱动 磁盘 控制 器 向 磁盘 发 送 SCSI 指令 和 数据 。 对 于 SCSI 

协议 来 说 ， 完 成 一 次 连续 LBA 地 址 扇 区 的 读 写 就 算 一 次 I0。 但 是 为 了 完成 这 次 读 或 者 

写 ， 可 能 需要 发 送 若干 条 SCSI 指令 帧 。 从 最 底层 来 看 ， 每 次 向 磁盘 发 送 一 个 SCSI 帧 ， 

就 算 一 次 I0, 这 也 是 最 细 粒 度 的 IO。 但 是 通常 说 磁盘 I0 都 是 指 完成 整个 一 次 SCSI 读 或 

者 写 。 

如 果 在 文件 系统 和 磁盘 之 间 再 插入 一 层 卷 管理 层 ,或 在 磁盘 控制 器 和 磁盘 之 间 再 插入 一 

层 RAID 虚拟 化 层 , 那么 上 层 的 一 次 I0 就 往往 会 演变 成 下 层 的 多 次 I0。 

对 于 磁盘 来 说 ， 每 次 IO 就 是 指 一 次 SCSI 指令 交互 回合 。 一 个 回合 中 可 能 包含 了 若干 
SCSI 指令 ， 而 这 一 个 回合 里 却 只 能 完成 一 次 IO， 比 如 “ 读 取 从 LBA10000 开始 的 后 128 个 
扇 区 ”。 

例如 ， 写 入 10 000 个 大 小 为 1KB 的 文件 到 硬盘 上 ， 耗费 的 时 间 要 比 写 入 一 个 10MB 大 小 的 
文件 多 得 多 , 虽然 数据 总 量 都 是 10MB。 因 为 写 入 10 000 个 文件 时 ,根据 文件 分 布 情况 和 大 小 情 
况 ， 可 能 需要 做 好 几 万 甚至 十 几 万 次 IO 才能 完成 。 而 写 入 一 个 10MB 的 大 文件 ， 如 果 这 个 文件 
在 磁盘 上 是 连续 存放 的 ， 那 么 只 需要 几 十 个 IO 就 可 以 完成 。 

对 于 写 入 10 000 个 小 文件 的 情况 ， 因 为 每 秒 需要 的 IO 非常 高 ， 所 以 此 时 如 果 用 具有 较 高 
IOPS 的 磁盘 , 将 会 提速 不 少 。 而 写 入 一 个 10MB 文件 的 情况 , 就 算 用 了 有 较 高 IOPS 的 硬盘 来 做 ， 
也 不 会 有 提升 ， 因 为 只 需要 很 少 的 IO 就 可 以 完成 了 ， 只 有 换 用 具有 较 大 传输 带宽 的 硬盘 ， 才 能 
体现 出 优势 。 

同一 块 磁盘 在 读 写 小 块 数据 的 时 候 速度 是 比较 高 的 ; 而 读 写 大 块 数据 的 时 候 速 度 比较 低 , 因 
为 读 写 花费 的 时 间 变 长 了 。15000 转 的 硬盘 比 10000 转 的 硬盘 性 能 要 高 。 图 3-32 所 示 为 磁盘 IOPS 
性 能 与 IO SIZE 的 关系 曲线 。 
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图 3-32 磁盘 IOPS 性 能 与 10 SIZE 的 关系 曲线 
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3.9.2 ”传输 带宽 


传输 带宽 指 的 是 硬盘 或 设备 在 传输 数据 的 时 候 数据 流 的 速度 。 还 是 刚才 那个 例子 , 如 果 写 入 
10 000 个 1KB 的 文件 需要 10s, 那么 此 时 的 传输 带宽 只 能 达到 每 秒 1MB, 而 写 入 一 个 10MB 的 文 
件 用 了 0.1s， 那么 此 时 的 传输 带宽 就 是 100MB/s。 所 以 ， 即 使 同一 块 硬盘 在 写 入 不 同 大 小 的 数据 
时 ,表现 出 来 的 带宽 也 是 不 同 的 。 具 有 高 带宽 规格 的 硬盘 在 传输 大 块 连续 数据 时 具有 优势 ， 而 具 
有 高 IOPS 的 硬盘 在 传输 小 块 不 连续 的 数据 时 具有 优势 。 

同样 ， 对 于 一 些 磁盘 阵列 来 说 ， 也 有 这 两 个 规格 。 一 些 高 端 产品 同时 具备 较 高 的 IOPS 和 带 
宽 ， 这 样 就 可 以 保证 在 任何 应 用 下 都 能 表现 出 高 性 能 。 


3.10 ”固态 存储 介质 和 固态 硬盘 


固态 存储 在 这 几 年 来 开始 大 行 其 道 ， 其 在 性 能 方面 相对 机 械 磁 盘 来 讲 有 着 无 与 伦比 的 优势 ， 
比如 , 没有 机 械 寻 道 时 间 , 对 任何 地 址 的 访问 耗费 开销 都 相等 , 所 以 随机 IO 性 能 很 好 。 关于 SSD 
的 一 些 性 能 指标 ， 本 节 不 再 列 出 。 

但 是 SSD 也 存在 一 些 致命 的 缺点 ， 现 在 我 们 就 来 了 解 一 下 固态 存储 。 

提示 : 关于 固态 硬盘 的 一 些 细节 标准 和 操作 指南 请 参考 《 固态 硬盘 火力 全 开 一 一 超 高 速 

SSD 应 用 详解 与 技巧 》， 清 华 大 学 出 版 社 。 
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3.10.1 SSD 固态 硬盘 的 硬件 组 成 


SSD ( Solid State Drive ) 是 一 种 利用 Flash 芯片 或 者 DRAM 芯片 作为 数据 永久 存储 的 硬盘 ， 
这 里 不 可 以 再 说 磁盘 了 ， 因 为 Flash Drive 不 再 使 用 磁 技术 来 存储 数据 。 利 用 DRAM 作为 永久 存 
储 介质 的 SSD, 又 可 称 为 RAM-Dsk, 其 内 部 使 用 SDRAM 内 存 条 来 存储 数据 , 所 以 在 外 部 电源 
断 开 后 ， 需 要 使 用 电池 来 维持 DRAM 中 的 数据 。 现 在 比较 常见 的 SSD 为 基于 Flash 介质 的 SSD。 
所 有 类 型 的 ROM (比如 EPROM、EEPROM ) 和 Flash 芯片 使 用 一 种 叫做 “浮动 门 场 效 应 晶体 
管 ” 的 晶体 管 来 保存 数据 。 每 个 这 样 的 晶体 管 叫 做 一 个 “Cell”， 即 单元 。 有 两 种 类 型 的 Cell: 
第 一 种 是 Single Level Cell SLC ), 每 个 Cell 可 以 保存 1bit 的 数据 ;第 二 种 为 Multi Level Cell MLC )， 
每 个 Cell 可 以 保存 2bit 的 数据 。MLC 容量 为 SLC 的 两 倍 , 但 是 成 本 却 与 SLC 大 致 相当 , 所 以 相 
同 容量 的 SSD，MLC 芯片 成 本 要 比 SLC 芯片 低 很 多 。 此 外 ，MLC 由 于 每 个 Cell 可 以 存储 4 个 
状态 ， 其 复杂 度 比较 高 ， 所 以 出 错 率 也 很 高 。 不 管 SLC 还 是 MLC， 都 需要 额外 保存 ECC 校 验 
信息 来 做 数据 的 错误 恢复 。 

我 们 来 看 一 下 这 种 场 效应 晶体 管 为 何 可 以 保存 数据 。 由 于 计算 机 的 数据 只 有 0 和 1 两 种 形式 ， 
那么 只 要 让 某 种 物质 的 存在 状态 只 有 两 种 , 并 且 可 以 随时 检测 其 状态 , 那么 这 种 物质 就 可 以 存储 
lbit 数据 。 磁 盘 使 用 一 块 磁 粒 子 区 域 来 保存 1 或 者 0， 那么 对 于 芯片 来 讲 用 什么 来 表示 呢 ? 当然 
非 电 荷 莫 属 。 比 如 充满 电表 示 0， 放 电 后 表示 1 ( 这 里 指 电子 而 不 是 正 电荷 ) 。 浮 动 门 场 效应 晶 
体 管 就 是 利用 这 种 方法 。 

如 图 3-33 所 示 ， 浮 动 门 场 效应 管 由 Controler Gate ( CG ) 、Floating Gate ( FG ) 、 半 导体 二 
氧化 硅 绝 缘 层 以 及 输入 端 源 极 和 输出 端 汲 极 触 点 等 逻辑 元 件 组 成 。 浮动 门 是 一 块 氮 氧化 物 , 其 四 
周 被 二 氧化 硅 绝 缘 层 包 庄 着 ， 其 外 部 为 男 一 个 门 电路 ( 即 控制 门 )。 在 Word Line ( 字 线 ) 上 抬 
高 电势 ,会 在 $ 和 D 之 间 区 域 感 生出 一 个 电场 ， 从 而 导 通 S 和 D、S 和 DD 之 间 有 电流 通过 ， 这 
会 使 一 部 分 电子 穿 过 绝缘 层 到 达 浮 动 门 内 的 氮 氧 化 物 , 在 这 个 充电 过 程 中 , 电子 电荷 被 存储 在 了 
浮动 门 中 。 随 后 Word Line 恢复 电势 ,控制 门 断 开 电场 ， 但 是 此 时 电子 仍然 在 被 绝缘 层 包 庄 的 浮 
动 门 电路 中 , 所 以 此 时 浮动 门 被 充电 , 并 且 这 些 电荷 可 以 在 外 部 电源 消失 之 后 依然 依然 可 以 保存 
一 段 时 间 。 不 同 规格 的 Flash 其 
保存 时 间 不 同 ， 通 常 为 数 个 月 。 

这 为 系统 设计 带 来 了 复杂 性 ， 

Flash 控制 器 必须 确保 每 个 Cell 。 字 线 
在 电荷 逐渐 泄露 到 无 法 感知 之 

重新 充电 。 而且 要 逐渐 调整 感知 

时 间 ， 由 于 对 Cell 的 读 操作 是 

通过 预 充电 然后 放电 来 比 对 基 tsp rate eg 
准 电压 , 进而 判断 1 或 0 的 , 如 "yl 

果 其 中 的 电荷 所 剩 不 多 , 那么 感 “人 
知 基准 电压 的 变化 就 需要 更 长 3 、 < om 8 
的 等 待 时 间 , 控制 器 需要 精确 的 _ Ee. 

做 预 判 才 可 以 保证 性 能 。 国生 的 
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所 谓 “浮动 门 ” ( Floating Gate，FG ) 的 名 称 也 就 是 由 此 而 来 的 ， 即 这 块 氮 氧 化 物 是 被 二 氧 
化 硅 绝 缘 层 包 衰 住 而 浮动 在 空中 的 ， 如 图 3-33 右 图 所 示 ， 电 流 从 Source 极 进 入 ， 从 Drain 极 流 
出 ， 浮 动 门 一 头 与 S 极 接触 ， 一 头 与 D 极 接触 ， 由 于 被 包 庄 有 绝缘 层 ， 当 电路 电压 达到 一 定 闪 
值 之 后 , 可 以 被 击 穿 导 电 , 从 而 被 充电 或 者 放电 。 被 充电 到 一 定 电势 阀 值 的 Cell 的 状态 被 表示 为 
“0”， 如 果 是 MLC， 可 以 保存 4 个 电势 状态 , 分 别 对 应 00、01、10、11，MLC 能 够 用 一 个 Cell 
存储 两 位 ， 也 是 这 个 道理 ， 要 存 哪个 数值 ， 就 充电 到 哪个 电势 档 位 。FG 上 方 有 一 片 金属 ， 称 为 
控制 门 (CG ) ,连接 着 字 线 ， 当 需要 用 这 个 Cell 表示 “0” 的 时 候 ， 只 需要 在 控制 门 上 加 一 个 足 
够 高 的 正 电 压 ， 导 通 S 和 D， 产生 电流 ， 从 而 电子 从 Source-Drain 电极 穿越 冲 入 到 FG 中 。 向 
FG 中 充电 之 后 ，Cell 表示 0, 将 FG 放电 ，Cell 表示 1。 

提示 : 这 有 些 难以 记忆 ， 因 为 按照 常规 思维 ， 充 电 应 当 表示 1 而 放电 表示 0， 这 里 恰好 

相反 。 

至 此 我 们 了 解 到 : Cell 是 利用 FG 中 的 电势 值 来 与 阀 值 对 比 从 而 判断 其 表示 1 或 者 0 的 。 
那么 是 否 可 以 让 一 个 Cell 有 多 个 阁 值 ， 让 每 一 个 闪 值 都 表示 一 种 状态 呢 ? 答案 是 可 以 。MLC 
类 型 的 Cell 就 是 这 样 做 的 。MLC 模式 的 SSD ， 其 每 个 Cell 具有 4 个 电势 阀 值 ， 每 次 充电 用 特 
定 电 路 掌握 住 火候 ， 充 到 一 定 阀 值 之 上 但 是 低 于 下 一 个 阀 值 ， 这 样 ， 利 用 4 个 阀 值 就 可 以 表示 
4 种 状态 了 ，4 个 阀 值 依 次 表示 00、01、10、11。 要 向 其 写 入 什么 值 ， 只 需要 向 其 充 多 少 火 候 
的 电 就 可 以 了 。 

如 图 3-33 ( 物理 图 ) 和 3-34 ( 抽象 图 ) 为 Cel 阵列 的 有 序 排列 图 。 我 们 可 以 看 到 每 个 Cell 
串 是 由 多 个 Cell 串联 而 成 的 ， 每 个 
Cell 串 每 次 只 能 读 写 其 中 一 个 Cell， Block Architecture 
多 个 Cell 串 并 联 则 可 以 并 行 读 写 多 
位 数据 。 通 常 一 个 Page 中 的 所 有 位 S| 
中 的 每 个 位 均 位 于 一 个 Cell 串 相 同 
的 位 置 上 ,那么 对 于 一 个 使 用 2122B 
( 含 ECC ) /Page 的 芯片 来 讲 ， 就 需 
要 16896 个 Cell 串 ， 需 要 16896 条 
串联 导线 。 如 图 所 示 ， 将 每 个 Cell Do se 3 
串 上 所 有 Cell 串联 起 来 的 导线 称 为 ] ] 
“位 线 ”， 也 就 是 串联 每 个 Cell 的 S 


和 D 极 的 那 根 导线 ， 同 时 也 是 电源 page a 
线 ; 将 多 个 并 联 的 Cell 串 中 相同 位 

置 的 cell 的 CG 金属 片 水 平 贯穿 起 A 

来 (并 联 ) 的 那 根 导 线 组 称 为 “ 字 一 

线 ”， 这 样 就 组 成 了 一 个 二 维 Cell 图 3-34 Cell 阵列 的 有 序 排 布 图 
矩阵 。 


将 多 个 这 样 的 Cell 排列 在 一 起 形成 阵列 ， 就 可 以 同时 操作 多 个 比特 了 。NAND 就 是 利用 大 
量 这 种 Cell 有 序 排列 而 成 的 一 种 Flash 芯片 。 如 图 3-35 所 示 为 一 片 16GB 容量 的 Flash 芯片 的 逻 
辑 方 框图 。 每 4314 x 8=34512 个 Cell 逻辑 上 形成 一 个 Page, 每 个 Page 中 可 以 存放 4KB 的 内 容 和 
218B 的 ECC 校 验 数 据 ，Page 也 是 Flash 芯片 IO 的 最 小 单位 。 每 128 个 Page 组 成 一 个 Block, 每 
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2048 个 Block 组 成 一 个 区 域 (Plane ) ， 一 整 片 Flash 芯片 由 两 个 区 域 组 成 ， 一 个 区 域 存储 奇数 序 
号 的 Block， 另 一 个 则 存储 偶数 序号 的 Block， 两 个 Plane 可 以 并 行 操作 。Flash 芯片 的 Page 大 小 
可 以 为 2122B ( 含 ECC ) 或 者 4313B ( 含 ECC ) ,一 般 单 片 容量 较 大 的 Flash 其 Page Size 也 大 。 
相应 地 ，Block Size 也 会 根据 单 片 容量 的 不 同 而 不 同 , 一 般 有 32KB、64KB、128KB、512KB (不 
含 ECC ) 等 规格 ， 视 不 同 设计 而 定 。 


4.314 bytes 一 < 一 4.314 bytes—» 


2 > Vo7 
Cache Register 4096 Il218| 4096 I21 voo 
一 二 一 
Data Register 4096 Il218| 4096 121 


1page = (4K+218 byteg) 


1block = (4K+218) bytesx 128 pages 
2,048 blocks } = (512K + 27K) bytes 


per plane 
1plane = (512K + 27K) bytesx 2.048 blocks 

4.096 blocks 

per device = 8,628Mb 
1 device = 8,628Mb x2 planes 
= 17,256Mb 
二 人 | 
地 酒 
Plane of Plane of 


even-numbered blocks odd-numbered blocks 
(0, 2, 4, 6, ..., 4,092, 4,094) (1,3, 5, 7, .., 4,093, 4,095) 


图 3-35 Flash 芯片 次 辑 图 


如 图 3-36 所 示 为 Intel X-25M 固态 硬盘 的 拆 机 图 , 可 以 看 到 它 使 用 了 10 片 NAND Flash 心 
片 ， 左上 方 为 SSD 控制 器 ,左下 方 为 RAM Buffer。 最 左 侧 为 SATA 物理 接口 。 


图 3-36 Cell 阵列 有 序 排 布 图 


如 图 3-37 所 示 为 某 SSD 控制 器 芯片 的 方 框图 。 其 中 包含 多 个 逻辑 模块 ,外 围 接口 部 分 和 底 
层 供电 部 分 我 们 就 不 去 关心 了 。 这 里 将 目光 集中 在 右 半边 ， 其 中 8051CPU 通过 将 ROM 中 的 
Firmware 载 入 IRAM 中 执行 来 实现 SSD 的 数据 IO 和 管理 功能 。Flash Controller 负责 向 所 有 连接 
的 NAND Flash 芯片 执行 读 写 任务 ， 每 个 NAND 芯片 用 8b 并 行 总 线 与 Fash Controller 上 的 每 个 
通道 连接 ， 每 时 钟 周期 并 行 传递 8b 数据 。Flash Controller 与 Flash 芯片 之 间 也 是 通过 指令 的 方式 
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来 运作 的 , 地址 信息 与 数据 信息 都 在 这 8 位 总 线 上 传送 ,由 于 总 线 位 宽 太 窄 , 所 以 一 个 简单 的 寻 
址 操作 就 需要 多 个 时 钟 周 期 才能 传送 完毕 。 芯 片 容 量 越 大 , 那么 地 址 也 就 越 长 ， 寻 址 时 间 也 就 越 
长 , 所 以 , 对 于 小 块 随机 IO，Flash 会 随 着 容量 的 增加 而 变 得 越 来 越 低 效 。 新 的 Flash 芯片 已 经 有 
16b 总 线 的 设计 了 。 总 线 频率 目前 一 般 为 33MHz， 最 新 也 有 40MHz 的 。 


图 3-37 Flash 控制 芯片 方 框图 
对 于 数据 写 入 来 说 ， 待 写 入 的 数据 必须 经 过 ECC 校 验 之 后 ， 将 数据 和 ECC 校 验 信息 一 并 
写 入 芯片 ; 对 于 数据 读 取 来 说 ， 数 据 会 与 其 对 应 的 ECC 信息 一 起 读 出 并 作 校 验 ， 校 验 正确 后 才 
会 通过 外 部 接口 发 送出 去 。ECC 运算 器 位 于 Flash Controller 中 。 整 个 SSD 会 有 一 片 很 大 容量 的 
RAM ( 相对 于 机 械 磁 盘 来 讲 ) ,通常 是 64MB 甚至 128MB， 其 原因 将 在 下 文 讲述 。CPU 执行 的 
代码 相对 于 机 械 磁盘 来 讲 也 是 比较 复杂 的 , 关于 CPU 都 需要 执行 哪些 功能 , 也 一 并 在 下 文 讲 述 。 


3.10.2 从 Flash 芯片 读 取 数据 的 过 程 


MOS 的 导 通 并 不 是 非 通 即 断 的 ， 就 算 截止 状态 ， 也 会 有 电流 漏 过 ， 只 是 非常 弱 而 已 。 这 里 
还 要 明确 一 点 , 向 绝缘 层 内 充电 是 指 充 入 电子 , 充 入 负电 荷 , 栅 极 电压 越 负 , nMOS 就 越 导 不 通 ， 
也 就 是 说 ， 漏 电 电流 就 越 弱 。 如 果 不 充 电 ， 反 而 漏电 电流 还 高 一 些 。 
正 是 在 这 种 前 提 下 ， 从 而 可 以 检测 出 这 种 微弱 电流 的 差别 ， 用 什么 手段 ? 还 得 SAMP 上 阵 
了 ,老生常谈 ， 首 先 强制 导 通 未 选中 的 所 有 Cel 的 MOS， 要 读 取 的 MOS 栅 极 不 加 电压 ， 然 后 
给 位 线 预 充电 ( 充 正 电荷 , 拉 高 电 平 ), 然后 让 位 线 自 己 漏电 , 如 果 对 应 的 Cell 里 是 充 了 电 的 ( 充 
的 是 电子 负电 荷 ) ， 那 么 MOS 截止 性 会 加 强 〈 等 效 于 开启 电压 升 高 ) ， 漏 电 很 慢 ( 电压 相对 维 
持 在 高 位 ) ， 如 果 没 充电 , 则 漏电 很 快 ( 电压 相对 维持 在 低位 ) ， 所 以 最 终 SAMP 比较 出 这 两 种 
差别 来 ， 翻 译 成 数字 信号 就 是 ， 充 了 电 = 电 压 下 降 的 慢 = 电 压 比 放 了 电 的 位 线 高 = 逻辑 1， 这 么 想 
你 就 错 了 。 此 处 你 忽略 了 一 点 ， 也 就 是 SAMP 不 是 去 比 对 充 了 电 的 Cell 位 线 和 没 充电 的 Cell 位 
线 , 而 是 把 每 一 根 位 线 与 一 个 参考 电压 比 对 , 所 以 , 这 个 参考 电压 一 定 要 位 于 两 个 比 对 电压 之 间 。 
其 体 过 程 是 这 样 的 , 假设 所 有 位 线 预 充电 结束 时 瞬间 电压 为 1.0v, 然后 让 位 线 自然 放电 (或 者 主 
动 将 位 线 一 端 接地 放电 ) 一 段 时 间 ( 非常 短 ) , 在 这 段 时 间 之 后 ,原先 被 充 了 电 的 Cell 其 位 线 压 
降 速度 慢 ， 可 能 到 0.8v 左右 ， 而 原先 未 被 充电 的 Cell 其 位 线 压 降 速度 较 快 ， 可 能 到 0.4v 左右 ， 
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每 一 种 Flash 颗粒 会 根据 大 量 测试 之 后 ， 最 终 确定 一 个 参考 电压 ， 比 如 0.6v， 也 就 是 位 于 0.4 和 
0.8 之 间 。 那 么 当 SAMP 比 对 充电 Cell 位 线 时 ， 参 考 电压 小 于 位 线 电 压 ，SAMP 普遍 都 是 按照 参 
考 电压 > 比 对 电压 则 为 逻辑 ， 小 于 则 为 逻辑 0 的 ， 所 以 最 终 的 输出 便 是 ， 充 电 Cell 反而 表示 0， 
放 了 电 的 Cell 反而 表示 1。 这 也 正 是 NAND 中 的 “N”( NOT, 非 ) 的 来 历 ，AND 则 是 “与 "， 表 
示 Cell 的 S 和 D 是 串 接 起 来 的 ， 相 当 于 串联 的 开关 ， 它 们 之 间 当 然 是 AND 逻辑 了 。 

如 图 3-38 所 示 ， 当 需要 读 出 某 个 Page 
时 ，Flash Controller 控制 Flash 芯片 将 相应 这 
个 Page 的 字 线 , 也 就 是 串 接 ( 实际 上 属于 并 
联 ) 同一 个 Page 中 所 有 Cell 上 的 CG 的 那 网 
根 导 线 ， 电 势 置 为 0， 也 就 是 不 加 电压 ， 其 这 
他 所 有 Page 的 字 线 的 电势 则 升 高 到 一 个 值 ， page 
也 就 是 加 一 个 电压 ,而 这 个 值 又 不 至 于 把 FG 
里 的 电子 吸出 来 ， 之 所 以 抬 高 电势 ， 是 为 了 es 5 
让 其 他 Page 所 有 的 Cell 的 S 和 D 处 于 导 通 
状态 ， 而 没 被 加 电压 的 Cell ( CG 上 的 电势 
为 0V ) ,也 就 是 我 们 要 读 取 的 那些 Cell, 其 
S 和 D 的 通 断 ， 完 全 取决 于 其 FG 中 是 否 存 图 3-38 读 Page 时 的 电压 状态 
有 电子 。 

SSD 的 IO 最 小 单位 为 1 个 Page。 所 以 ， 对 于 NAND Flash， 通 过 “强行 导 通 所 有 未 被 选中 
的 Cell” AND “检测 位 线 的 通 断 状态 ”=“ 被 选中 的 Cell 的 通 断 状态 ”，NOT“ 被 选中 的 Cell 
的 通 断 状态 ”=“ 位 线 的 1/0 值 ”。 把 这 整个 Page 的 1 或 者 0 传输 到 芯片 外 部 ,放置 于 SSD 的 
RAM Buffer 中 保存 ， 这 就 完成 了 一 个 Page 内 容 的 读 出 。SSD 的 IO 最 小 单位 为 1 个 Page。 


3.10.3 向 Flash 芯片 中 写 入 数据 的 过 程 


对 Flash 芯片 的 写 入 有 一 些 特殊 的 步 又 。Flash 芯片 要 求 在 修改 一 个 Cell 中 的 位 的 时 候 , 在 修 
改 之 前 ， 必 须 先 Ermase ( 即 擦 除 掉 ) 这 个 Cell。 我 们 暂且 先 不 在 此 介绍 为 何 要 先 Erase 再 修改 的 原 
因 , 先 说 一 说 这 个 “Erase” 的 意思 , 这 里 有 点 误导 之 意 。 我 们 以 机 械 磁 盘 为 例 , 机 械 磁 盘 上 的 “ 数 
据 ” 是 永远 都 抹 不 掉 的 ， 如 果 你 认为 将 扇 区 全 部 写 入 0 就 算 抹 掉 的 话 ， 那 也 是 有 问题 的 ， 你 可 以 
说 它 存放 的 全 是 数字 0， 这 也 是 数据 。 那 么 SSD 领域 却 给 出 了 这 个 概念 ， 是 不 是 SSD 中 存在 一 
种 介 于 1 和 0 之 间 的 第 三 种 状态 呢 , 比如 虚无 状态 ? 有 人 可 能 会 联想 一 下 , Cell“ 带 负电 ”、“ 带 
正 电 ”、“ 不 带电 ”， 这 不 就 正好 对 应 了 3 种 状态 么 ? 我 们 可 以 将 “不 带电 ”规定 为 “虚无 ” 状 
态 ， 是 否 将 Cell 从 带电 状态 改 为 不 带电 状态 就 是 所 谓 Erase 呢 ? 不 是 的 。 上 文中 叙述 过 ，Cell 带 
电表 示 0， 不 带电 则 表示 1，Cel 只 能 带 负电 荷 ， 即 电子 ， 而 不 能 带 正 电荷 。 所 以 Cell 只 有 两 种 
状态 ， 而 这 两 种 状态 都 表示 数据 。 

思考 : 为 何不 以 “ 带 正 电 ”表示 1，“ 带 负电 ”表示 0，“ 不 带电 ”表示 中 间 状 态 ? 如 

果 引 入 这 种 机 制 ， 那 么 势必 会 让 电路 设计 更 加 复杂 ,电压 值 需要 横 跨 正 负 两 个 域 ， 对 感 

应 电路 的 设计 也 将 变 得 复杂 ， 感 应 电路 不 但 需要 感应 “有 无 ”还 要 感应 “ 正 负 ”， 这 将 

大 大 增加 设计 成 本 和 器 件数 量 。 另 外 ， 感 应 电路 的 状态 也 只 能 有 两 种 ， 即 表示 为 0 或 者 

表示 为 1， 如 果 0 表示 带 负电 ，1 表示 带 正 电 ， 那么 就 缺少 一 种 用 来 表示 不 带电 的 电路 
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状态 ， 而 这 第 三 种 状态 在 感应 电路 中 是 无 法 表示 的 ， 也 就 是 说 感应 电路 即使 可 以 感知 到 
:种 状态 但 是 也 只 能 表示 出 两 种 状态 。 


其 实 ， 这 里 的 Erase 动作 其 实 就 是 将 一 大 片 连续 的 Cell 一 下 子 全 部 放电 ， 这 一 片 连续 的 Cell 
就 是 一 个 Block。 即 每 次 Erase 只 能 一 下 擦 除 一 整个 Block 或 者 多 个 Block， 将 其 中 所 有 的 Cell 变 
为 1 状态。 但 是 却 不 能 单独 擦 除 某 个 或 者 某 段 Page, 或 者 单个 或 多 个 Cell。 这 一 点 是 造成 后 面 将 
要 叙述 的 SSD 的 致命 缺点 的 一 个 根本 原因 。Erase 完成 之 后 ，Cell 中 全 为 1, 此 时 可 以 向 其 中 写 入 
数据 ， 如 果 遇 到 待 写 入 某 个 Call 的 数据 位 恰好 为 1 的 时 候 ， 那 么 对 应 这 个 Cell 的 电路 不 做 任何 
动作 , 其 结果 依然 是 1; 如 果 遇 到 待 号 入 某 个 Cell 的 数据 位 为 0 的 时 候 ， 则 电路 将 对 应 Cell 的 字 
线 电压 提高 到 足以 让 电子 穿 过 绝缘 体 的 高 度 ， 这 个 电压 被 加 到 Control Gate 上 ， 然 后 使 得 FG 从 
电源 线 ( 也 就 是 位 线 上 ) 汲取 电子 ， 从 而 对 Cell 中 的 FG 进行 充电 ， 充 电 之 后 ，Cell 的 状态 从 1 
变 为 0， 完 成 了 写 入， 这 个 写 0 的 动作 又 叫做 Programm， 即 对 这 个 Cell 进行 了 Programm。 
如 图 3-39 所 示 ， 要 写 入 某 个 Cell， 首 先 也 必须 先 选中 其 所 在 的 Page， 也 就 是 将 这 个 Page 
的 字 线 加 高 电压 , 对 应 这 个 Cell 的 位 线 加 0V 电压 , 同一 个 串 里 的 所 有 其 他 Page 的 字 线 也 加 一 个 
高 电压 但 是 不 如 待 写 入 Page 的 高 ， 同 时 不 
需要 写 入 操作 的 那些 串 对 应 的 位 线 加 一 个 
对 应 字 线 相同 的 电压 ， 结 果 就 是 ， 不 需要 
写 入 数据 的 Cell 的 字 线 和 位 线 电压 抵消 ， et 
电子 不 动 ; 需要 写 入 数据 的 Cell, 也 就 是 需 。 
要 充电 的 Cell, 由 电势 差 将 电子 从 位 线 中 汲 page 20V 
取 过 来 充电 。 仔 细 看 一 下 这 个 过 程 ， 就 会 Te 人 
发 现 ， 根 本 无 法 在 这 个 二 维 矩阵 中 做 到 同 “p10v 
时 给 一 个 Page 里 (一 横行 ) 的 不 同 Cell 既 
充电 又 放电 ， 可 以 自己 推 福 一 下 对 应 字 线 
和 位 线 的 电压 状态 ， 你 会 发 现 永 远 做 不 到 ， 
是 个 矛盾 ,这 也 是 Flash 挥 之 不 去 的 痛 。 我 


Programmed 
Cells 


Stressed 


1i0V 0OV 10V 0V 


们 可 以 思考 一 下 ， 虽 然 不 能 够 同时 对 一 些 Ye 

cell 有 的 写 0、 有 的 写 1， 那 么 是 否 可 以 把 Strings being program med are 
一 个 page 的 写 入 分 成 两 个 周期 来 做 呢 ， 比 grounded. Others are at 10V 

如 第 一 个 周期 先 把 要 写 入 0 的 所 有 Cell 写 图 3-39 写 入 Cell 时 的 电压 状态 


0, 第 二 个 周期 则 要 把 写 入 1 的 所 有 Cell 写 

1, 或 者 反之 ? 完全 可 以 , 但 是 设计 者 并 没有 选择 这 么 做 ， 因 为 对 于 Cell 来 讲 ， 每 个 Cell 都 有 一 
定 的 绝缘 体 击 穿 次 数 ， 比 如 MLC 一 个 Cell 可 击 穿 一 万 次 ， 那 么 就 意味 着 ， 每 个 Page 被 写 入 1 
万 次 就 会 报废 , 这 显然 不 能 接受 ， 有 个 办 法 就 是 让 所 有 Cell 循环 写 入 , 不 写 到 原 地 , 每 次 覆盖 写 
要 新 写 入 其 他 位 置 ， 这 样 就 能 够 保证 所 有 Cell 轮流 被 写 入 , 平衡 整体 寿命 。 所 以 设计 者 选择 了 先 
预先 准备 好 大 片 已 经 写 满 了 全 1 的 Cell， 每 次 写 入 都 写 到 这 些 预 先 备 好 的 地 方 ， 只 写 0， 如 果 是 
覆盖 写 ， 就 需要 把 之 前 的 Page 地 址 做 一 个 重 定向 ,， 所 以 Flash 控制 器 还 需要 保存 一 张 地 址 重 定向 
表 。 还 有 一 个 原因 不 用 两 个 周期 来 实现 对 一 个 page 的 写 入 ， 那 就 是 如 果 每 次 写 入 都 要 耗费 2 个 
周期 ， 写 性 能 便 会 又 降 ， 所 以 设计 者 不 得 不 采用 一 下 子 控 除 大 片 的 Block， 也 就 是 说 不 用 写 IO 
一 次 就 放电 一 次 ,而 是 类 似 “ 批 发 ”, 然后 写 入 的 时 候 只 需要 1 个 周期 即 可 ,所 付出 的 的 代价 就 
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是 后 台 需 要 不 断 地 “批发 ”, 一 旦 断 链 ， 那 么 性 能 便 会 又 降 。 

SSD 会 以 Page 为 单位 进行 写 入 操作 ， 写 完 一 个 Page， 再 写 下 一 个 Page。 

Flash 领域 里 , 写 又 被 称 为 Programm。 由 于 Flash 的 最 常见 表现 形式 一 一 EPRROM 一 般 是 只 
读 的 , 但 是 一 旦 要 更 改 其 中 的 程序 , 则 需要 重新 写 入 , 即 Re-Programm, 所 以 就 顺便 将 写 入 Flash 
的 过 程 叫做 Programm 了 。 一 块 靳 新 的 SSD 上 所 有 Cell 都 是 已 经 被 Erase 好 的 ， 也 可 以 使 用 特殊 
的 程序 对 整个 SSD 重新 整 盘 Erase。 

提示 : 为 何 字 线 并 联 了 所 有 Cell 的 CG ( 也 就 是 所 有 Cell 共享 CG 的 控制 信号 ) ， 而 不 

是 让 每 个 Cell 的 CG 可 以 被 单独 控制 呢 ? 这 样 做 实际 上 还 是 为 了 成 本 和 芯片 面积 考虑 ， 

技术 上 其 实 都 可 以 实现 ， 关 键 是 钱 的 问题 。 


3.10.4 ”Flash 芯片 的 通病 


Flash 芯片 在 写 入 数据 的 时 候 有 诸多 效率 低下 的 地 方 。 包 括 现在 常用 的 U 盘 以 及 SSD 中 的 
Flash 芯片 ， 或 者 BIOS 常用 的 EEPROM， 它 们 都 不 可 避免 。 


1. Flash 芯片 存储 的 通病 之 一 : Erase Before Overwrite 


对 于 机 械 磁 盘 来 说 , 磁盘 可 以 直接 用 磁头 将 对 应 的 区 域 磁化 成 任何 信号 , 如 果 之 前 保存 的 数 
据 是 1， 新 数据 还 是 1， 则 磁头 对 1 磁化 ， 结 果 还 是 1; 如 果 新 数据 是 0， 则 磁头 对 1 磁化 ， 结 果 
就 变 成 了 0。 而 Flash 则 不 然 ， 如 果 要 向 某 个 Block 写 入 数据 ， 则 不 管 原来 Block 中 是 1 还 是 0， 
新 写 入 的 数据 是 1 还 是 0， 必 须 先 Erase 整个 Block 为 全 1， 然 后 才能 向 Block 中 写 入 新 数据 。 这 
种 额外 的 Erase 操作 大 大 增加 了 覆盖 写 的 开销 。 

更 难 办 的 是 ,如 果 仅 仅 需要 更 改革 个 Block 中 的 某 个 Page ,那么 此 时 就 需要 Erase 整个 Block， 
然后 再 写 入 这 个 Page。 那 么 这 个 Block 中 除 这 个 Page 之 外 的 其 他 Page 中 的 数据 在 Erase 之 后 岂 
不 是 都 变 成 1 了 么 ? 是 的 ， 所 以 ,在 Erase 之 前 ， 需 要 将 全 部 Block 中 的 数据 读 入 SSD 的 RAM 
Buffer， 然 后 Erase 整个 Block， 再 将 待 写 入 的 新 Page 中 的 数据 在 RAM 中 覆盖 到 Block 中 对 应 的 
Page， 然后 将 整个 更 新 后 的 Block 写 入 Flash 芯片 中 。 可 以 看 到 , 这 种 机 制 更 加 大 了 写 开 销 , 形成 
了 大 规模 的 写 惩罚 。 这 也 是 为 何 SSD 的 缓存 通常 很 大 的 原因 。 

就 像 CDRW 光盘 一 样 ,如 果 你 只 需要 更 改 其 上 的 几 KB 数据 ,那么 就 要 先 复制 出 全 盘 700MB 
的 数据 ， 然 后 擦 除 所 有 700MB， 然 后 再 写 入 更 改 了 几 KB 数据 的 700MB 数据 。 

SSD 的 这 种 写 惩罚 被 称 为 Write Amplification( 写 扩 大 ) ， 我 们 依然 使 用 写 惩 罚 这 个 词 。 写 
惩罚 有 不 同 的 惩罚 倍数 ， 比 如 ， 需 要 修改 一 个 512KB 的 Block 中 的 一 个 4KB 的 Page， 此 时 的 写 
惩罚 倍数 =512KB/4KB=128。 人 小 块 随机 写 IO 会 产生 大 倍数 的 写 惩罚 。 

当 SSD 当 向 Flash 中 的 Free Space 中 写 入 数据 时 ， 并 没有 写 惩罚 ， 因 为 Free Space 自从 上 次 
被 整 盘 Erase 后 是 没有 发 生 任何 写 入 动作 的 。 这 里 又 牵 渗 到 一 个 比较 有 趣 的 问题 ， 即 存储 介质 如 
何 知道 哪里 是 Free Space， 哪里 是 Occupied Space 呢 ? 本 书 中 多 个 地 方 论述 过 这 一 点 。 只 有 文件 
系统 知道 存储 介质 中 哪些 数据 是 没 用 的 ， 而 哪些 正在 被 文件 系统 所 占用 ， 这 是 绝对 无 可 置疑 的 ， 
除非 文件 系统 通过 某 种 途径 通告 存储 介质 。SSD 也 不 例外 ,一块 刚 被 全 部 Erase 的 SSD ， 其 上 所 
有 Block 对 于 文件 系统 或 者 SSD 本 身 来 讲 , 都 可 以 认为 是 Free Space。 随 着 数据 不 断 的 写 入 , SSD 
会 将 曾经 被 写 入 的 块 的 位 置 记 录 下 来 ,记录 到 一 份 Bitmap 中 ,每 一 比特 表示 Flash 中 的 一 个 Block。 
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对 于 文件 系统 而 言 , 删除 文件 的 过 程 并 不 是 向 这 个 文件 对 应 的 存储 介质 空间 内 覆盖 写 入 全 0 或 者 
1 的 过 程 ， 而 只 是 对 元 数据 的 更 改 ， 所 以 只 会 更 改元 数据 对 应 的 存储 介质 区 域 ， 因 此 ， 删 除 文 件 
的 过 程 并 没有 为 存储 介质 自身 制造 Free Space。 所 以 说 ， 对 于 SSD 本 身 来 讲 ，Free Space 只 会 越 
来 越 少 ， 最 后 导致 没有 Free Space， 导 致 每 个 写 动作 都 产生 写 惩罚 ， 类 似 Copy On Write， 而 且 
Copy 和 Write 很 有 可 能 都 是 一 些 在 文件 系统 层 已 经 被 删除 的 数据 ， 做 了 很 多 无 用 功 ， 写 性 能 急 
剧 下 降 。 对 于 一 块 使 用 非常 久 的 SSD 来 讲 ， 就 算 它 在 被 挂 载 到 文件 系统 之 后 ， 其 上 没有 检测 到 
任何 文件 , 文件 系统 层 剩余 空间 为 100%, 这 种 情况 下 , 对 于 SSD 本 身 来 讲 ，Free Space 的 比例 很 
有 可 能 却 是 0， 也 就 是 说 只 要 曾经 用 到 过 多 少 ， 那 么 那个 水 位 线 就 永远 被 标记 在 那里 。 

每 个 Block 中 的 Page 必须 被 按照 一 个 方向 写 入 ， 比 如 每 个 Block 为 128 个 Page, 共 512KB， 
则 当 这 个 Block 被 擦 除 之 后 ，SSD 控制 器 可 以 先 向 其 中 写 入 前 32 个 Page (或 者 10 个 Page, 数量 
不 限 ) ， 一 段 时 间 之 后 ， 可 以 再 向 这 个 Block 中 追加 写 入 剩余 的 Page (或 者 多 次 追加 一 定数 量 的 
Page 写 入 ) 而 不 需要 再 次 擦 除 这 个 Block。SSD 控制 器 会 记录 每 个 Block 中 的 大 段 连 续 空 余 空 间 。 
但 是 不 能 够 跳跃 的 追加 , 比如 先 写 入 0~31 这 32 个 Page, 然后 写 入 64~ 127 这 64 个 Page, 中 间 
室 出 了 32 个 Page 没有 追加 ,控制 器 是 不 会 使 用 这 种 方式 写 的 ，Page 都 是 连续 排 布 的 。 但 是 一 般 
来 讲 ， 控 制 器 都 是 尽量 一 次 写 满 整个 Block 的 从 而 可 以 避免 很 多 额外 开销 。 


2. Flash 芯片 存储 的 通病 之 二 : Wear Off 


随 着 FG 充 放电 次 数 的 增多 , 二 氧化 硅 绝缘 层 的 绝缘 能 力 将 遭 到 损耗 , 最 后 逐渐 失去 绝缘 性 ， 
无 法 保证 FG 中 保有 足够 的 电荷 。 此 时 ， 这 个 Cell 就 被 宣判 为 损坏 ， 即 Wear Off。 

损坏 的 Cell 将 拖累 这 个 Cell 所 在 的 整个 Page 被 标记 为 损坏 ， 因 为 SSD 寻 址 和 IO 的 最 小 单 
位 为 Page。 损 坏 的 Page 对 应 的 逻辑 地 址 将 被 重 定向 映射 到 其 他 完好 的 预 留 Page，SSD 将 这 些 重 
定向 表 保存 在 ROM 中 ,每 次 加 电 均 被 载 入 RAM 以 供 随时 查询 。 

MLC 由 于 器 件 复杂 ， 其 可 擦 写 的 寿命 比较 低 ， 小 于 10000 次 。 而 SLC 则 高 一 些 ， 十 倍 于 
MLC， 小 于 100000 次 。 这 个 值 是 很 惊人 的 ， 对 于 某 些 场合 下 ， 有 可 能 一 天 就 可 以 废 掉 一 大 堆 
Cell/Page， 几 个 月 之 内 当 预 留 的 Page 都 被 耗 尽 后 ， 就 会 废 掉 整个 SSD。 这 是 绝对 不 能 接受 的 。 

写 惩罚 会 大 大 加 速 Wear Off, 因为 写 惩罚 做 了 很 多 无 用 功 , 增加 了 不 必要 的 擦 写 , 这 无 疑 使 
本 来 就 很 严峻 的 形势 雪上 加 霜 。 但 是 对 于 读 操作 , 理论 上 每 个 Cell 可 以 承受 高 数量 级 的 次 数 而 不 
会 损耗 ， 所 以 对 于 读 来 说 ， 无 须 担心 。 


3.10.5 NAND 与 NOR 


3.10.2 节 已 经 讲 过 ， 这 里 再 强调 一 下 ， 当 需要 读 出 某 个 Page 时 ，Flash Controller 控制 Fash 
芯片 将 相应 这 个 Page 的 字 线 【 也 就 是 串 连 ( 实际 上 属于 并 联 ) 同一 个 Page 中 所 有 Cel 上 的 CG 
的 那 根 导线 ] 电势 置 为 0, 也 就 是 不 加 电压 ,其 他 所 有 Page 的 字 线 的 电势 则 升 高 到 一 个 值 ， 也 就 
是 加 一 个 电压 ， 而 这 个 值 又 不 至 于 把 FG 里 的 电子 吸出 来 ,之 所 以 抬 高 电势 , 是 为 了 让 其 他 Page 
所 有 Cel 的 S 和 D 处 于 导 通 状态 ， 而 没 被 加 电压 的 Cell ( CG 上 的 电势 为 0V ) ， 也 就 是 我 们 要 
读 取 的 那些 Cell, 其 $s 和 DD 的 通 断 完全 取决 于 其 FG 中 是 否 存 有 电子 。 说 白 了 , 未 被 选中 的 所 有 
Cell， 均 强制 导 通 ， 被 选中 的 Cell 的 FG 里 有 电 ， 那 么 串联 这 一 串 Cell 的 位 线 就 会 被 导 通 ， 这 是 
一 种 AND ( 也 就 是 与 ) 的 关系 ; 被 选中 Cell 的 FG 里 如 果 没 电 ,， 那么 其 所 处 的 Cell 串 的 位 线 就 
不 能 导 通 ( 虽然 串 上 的 其 他 Cell 均 被 强制 导 通 ) ， 这 也 是 AND 的 关系 。 也 就 是 一 串 Cell 必须 全 
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导 通 ， 其 位 线 才能 导 通 ， 有 一 个 不 导 通 ， 整 条 位 线 就 不 通 。 这 就 是 NAND Flash 中 的 AND 的 意 
义 。 那 N 表示 什么 ? N 表示 Not， 也 就 是 非 ，NAND 就 是 “ 非 与 ”的 意思 。 为 什么 要 加 个 非 ? 
很 简单 ， 导 通 反 而 表示 为 0, 因为 只 有 FG 中 有 电 才 导 通 ， 上 文 也 说 了 , FG 中 有 电 反 而 表示 为 0， 
所 以 这 就 是 “ 非 ”的 意义 所 在 。 

还 有 一 类 NOR Flash，NOR 就 是 “ 非 或 ”的 意思 , 大 家 自然 会 想到 , 位 线 一 定 不 是 串联 的 ， 
而 是 并 联 的 ， 才 能 够 产生 “或 ”的 逻辑 。 实 际 上 , 在 NOR Flash 里 ， 同 样 一 串 Cel， 但 是 这 串 
Cell 中 的 每 个 Cell 均 引 出 独立 的 位 线 , 然后 并 联接 到 一 根 总 位 线 上 ; 另外 一 点 很 重要 的 是 , 每 个 
Cell 的 S 和 D 之 间 虽 然 物理 上 是 串 连 , 但 是 电路 上 不 再 是 串联 , 而 是 各 自 有 各 自 的 接地 端 , 也 就 
是 每 个 Cel 的 S 和 D 之 间 的 通 断 不 再 取决 于 其 他 Cell 里 S 和 DD 的 通 断 了 ， 只 取决 于 自己 。 以 上 
两 点 共同 组 成 了 “或 ”的 关系 , 同时 每 个 Cell 具有 完全 的 独立 性 ,此 时 只 要 通过 控制 对 应 的 地 线 
端 ,将 未 被 选中 的 Cell 地 线 全 部 断 开 ， 这 样 它们 的 S 和 D 极 之 间 永远 无 法 导 通 ( 逻辑 0 状态 ) ， 
由 于 每 个 Cell 的 位 线 并 联 上 联 到 总 位 线 ， 总 位 线 的 信号 只 取决 于 选中 的 Cell 的 导 通 与 否 ， 对 于 
被 选中 的 Cel, NOT { (“地 线 接 通 ”AND “FG 是 否 有 电 ” ) OR “未 被 选中 Cell 的 输出 ”} = 
“总 位 线 的 1/0 值 ”， 这 就 是 NOR 非 与 门 的 逻辑 。 

由 于 NOR Flash 多 了 很 多 导线 ， 包 括 独 立地 线 ( 通过 地 址 译 码 器 与 Cell 的 地 线 相连 ) 和 多 
余 的 上 联 位 线 ， 导 致 面积 增 大 。 其 优点 是 Cell 独立 寻 址 ， 可 以 直接 用 地 址 线 寻 址 ， 读 取 效 率 比 
NAND 要 高 ， 所 以 可 以 直接 当做 RAM 用 ， 但 是 由 于 擦 除 单位 较 小 ， 擦 除 效率 要 比 NAND 低 ， 
所 以 不 利于 写 频繁 的 场景 。 


3.10.6 SSD 给 自己 开 的 五 剂 良药 
面 对 病 入 音 育 的 SSD 写 入 流程 设计 ， 是 不 是 无 可 救 药 呢 ? 好 在 SSD 开 出 了 五 个 药方 。 
1. 药方 1 : 透支 体力 ， 拆 东 墙 补 西 墙 


为 了 避免 同一 个 Cell 被 高 频率 擦 写 , SSD 有 这 样 一 个 办 法 : 每 次 针对 某 个 或 者 某 段 逻辑 LBA 
地 址 的 写 都 写 到 SSD 中 的 Free Space 中 ， 即 上 一 次 全 盘 Erase 后 从 未 被 写 过 的 Block/Page 中 ， 这 
些 Free Space 已 经 被 放电 ， 直 接 写 入 即 可 ,无 须 青 做 Copy On Wirite 的 操作 了 。 如 果 再 次 遇 到 针 
对 这 个 或 者 这 段 LBA 地 址 的 写 操作 , 那么 SSD 会 再 次 将 待 写 入 的 数据 重 定 向 写 到 Free Space 中 ， 
而 将 之 前 这 个 逻辑 地 址 占用 的 Page 标记 为 “Garbage”， 可 以 回收 再 利用 。 等 到 Block 中 一 定 比 
例 (大 部 分 ) 的 Page 都 被 标记 为 “Garbage” 时 , 并且 存 在 大 批 满足 条 件 的 Block，SSD 会 批量 回 
收 这 些 Block, 即 执行 Copy On Write 过 程 ,将 尚未 被 标记 为 “Garbage” 的 Page 复制 到 RAM Buffer， 
将 所 有 Page 汇集 到 一 起 , 然后 写 入 一 个 新 Erase 的 Block， 再 将 所 有 待 回收 的 Block 进行 Erase 操 
作 ， 变 成 了 Free Space。SSD 这 样 做 就 是 为 了 将 写 操作 平衡 到 所 有 可 能 的 Block 中 ,降低 单位 时 
间 内 每 个 Block 的 擦 写 次 数 ， 从 而 延长 Cel 的 寿命 。 
重 定向 写 的 设计 可 谓 是 一 箭 双 雕 ， 既 解决 了 Wear Of 过 快 问题 ， 又 解决 了 大 倍数 写 惩罚 问 
题 (因为 每 次 写 都 尽量 重 定向 到 Free Space 中 ,无须 CoW ) 。 但 是 ， 正 如 上 文 所 述 ，SSD 自己 
认为 的 纯 Free Space 只 会 越 来 越 少 ， 那 么 重 定向 写 的 几率 也 就 会 越 来 越 少 ， 最 后 降 至 0， 此 时 大 
倍数 写 惩罚 无 可 避免 。 
由 于 Page 的 逻辑 地 址 对 应 的 物理 地 址 是 不 断 被 重 定向 的 ， 所 以 SSD 内 部 需要 维护 一 个 地 址 
映射 表 。 可 以 看 到 这 种 设计 是 比较 复杂 的 , 需要 SSD 上 的 CPU 具有 一 定 的 能 力 运行 对 应 的 算法 
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程序 。 这 种 避免 Wear Of 过 快 的 重 定向 算法 称 为 Wear Leveling， 即 损耗 平衡 算法 。 

Wear Leveling 的 实现 方法 随 不 同 厂商 而 不 同 ， 有些 以 一 块 大 区 域 为 一 个 平衡 范围 ， 有 些 则 
完全 顺序 地 写 完 整个 SSD 的 Free 空间 ， 然 后 再 回来 顺序 地 写 完 整个 被 回收 的 Free 空间 ， 无 限 
循环 直到 Free 空间 为 0 为 止 。 传 统 机 械 硬盘 中 ， 逻 辑 上 连续 LBA 地 址 同样 也 是 大 范围 物理 连 
续 的 , 但 是 对 于 SSD ,逻辑 和 物理 的 映射 随 着 使 用 时 间 的 增长 而 越 来 越 乱 , 好 在 SSD 不 需要 机 
械 寻 址 ， 映 射 关系 乱 只 会 影响 CPU 计算 出 结果 的 时 间 而 不 会 影响 数据 IO 的 速度 ， 而 CPU 运 
算 所 耗费 的 时 间 与 数据 IO 的 时 间 相 比 可 以 忽略 不 计 , 所 以 映射 关系 再 怎么 乱 也 不 会 对 IO 的 性 
能 有 多 少 影 响 。 

利用 这 种 方式 ，SSD 内 部 实现 了 垃圾 回收 清理 以 及 新 陈 代谢 , 使 得 新 擦 除 的 Block 源源 不 断 
地 被 准备 好 从 而 供应 写 操作 。 

有 必要 一 提 的 是 ，Flash 控制 器 的 这 种 机 制 又 可 以 被 称 为 RoW， 也 就 是 Redirect On Write， 
每 遇 到 需要 更 新 的 页 面 ，Flash 控制 器 便 将 其 缓存 到 RAM 中 ， 当 缓冲 的 待 写 入 页 面 达到 了 一 个 
Block 容量 的 时 候 ， 便 会 直接 将 这 些 页 面 写 入 到 一 个 已 经 擦 好 的 Block 中 。 如 果 待 写 入 的 页 面 未 
攒 够 一 个 Block 的 容量 ， 必 要 时 也 可 以 写 入 一 个 擦 好 的 Block， 此 时 这 个 Block 处 于 未 写 满 状态 ， 
随后 可 以 继续 写 入 页 面 直 到 写 满 为 止 ， 当然, 要 做 到 这 一 点 ，Flash 控制 器 就 需要 为 每 个 Block 记 
录 断 点 信息 了 。 

每 次 被 更 新 的 页 面 在 更 新 之 前 所 处 的 位 置 , 会 在 该 页 面 被 重 定向 写 入 到 其 他 Block 之 后 , 在 
映射 表 中 标记 为 垃圾 , 可 以 想象 ， 随 着 使 用 时 间 的 加 长 ，Flash 中 Block 里 的 这 种 垃圾 孔洞 越 来 越 
多 ， 布 且 越 来 越 不 连续 ， 到 处 都 是 ， 可 谓 是 干 郊 百 孔 。 垃 圾 回收 程序 最 喜欢 的 就 是 一 个 Block 里 
全 是 垃圾 的 状态 ， 此 时 最 好 ,但 是 如 果 多 数 Block 都 处 于 一 种 “不 篮 不 从 ”的 状态 ， 比 如 50% 内 
容 是 垃圾 , 但 是 另外 50% 的 内 容 却 未 被 标记 为 垃圾 ,那么 此 时 到 底 是 否 回收 ”要 回收 这 50% 的 垃 
圾 ,就 需要 先 把 那些 非 垃 圾 内 容 读 出 到 RAM 中 存放 ， 随 后 和 新 数据 一 起 一 视 同仁 地 写 入 到 擦 好 
的 Block 中 ， 此 时 产生 50% 不 必要 的 读 和 50% 不 必要 的 写 操作 ， 这 些 都 属于 惩罚 操作 ， 越 是 不 乾 
不 做， 后 台 的 惩罚 就 越 多 ， 性 能 就 会 越 差 。 


2. 药方 2 : 定期 清除 体内 垃圾 ， 轻 装 上 阵 


通过 上 面 的 论述 我 们 知道 ， 影 响 一 块 SSD 寿命 和 写 入 性 能 的 最 终 决定 因素 就 是 Free Space， 
而 且 是 存储 介质 自身 所 看 到 的 Free Space 而 不 是 文件 系统 级 别 的 Free Space。 但 是 SSD 自身 所 认 
识 的 Free Space 永远 只 会 少 于 文件 系统 的 Free Space,， 并且 只 会 越 来 越 趋 于 0。 所 以 , 要 保持 SSD 
认识 到 自身 更 多 的 Free Space， 就 必须 让 文件 系统 来 通知 SSD， 告 诉 它 哪些 逻辑 地 址 现在 并 未 被 
任何 文件 或 者 元 数据 所 占用 ， 可 以 被 擦 除 。 这 种 思想 已 经 被 实现 了 。 所 有 SSD 厂商 均 会 提供 一 
个 工具 ， 称 为 “Wiper”， 在 操作 系统 中 运行 这 个 工具 时 ， 此 工具 扫描 文件 系统 内 不 用 的 逻辑 地 
址 ， 并 将 这 些 地 址 通知 给 SSD，SSD 便 可 以 将 对 应 的 Block 做 擦 除 并 回收 到 Free Space 空间 内 。 
如 果 用 户 曾经 向 SSD 中 写 满 了 文件 随后 又 删除 了 这 些 文件 ， 那 么 请 务必 运行 Wiper 来 让 SSD 回 
收 这 些 垃圾 空间 ， 否 则 就 会 遭遇 到 大 写 惩 罚 。 

Wiper 并 不 是 实时 通知 SSD 的 ,这 个 工具 只 是 一 次 性 清理 垃圾 ,清理 完 后 可 以 再 次 手动 清理 。 
所 以 ， 这 个 工具 需要 手动 或 者 设置 成 计划 任务 等 每 隔 一 段 时间 执 行 一 次 。 

这 种 垃圾 回收 与 上 文中 的 那 种 内 部 垃圾 回收 不 在 一 个 层面 上 ， 上 文中 所 讲 的 是 SSD 内 部 自 
身 的 重 定向 管理 所 产生 的 垃圾 ， 而 本 节 中 所 述 的 则 是 文件 系统 层面 可 感知 的 垃圾 ,被 映射 到 SSD 
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内 部 ， 也 就 变 成 了 垃圾 。 
3. 药方 3 : 扶正 固 本 ， 调 节 新 陈 代谢 使 其 持续 清除 体内 垃圾 


定期 执行 垃圾 清理 确实 可 以 解 燃眉之急 , 但 是 有 没有 一 种 方法 , 可 以 让 文件 系统 在 删除 某 个 
文件 之 后 实时 地 通知 SSD 回收 对 应 的 空间 呢 ? 这 种 方法 是 有 的 。TRIM 便 是 这 种 方法 的 一 个 实 
现 。TRIM 是 ATA 指令 标准 中 的 一 个 功能 指令 ,在 Linux Kernal 2.6.28 中 已 经 囊括 ， 但 是 并 不 完 
善 。Windows 7 以 及 Windows Server 2008R2 中 已 经 提供 了 完善 的 TRIM 支持 。 一 些 较 早出 现 的 
SSD 也 可 以 通过 升级 Firmware 来 获得 对 TRIM 的 支持 。 

TRIM 可 以 使 SSD 起死回生, 经 过 实际 测试 , 开启 了 TRIM 支持 的 SSD , 在 操作 系统 TRIM 
的 支持 下 , 可 以 成 功 地 将 性 能 提高 到 相对 于 SSD 初始 化 使 用 时 候 的 95% 以 上 , 写 惩罚 倍数 维持 在 
1.1 倍 左右 。 

提示 :台湾 闪存 厂商 PhotoFast 银 箭 已 经 发 布 了 带 有 自行 回收 垃圾 空间 的 SSD, 不 依赖 于 

Trim 指令 ,在 此 可 以 推断 其 SSD 内 部 一 定 被 植 人 了 可 识别 NTFS 格式 数据 的 代码 ， 所 以 

可 以 自行 识别 NTFS 文件 系统 中 不 被 文件 占用 的 空间 。 


4. 药方 4 : 精神 修炼 法 ， 提 升 内 功 


Delay Write 是 一 种 存储 系统 常用 的 写 IO 优化 措施 。 比 如 有 先后 两 个 针对 同一 个 地 址 的 IO 
一 一 Writel 、Write2, 先后 被 控制 器 收 到 , 而 在 Writel 尚未 被 写 入 永久 存储 介质 之 前 , 恰好 Write2 
进入 ， 此 时 控制 器 就 可 以 直接 在 内 存 中 将 Write2 覆盖 Write1， 在 写 入 硬盘 的 时 候 只 需要 写 入 一 
次 即 可 。 这 种 机 制 为 “ 写 命中 ”的 一 种 情况 ( 其 他 情况 见 本 书后 面 章节 ) 。 它 减少 了 不 必要 的 写 
盘 过 程 ， 对 于 SSD 来 讲 ， 这 是 很 划算 的 。 

然而 ， 如 果 一 旦 遇 到 这 种 IO 顺序 比如 Writel 、Read2、Write3， 如 此 时 控制 器 先 将 Write3 
覆盖 到 Writel ,然后 再 处 理 Read2 的 话 ,那么 Read2 原本 是 应 该 读 出 Writel 的 内 容 的 ,经 过 Delay 
Write 覆盖 之 后 ， 却 读 出 了 Write3 的 内 容 ， 这 就 造成 了 数据 不 一 致 。 

所 以 , 控制 器 在 处 理 Delay Write 时 要 非常 小 心 , 一 定 要 检测 两 个 针对 同一 个 地 址 的 写 IO 之 
间 是 否 插 有 针对 同一 个 地 址 的 读 IO， 如 果 有 读 IO， 首 先 处 理 读 ， 然 后 再 覆盖 。 

Combine Write 是 另 一 种 存储 系统 控制 器 常用 的 写 IO 优化 方法 。 对 于 基于 机 械 硬 盘 的 存储 
系统 ， 如 果 控 制 器 在 一 段 时 间 内 收 到 了 多 个 写 IO 而 这 些 写 IO 的 地 址 在 逻辑 上 是 连续 的 ， 则 可 
以 将 这 些小 的 写 IO 合并 为 针对 整体 连续 地 址 段 的 一 个 大 的 IO, 一 次 性 写 入 对 应 的 磁盘 ,节约 了 
很 多 SCSI 指令 周期 , 提高 了 效率 。 对 于 SSD 来 讲 , 由 于 SSD 中 的 逻辑 地 址 本 来 就 是 被 杂乱 地 映 
射 到 可 能 不 连续 的 物理 地 址 上 的 , 但 是 并 不 影响 多 少 性 能 ， 所 以 ,SSD 控制 器 可 以 整合 任何 地 址 
的 小 块 写 IO 成 一 个 大 的 写 IO 而 不 必 在 乎 小 块 写 IO 针对 的 逻辑 地 址 是 否 连 续 。 整合 之 后 的 大 写 
IO 被 直接 写 向 一 个 Free 的 Block 中 ， 这 样 做 大 大 提高 了 写 效率 。 


5. 药方 5 : 救命 稻草 ， 有备无患 


为 了 防止 文件 系统 将 数据 写 满 的 极端 情况 ，SSD 干脆 自己 预 留 一 部 分 备用 空间 用 于 重 定向 
写 。 这 部 分 空间 并 不 通告 给 操作 系统 , 只 有 SSD 自己 知道 , 也 就 是 说 文件 系统 永远 也 写 不 满 SSD 
的 全 部 实际 物理 空间 , 这 样 , 就 有 了 一 个 永远 不 会 被 占用 的 一 份 定额 的 Free Space 用 于 重 定向 写 。 
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Intel X25--E 系列 企业 级 SSD 拥有 20% 的 多 余 空间 。 其 他 普通 SSD 拥有 6% ~ 7% 的 比例 。 
思考 : 为 何 用 普通 碎片 整理 程序 在 文件 系统 层 整理 碎片 对 于 SSD 来 说 是 雪上 加 霜 , 理解 
这 个 问题 的 关键 在 于 理解 对 于 SSD 来 讲 , 逻辑 上 连续 的 地 址 不 一 定 在 物理 上 也 连续 , 如 
果 使 用 普通 碎片 整理 程序 ， 不 但 不 能 达到 效果 ， 反 而 还 会 因为 做 了 大 量 无 用 功 而 大 大 减 
少 SSD 的 寿命 。 


因为 SSD 需要 对 数据 进行 合并 以 及 其 他 优化 处 理 以 适应 Flash 的 这 些 劣势 ,所 以 SSD 自身 对 
接收 的 写 IO 数据 使 用 Write Back 模式 ， 即 接收 到 主机 控制 器 的 数据 后 立即 返回 成 功 ， 然 后 异步 
的 后 台 处 理 和 刷 盘 。 所 以 ,一旦 遇 到 突然 掉 电 ,那么 这 些 数 据 将 会 丢失 ， 正 因 如 此 ，SSD 需要 一 
种 掉 电 保护 机 制 ， 一 般 是 使 用 一 个 超级 电容 来 维持 掉 电 之 后 的 脏 数据 刷 盘 。 

关于 SSD 性 能 方面 的 更 详细 的 内 容 请 参考 本 书 第 19 章 中 的 部 分 内 容 。 


3.10.7 ”SSD 如 何 处 理 Cell 损坏 


对 于 机 械 硬盘 , 如 果 出 现 被 划 伤 的 磁道 或 者 损坏 的 扇 区 , 也 就 意味 着 对 应 的 磁道 或 者 扇 区 中 
的 磁粉 出 现 问 题 , 不 能 够 被 成 功 地 磁化 ,那么 磁头 会 感知 到 这 个 结果 ， 因 为 磁化 成 功 必定 对 应 着 
电流 的 扰动 ， 如 果 针 对 某 块 磁粉 区 磁化 不 成 功 , 磁头 控制 电路 迟 迟 没 感知 到 电流 扰动 , 或 者 扰动 
没有 达到 一 定 程度 ， 那 么 就 证 明 这 片区 域 已 经 损坏 。 而 对 于 Flash 中 的 Cel， 当 Cel 中 的 绝缘 体 
被 击 穿 一 定 次 数 (SLC 10 万 次 ，MLC 1 万 次 ) 之 后 ， 损 坏 的 几率 会 变 得 很 高 ， 有 时 候 不 见得 非 
要 到 这 个 门限 值 ， 可 能 出 厂 就 有 一 定量 损坏 的 Cell， 使 用 一 段 时 间 之 后 也 可 能 时 不 时 出 现 损坏 。 
那么 SSD 如 何 判断 某 个 Cell 损坏 了 呢 ? 我 们 知道 Cell 损坏 之 后 的 表现 是 只 能 表示 1 而 无 法 再 被 
充电 并 且 屏 蔽 住 电子 了 ， 如 果 某 个 Cell 之 前 被 充 了 电 , 为 0, 某 时 刻 Cell 损坏 , 漏电 了 , 变 为 1， 
那么 在 读 取 这 个 Cell 的 值 的 时 候 , 电路 并 不 会 感知 到 这 个 Cell 之 前 的 值 其 实 是 0, 电路 依然 读 出 
的 是 1， 那 么 此 时 问题 就 出 现 了 。 解 决 这 个 问题 的 办 法 是 使 用 ECC 纠 错 码 ， 每 次 读 出 某 个 Page 
之 后 ， 都 需要 进行 ECC 校 验 来 纠 错 。 每 种 Flash 生产 厂商 都 会 在 其 Datasheet 中 给 出 一 个 最 低 要 
求 ， 即 使 用 该 种 颗粒 起 码 需要 配合 使 用 何 种 力度 的 纠 错 码 ， 比 如 8b@512B 或 者 24b@1KB 等 。 
8b@512B 意味 着 如 果 在 512 字 节 范围 内 出 现 gb 的 错误 ， 则 是 可 以 纠 错 恢复 的 ， 如 果 超过 了 8b， 
那么 就 无 法 纠 错 了 ， 此 时 只 能 向 上 层 报 “不 可 恢复 错误 ”; 同 理 ，24b@1KB 也 是 一 样 的 意思 。 
厂商 给 出 的 纠 错 码 力度 越 低 ， 就 证 明 这 种 Flash 颗粒 的 品质 越 好 ， 损 坏 率 越 低 。 


3.10.8 ”SSD 的 前 景 


以 上 一 切 缓解 SSD 效率 问题 的 方法 ， 都 是 治标 不 治本 。 随 着 Cell 的 不 断 损 坏 ， 最 后 的 救命 
稻草 一 一 SSD 私自 保留 的 空间 也 将 被 耗 尽 ， 没 了 救命 稻草 ， 加 之 文件 系统 空间 已 满 的 话 ， 那 么 
SSD 效率 就 会 大 大 降低 。 

但 是 ， 我 们 在 这 里 讨论 的 SSD 写 效 率 降低 ,不 是 与 机 械 硬 盘 相 比 的 。 瘦 死 的 骆驼 比 马 大 ， 
SSD 比 起 机 械 硬盘 来 讲 其 优势 还 是 不 在 一 个 数量 级 上 的 。 

可 以 将 多 块 SSD 组 成 Raid 阵列 来 达到 更 高 的 性 能 。 但 是 可 惜 的 是 ，Raid 卡 目前 尚未 支持 
TRIM。 

为 了 适应 Flash 的 存储 方式 , 有 多 种 Flash Aware FS 被 开发 出 来 , 这 些 Flash FS 包括 TrueFFS、 
ExtremeFFS 等 。 这 些 能 够 感知 Flash 存储 方式 的 FS， 可 以 将 大 部 分 SSD 内 部 所 执行 的 逻辑 拿 到 
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FS 层 来 实现 ， 这 样 就 可 以 直接 在 上 层 解 决 很 多 问题 。 

SSD 看 似 风光 无 限 , 但 是 其 技术 壁垒 比较 大 , 为 了 解决 所 产生 的 多 个 问题 , 设计 了 多 种 补救 
措施 , 需要 靠 TRIM 维持 ， 而 且 数据 不 能 占 空 间 太 满 ， 否 则 无 药 可 救 。 基 于 目前 NAND Flash 的 
SSD 很 有 可 能 是 县 花 一 现 。 目 前 市 场 上 已 经 出 现 SRAM、RRAM 等 更 快 的 永久 存储 介质 ， 随 着 
科技 的 发 展 , 更 多 更 优良 的 存储 介质 和 存储 方式 必 将 蔡 代 机 械 硬 盘 的 磁 碟 ，SSD 数据 存储 次 世代 
即将 到 来 。 

此 外 ，SSD 在 使 用 的 时 候 也 比较 槛 粹 ，SSD 的 成 本 还 是 太 高 ,比如 用 户 需要 一 个 10TB 的 存 
储 系 统 , 不 可 能 都 用 SSD , 此 时 怎么 规划 ? 对 某 个 Raid 组 专门 使 用 SSD 来 构建 ,比如 8 个 256GB 
的 SSD 组 成 某 Raid 组 ， 有 效 容量 1TB, 再 在 其 上 划分 若干 LUN。 用 户 使 用 一 段 时 间 后 发 现 原来 
人 工 预测 的 热点 数据 已 经 伶 了 ,而 原来 的 冷 数据 热 了 , 那么 此 时 需要 数据 迁移 ， 这 就 要 兴 师 动 众 
了 。 或 者 用 户 发 现 某 个 应 用 所 需 的 数据 量 庞 大 ， 但 是 又 不 可 能 将 其 分 割 开 一 部 分 放 到 SSD 中 一 
部 分 放 到 传统 磁盘 中 。 这 些 尴 做 的 境况 都 限制 了 SSD 的 应 用 ， 也 是 多 个 厂商 相继 开发 了 
Automatically Storage Tiering 技术 的 原因 ( 见 后 面 章节 ) 。 

针对 传统 SSD 使 用 时 候 的 敌 众 境况 ，Seagate 等 厂商 也 相继 推出 了 SSD+HDD 混合 式 存储 硬 
盘 。 这 种 硬盘 其 实 是 将 Flash 芯片 用 于 磁盘 的 二 级 缓存 ,一 级 缓存 是 Ram， 二 级 是 Flash, 三 级 则 
是 磁盘 片 。 利 用 这 种 多 级 缓存 更 大 程度 地 降低 了 磁头 寻 道 的 影响 。 有 人 质疑 说 ,传统 磁盘 自身 已 
经 有 了 多 达 64MB 的 RAM 缓存 , 还 需要 Flash 再 作为 下 一 级 的 缓存 么 ? 是 的 , 64MB 的 容量 还 是 
太 小 ,虽然 速度 高 ， 但 是 很 快 就 被 充满 ， 同 时 没有 掉 电 保护 机 制 ， 所 以 盘 阵 控制 器 不 会 让 磁盘 以 
WriteBack 模式 操作 ， 充 满 了 则 一 定 要 连续 地 刷 到 盘 片 中 ， 这 样 就 不 可 避免 地 直接 导致 可 见 的 性 
能 又 降 ， 而 使 用 Flash 芯片 再 加 入 一 级 缓存 ， 比 如 用 8GB 甚至 16GB 的 Flash 芯片 ,数据 从 RAM 
缓存 出 来 后 先 被 存 入 Flash, 不 用 寻 道 , 同时 可 以 掉 电 保护 ，Write Back 之 后 ,磁盘 驱动 器 再 在 后 
台 将 数据 从 Flash 中 写 入 磁盘 片 保存 并 清空 Flash 中 的 内 容 。 这 样 的 做 法 ， 既 比 传统 纯 SSD 便宜 ， 
还 保证 了 性 能 ,有 效 屏蔽 了 磁头 寻 道 带 来 的 高 延迟 ,同时 又 保证 了 容量 ( 数据 后 台 被 刷 入 磁盘 片 )， 
传统 SSD 在 容量 方面 的 问题 就 这 么 被 解决 了 。 这 种 磁盘 短期 内 尚 无 法 取代 传统 纯 SSD ， 因 为 其 
读 取 操 作 依然 需要 从 磁盘 片 中 读 取 几 乎 所 有 数据 而 不 是 从 Flash 中 ， 无 法 与 纯 SSD 抗衡 ,但 是 其 
取代 传统 磁盘 的 趋势 是 存在 的 ， 今 后 的 磁盘 如 果 都 这 么 做 ， 会 大 大 增加 单个 磁盘 的 随机 写 性 能 ， 
对 磁盘 阵列 控制 器 的 更 新 与 设计 也 是 一 个 挑战 。 

提示 : 试想 一 下 ， 磁 盘 阵 列 控制 器 作为 一 个 嵌 在 主机 与 后 端 物理 磁盘 之 问 的 角色 ， 其 一 

个 本 质 作 用 就 是 提升 性 能 ， 其 性 能 提升 的 原理 就 是 让 众多 磁盘 同时 工作 以 屏蔽 磁头 寻 道 

所 浪费 的 时 除 ， 而 现在 ， 每 块 磁盘 自身 就 能 够 利用 Flash 芯片 来 屏蔽 寻 道 的 时 孙 ， 如 何 

办 ? 充分 地 想象 吧 。 


3.11 Memblaze 闪存 产品 介绍 


机 械 磁 盘 由 于 其 高 复杂 度 的 机 械 部 件 、 芯 片 及 固件 , 让 人 望而却步 , 其 技术 只 被 掌握 在 少数 
几 家 巨头 手中 。 因 为 初期 成 本 非常 高 ， 如 果 没有 销量 ， 那 就 是 赔本 。 而 近年 来 出 现 越 来 越 多 的 国 
产 企业 级 固态 存储 产品 ，SSD 相对 机 械 磁盘 为 何 会 有 这 么 低 的 门槛 ? 那 是 必须 的 。 组 成 SSD 的 
主要 是 Flash 颗粒 和 控制 器 ， 而 这 些 部 件 ， 都 可 以 从 各 种 渠道 购买 ， 当 然 ， 品 质 和 规格 也 是 参差 
不 齐 , 但 是 ,SSD 是 对 各 种 部 件 的 集成 ， 只 要 有 足够 的 集成 能 力 ， 能 快速 看 懂 这 些 部 件 提供 商 的 
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手册 , 对 整个 存储 系统 有 基本 了 解 ,那么 只 要 具有 一 定 水 平和 经 验 的 硬件 研发 者 , 都 可 以 进入 这 
个 领域 。 

但 是 , 目前 各 种 固态 介质 充斥 市 场 , 从 TF 卡 、U 盘 到 消费 级 SATA SSD, 再 到 企业 级 SATA 
SSD， 再 到 企业 级 PCIE 闪存 卡 ， 每 个 档次 要 求 很 不 一 样 。 

要 做 成 企业 级 SSD, 不 但 需要 有 技术 能 力 , 还 得 有 充分 的 产品 定制 化 能 力 。 我 们 很 欣喜 地 看 
到 Memblaze 同时 具有 了 这 两 种 能 力 。 


3.11.1 技术 能 力 


评判 一 个 存储 团队 的 技术 能 力 , 第 一 看 他 们 是 贴 牌 还 是 有 自己 的 特色 ; 第 二 看 其 产品 设计 采 

] 硬 加 速 还 是 软 加 速 。 说 到 软 加速 ， 也 就 是 把 原本 由 硬件 芯片 实现 的 功能 ， 上 提 到 由 主机 CPU 
运行 代码 来 实现 , 也 就 是 常 说 的 “软件 定义 ”概念 里 的 一 个 意思 。 个 人 感觉 软件 定义 是 个 好 事情 ， 
但 是 不 能 过 分 定义 ,否则 会 适得其反 。 比 如 一 些 硬 加 速 DSP、 底 层 特 定 协 议 编 解 码 器 ,这 些 如 果 
用 通用 CPU 来 实现 也 可 以 ， 只 要 你 能 忍受 性 能 的 极度 下 降 以 及 几 近 100% 的 CPU 负荷 。 曾 经 有 
某国 外 厂商 的 PCIE 闪存 卡 使 用 的 就 是 软 加 速 方案 。 

我 们 首先 得 了 解 一 下 对 于 Flash 闪存 卡 ， 其 控制 器 都 需要 做 哪些 工作 ， 然 后 才能 判断 到 底 是 
软 加 速 就 够 了 ， 还 是 必须 用 硬 加 速 。 通 过 本 章 前 文 的 描述 ， 我 们 已 经 充分 了 解 了 对 Flash 的 读 写 
过 程 ， 也 深 知 其 复杂 性 ， 就 因为 不 能 够 对 同一 个 Page 里 的 不 同 Cell 同时 放电 和 充电 ， 导 致 了 后 
续 一 系列 严重 后 果 ， 此 外 ，Flash Cell 单元 的 低 寿命 和 高 出 错 率 ,也 是 个 令 人 头疼 的 事 。 处 理 所 有 
这 堆 烂 摊子 的 角色 ， 其 学 术 名 词 叫 做 FTL ( Flash Translation Layer ) ， 其 意思 一 个 是 把 Flash 基于 
页 面 为 最 小 IO 单元 映射 成 传统 的 块 设备 以 512B 肩 区 为 最 小 IO 单位 ， 另 一 个 是 把 逻辑 IO 地 址 
映射 为 物理 IO 地 址 ， 因 为 每 个 Page 的 实际 物理 地 址 都 会 不 断 变化 。 当 然 , 这 只 是 地 址 方面 的 映 
射 处 理 ，FTL 需要 同时 掌管 映射 处 理 和 对 Flash 的 磨损 均衡 、 垃 圾 回收 、 纠 错 等 等 处 理 。 

我 们 继续 分 析 这 套 架构 都 需要 哪些 数据 结构 。 首先 需要 多 张 超大 二 维 表 来 存储 逻辑 地 址 、 物 
理 地 址 的 映射 记录 ， 后 端 挂 接 的 Flash 颗粒 容量 越 大 ， 这 些 表 (数组 ) 就 越 大 ; 其 次 是 为 了 加 速 
查询 所 做 的 索引 、 位 图 之 类 的 元 数据 结构 ; 还 有 就 是 存储 IO 栈 里 常用 的 一 种 数据 结构 一 一 链表 ， 
或 者 称 其 为 “描述 体 ”， 用 来 追踪 分 散在 多 个 物理 内 存 处 但 是 逻辑 上 是 一 个 整体 的 事物 ,比如 逻 
辑 连续 空间 ， 或 者 某 个 IO 任务 等 ， 另外， 状态 机 也 非常 复杂 。 

我 们 分 析 一 下 ,上 面 这 套数 据 结构 和 状态 机 ,如 果 完 全 将 其 运行 在 主机 Os 底层 的 设备 驱动 
层 , 或 者 干脆 运行 在 用 户 态 (一 般 都 会 是 在 用 户 态 运行 , 因为 驱动 层 不 适合 做 复杂 的 逻辑 处 理 ) ， 
效率 究竟 有 多 高 。 这 一 点 想 想 就 可 以 大 致 推断 ， 比 如 TCPIP 协议 栈 是 个 纯 软 协议 栈 ， 其 不 需要 
维护 太 多 元 数据 ,多 数 计算 量 位 于 状态 机 的 判断 和 输出 上 , 即便 是 这 样 , 一 个 万 兆 网 口 之 上 承载 
iSCSI 协议 的 场景 ， 在 IOPS 跑 满 之 后 ，CPU 利用 率 基本 都 超过 50% 了 ， 何 况 是 需要 查 表 映射 的 
场景 。 另 外 , 软 加 速 方案 需要 设备 传输 更 多 的 信息 给 驱动 程序 , 这 直接 导致 中 断 次 数 激增 。 还 有 ， 
软 加 速 方案 需要 在 主机 端 保存 大 量 的 元 数据 ， 对 内 存 的 占用 是 不 可 小 视 的 ， 通 常 1GB 起 步 ， 量 
多 加 价 ， 而 硬 加 速 方案 只 有 主机 端 驱动 运行 耗费 一 部 分 内 存 ， 通 常 1MB 起 步 。 
如 果 是 使 用 硬 加 速 方案 ， 所 有 的 元 数据 、 状 态 机 ， 都 在 Flash 控制 器 内 部 维护 和 计算 ， 就 
能 大 大 降低 主机 端 CPU 的 负荷 , 主机 端 CPU 的 负荷 只 体现 在 响应 外 部 设备 的 中 断 上 了 。 硬 加 
速 的 好 处 就 是 可 以 将 一 些 专用 逻辑 直接 做 成 硬 逻辑 电路 , 在 一 个 或 者 几 个 时 钟 周期 内 就 可 以 完 
成 通用 CPU 需要 耗费 几 百 个 或 者 几 干 个 时 钟 周期 才能 完成 的 任务 。 举 个 例子 , 对 ECC 码 的 计 
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算 , 就 可 以 单独 拿 出 来 做 成 硬 加 速 电路 。 有 些 逻 辑 不 能 完全 被 翻译 成 纯 数字 电路 ， 比 如 地 址 映 
射 查 表 等 ， 一 小 部 分 逻辑 必须 依靠 通用 CPU 来 运行 对 应 的 固件 (或 者 说 微 码 ) 来 协调 完成 全 
部 逻辑 ， 当 然 那些 重复 运算 还 是 交 给 数字 电路 ， 微 码 只 是 负责 协调 和 总 控 ， 这 一 点 如 果 是 一 些 
比较 复杂 的 逻辑 的 话 ， 靠 纯 数字 电路 是 无 法 完成 的 。 这 里 的 “通用 CPU” 并 非 指 主机 端 CPU， 
而 是 指控 制 器 内 部 的 能 入 式 CPU 核心 , 一 个 控制 其 芯片 内 部 集成 的 通用 CPU 核心 数量 可 能 在 
几 个 到 十 几 个 这 种 级 别 。 

我 们 可 以 看 到 ， 如 果 用 硬 加 速 方案 ， 对 设计 者 的 要 求 ， 不 仅仅 是 了 解 Fash FTL 层 的 全 部 逻 
辑 , 还 得 有 充分 的 技术 实力 把 这 些 逻 辑 梳理 成 数据 结构 ， 然 后 判断 哪些 逻辑 可 以 被 硬 加 速 ， 然 后 
还 得 具备 将 软件 翻译 成 硬件 逻辑 的 技能 , 除 此 之 外 , 还 得 具有 熟练 驾驭 FPGA 的 技能 ， 因 为 不 可 
能 让 建筑 师 去 烧 密 制 造 砖 头 ， 砖 头 肯 定 是 要 买 ，FPGA 也 得 用 现成 的 。 

另外 ， 一 款 固 态 存储 产品 ， 选 择 使 用 什么 样 的 IO 协议 也 是 至 关 重要 的 。 对 于 基于 ATA 协 
议 的 SATA 接口 来 讲 ， 是 无 法 发 挥 出 Flash 最 优 性 能 的 ， 直 接 使 用 PCIE 接口 接 入 主机 总 线 是 目 
前 离 CPU 最 近 的 途径 , 但 是 这 样 就 无 法 使 用 SATA 协议 的 一 切 已 有 软 硬 件 了 , 包括 成 熟 的 SATA 
控制 器 硬件 ， 以 及 主机 端 OS 系统 内 核对 SATA 的 原生 驱动 支持 。 选 择 PCIE 就 意味 着 必须 自己 
开发 一 套 轻 量 级 IO 访问 协议 。 


提示 : 目前 针对 PCIE Flash 的 专用 I0 协议 有 NVMe 和 SCSIe 两 种 ， 现 在 看 来 VNMe 似 

平 已 经 占 了 上 风 ， 因 为 SCSI 协议 艇 的 庞大 腾 肿 已 经 完全 不 适合 Flash 这 种 高 速 介质 了 。 

Memblaze 在 第 一 代 产品 中 并 没有 使 用 NVMe， 而 是 使 用 了 自己 的 私有 协议 ， 下 一 代 产 品 

很 有 可 能 会 过 渡 到 NVMe 标准 上 来 。 

Memblaze 很 显然 是 充分 掌握 了 这 条 线 上 的 所 有 技能 。 图 3-40 是 Memblaze 的 Flash 控制 器 
框图 。 其 使 用 了 成 品 FPGA， 其 中 IP 硬 核 部 分 为 PCIE 控制 器 及 DDR3 控制 器 ;了 软 核 部 分 为 
DMA 控制 器 、 典 入 式 通用 CPU 等 等 , 可 以 任意 生成 ,其 他 都 是 需要 用 户 自 定义 设计 的 部 分 。 其 
中 纯 硬 逻辑 包含 Flash 通道 控制 器 、ECC 计算 电路 等 ; 需要 上 读 入 式 通用 CPU 辅助 的 有 : 地 址 映 
射 器 、 磨 损 均衡 和 垃圾 回收 模块 以 及 整个 控制 器 的 中 央 协 调控 制 逻 辑 处 理 部 分 等 。 
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图 3-40 Memblaze 的 Flash 控制 器 框图 
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除了 对 硬件 的 掌控 能 力 之 外 , Memblaze 还 拥有 IO 延 时 平滑 的 专利 技术 , 可 以 针对 个 别 超 长 
延 时 的 IO 请 求 进行 削 峰 滤波 处 理 ( 类 似 电 容器 滤 除 高 电压 脉冲 的 工作 原理 ， 对 IO 延 时 进行 滤 
波 ) ， 当 运行 在 较 高 IOPS 情况 下 ， 控 制 器 会 自动 调整 垃圾 回收 算法 和 内 部 等 待 队列 深度 ， 并 将 
IO 延 时 进行 平滑 处 理 ， 从 而 避免 产生 超 长 延 时 的 IO， 减少 对 后 端 系统 的 影响 ,使 得 用 户 的 应 用 
运行 得 更 加 平稳 顺 滑 。 图 3-41 为 实测 结果 ， 可 以 看 到 抖动 很 少 ， 有 些 场景 根本 没有 拌 动 。 这 项 
技术 主要 是 采用 排队 论 和 现代 控制 理论 对 SSD 的 一 些 指标 进行 采样 ， 根 据 采 样 结果 去 控制 系统 
通路 上 的 参数 ， 用 来 优化 IO 的 抖动 和 延迟 。 比 如 ,用 户 发 给 SSD 的 请 求 可 能 是 顺序 写 入 ,也 可 
能 是 随机 写 入 。 不同 的 写 入 模式 对 应 的 写 放大 倍数 是 不 同 的 。 在 这 种 情况 下 ,后 端的 处 理 速度 在 
不 同 的 输入 下 就 会 有 不 同 的 通道 阻塞 程度 ， 对 于 IO 来 说 就 会 造成 拌 动 和 服务 质量 较 低 。 如 果 采 
用 通道 的 阻塞 程度 作为 控制 变量 , 运用 自动 控制 理论 , 就 可 以 动态 地 均衡 前 端的 压力 ,降低 整个 


系统 的 延迟 和 抖动 。 
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图 3-41 Memblaze 的 时 了 延平 滑 技术 

最 后 ， 对 于 同 态 存储 厂商 来 讲 ， 能 够 驾驭 各 Flash 颗粒 厂商 的 NAND Flash 也 显得 至 关 重 要 。 
不 同 颗粒 使 用 不 同 的 规格 ， 比 如 ECC 位 比例 、 页 面 大 小 、 访 问 协议 等 等 。 这 些 都 需要 花 上 足够 
的 时 间 去 测试 、 调 优 。 

提示 : 本 文 落笔 时 ，Memblaze 的 最 终 产品 性 能 已 经 可 以 达到 70w+ 的 IOPS, 已 经 是 目前 

PCle 闪存 卡 的 最 高 纪录 。 

另外 ，NAND Flash 的 写 放大 是 导致 性 能 和 寿命 下 降 的 主要 原因 ， 是 否 能 够 充分 降低 写 放大 
效应 ， 也 是 体现 技术 实力 的 地 方 。 如 图 3-42 所 示 ，Memblaze 对 写 放 大 的 压制 还 有 很 不 错 的 。 


Random Write Performance 


sg 


图 3-42 ”Memblaze 对 写 放大 的 压制 
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3.11.2 ”产品 能 力 

技术 是 技术 , 产品 是 产品 , 有 好 技术 不 一 定 能 出 好 产品 , 但 是 没有 好 技术 一 定 出 不 了 好 产品 ， 
当然 ， 忽 悠 除外 。 令 人 眼前 一 亮 的 是 ，Memblaze 对 产品 这 个 概念 还 是 非常 有 感觉 的 ， 深 知 “ 个 
性 ”对 于 一 款 产品 来 说 是 多 么 重要 。 

在 我 们 的 脑海 里 ，PCIE 闪存 卡 就 是 一 锤子 买卖 ， 比 如 ， 卡 上 焊 上 了 多 少 容量 的 Flash 颗粒 ， 
它 就 是 多 大 容量 了 ， 比 如 1TB 容量 ， 如 果 用 户 不 需要 这 么 大 容量 ， 比 如 只 需要 500GB 容量 , 那 
么 厂商 就 不 得 不 再 去 定制 一 批 只 焊 了 500GB 容量 颗粒 的 板子 。 这 个 问题 谁 都 清楚 ,但 是 Memblaze 
是 第 一 个 提出 方案 并 且 成 功 商 用 的 公司 。 

“琴键 ”技术 是 他 们 对 这 个 技术 的 命名 , 通过 将 Fash 控制 器 与 Fash 颗粒 之 间 的 连接 方式 从 完全 
PCB 布线 转 为 插 槽 的 形式 ， 然 后 通过 生产 不 同 容量 的 子 卡 (琴键 ) 插 在 插 棍 上 从 而 生成 不 同 整体 容 
量 的 闪存 卡 产 品 ， 如 图 3-43 和 图 3-44 所 示 。Memblaze 组 合 容量 和 规格 如 图 3-45、 图 3-46 所 示 。 


图 3-43 Memblaze 的 琴键 技术 


950G=M6x2+IM4x1+M3x1 


图 3-44 Memblaze 的 琴键 技术 
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PBlaze3L MLC 存储 键 组 合 裸 容量 实际 容量 
PBlaze3L-600M 4M3 768 GB 600 GB 
PBlaze3L-650M 3 M3+1 M4 832 GB 650 GB 
pBlaze3L-700M 3 M3+1 M5 896 GB 700GB 
PBlaze3L-750M 3 M3+1 M6 960 GB 750GB 
PBlaze3L-800M 2 M3+1 M4+1 M6 1024 GB 800 GB 
pBlaze3L-850M 2 M3+1 M5+1 M6 1088 GB 850 GB 
pBlaze3L-900M 2M3+2 M6 1152 GB 900 GB 
PBlaze3L-950M 1M3+1 M4+2 M6 1216 GB 950 GB 
PBlaze3L-1000M 1M3+1 M5+2 M6 1280 GB 1000 GB 
PBlaze3L-1050M 1M3+3 M6 1344 GB 1050 GB 
PBlaze3L-1100M 1M4+3 M6 1408 GB 1100 GB 
PBlaze3L-1150M 1M5+3 M6 1472 GB 1150 GB 
PBlaze3L-1200M 4M6 1536 GB 1200 GB 

PBlaze3H MLC 存储 键 组 合 裸 容量 实际 容量 
PBlaze3H-1200M 8M3 1536 GB 1200 GB 
PBlaze3H-1250M 7 M3+1 M4 1600 GB 1250 GB 
PBlaze3H-1300M 7M3+1 M5 1664 GB 1300 GB 
PBlaze3H-1350M 7M3+1 M6 1728 GB 1350 GB 
PBlaze3H-1400M 6 M3+1 M4+1 M6 1792 GB 1400 GB 
PBlaze3H-1450M 6 M3+1 M5+1 M6 1856 GB 1450 GB 
PBlaze3H-1500M 6 M3+2 M6 1920 GB 1500 GB 
PBlaze3H-1550M 5 M3+1 M4+2 M6 1984 GB 1550 GB 
PBlaze3H-1600M 5 M3+1 M5+2 M6 2048 GB 1600 GB 
PBlaze3H-1650M 5 M3+3 M6 2112 GB 1650 GB 
PBlaze3H-1700M 4 M3+1 M4+3 M6 2176 GB 1700 GB 
PBlaze3H-1750M 4 M3+1 M5+3 M6 2240 GB 1750 GB 
PpBlaze3H-1800M 4M3+4 M6 2304 GB 1800 GB 
PBlaze3H-1850M 3 M3+1 M4+4 M6 2368 GB 1850 GB 
PBlaze3H-1900M 3 M3+1 M5+4 M6 2432 GB 1900 GB 
PBlaze3H-1950M 3 M3+5 M6 2496 GB 1950 GB 
PBlaze3H-2000M 2 M3+1 M4+5 M6 2560 GB 2000GB 
PBlaze3H-2050M 2 M3+1 M5+5 M6 2624 GB 2050 GB 
PBlaze3H-2100M 2M3+6 M6 2688 GB 2100 GB 
PBlaze3H-2150M 1 M3+1 M4+6 M6 2752 GB 2150 GB 
PBlaze3H-2200M 1 M3+1 M5+6 M6 2816 GB 2200 GB 
PBlaze3H-2250M 1M3+7 M6 2880 GB 2250 GB 
PBlaze3H-2300M 1M4+7 M6 2944 GB 2300 GB 
PBlaze3H-2350M 1M5+7 M6 3008 GB 2350GB 
PBlaze3H-2400M 8M6 3072 GB 2400 GB 


图 3-45 Memblaze 的 琴键 技术 不 同 组 合 容量 
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参数 PBlaze3L MLC PBlaze3H MLC PBlaze3L SLC PBlaze3H SLC 
存储 容量 600 ~ 1200 GB 1200 ~ 2400GB 300 ~ 600 GB 600 ~ 1200 GB 
读 带 宽 ( 64KB ) 2.4 GB/s 32 GB/s 2.5 GB/s 3.5 GB/s 
写 带 宽 ( 64KB ) 11GB/s 22 GB/s 13 GB/s 2.5 GB/s 
随机 读 ( 4KB ) IOPS 615,000 750,000 630,000 800,000 
随机 写 ( 4KB ) IOPS 外 130,000 260,000 155,000 280,000 
eh 7525 RWY 500,000 600,000 550,000 650,000 
典型 读 写 延 时 (4KB) 80 hs/14 hs 80 bs/14 ps 60 bs/14 hs 60 bs/14 hs 
企业 级 可 靠 性 BERM<1022 BERM<10™ BERM<10™ BERM<10™ 
寿命 8PB ~ 16PB 16PB ~ 33PB >50PB >100 PB 
平均 无 故障 时 间 2.000.000 小 时 
外 形 半 高 半 长 全 高 半 长 半 高 半 长 全 高 半 长 
总 线 接口 PCI Express* 21x8 


1 
磁盘 控制 器 


图 3-46 Memblaze 闪存 卡其 他 规格 
说 明 : Memblaze 是 一 家 让 人 钦佩 的 初创 公司 ， 在 此 我 也 得 知 他 们 后 续 有 很 长 远 的 规划 ， 
也 非常 期 待 能 够 早日 见 到 其 更 有 特色 的 产品 


3.12 小 结 网 中 有 网 ， 网 中 之 网 
我 们 用 图 3-47 来 作为 本 章 的 结束 。 
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图 3-47 
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三 台 计 算 机 组 成 的 网 一 一 网 中 有 网 


网 卡 


75 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


76 


第 4 音 
大 话 / 详 解 七 种 RAID 


七 星 北斗 


。 RAID1 
。 RAID 2 

。 RAID3 

。 RAID 4 

。 RAID5 

» RAID 5E 
» RAID 5EE 
» RAID6 


第 3 章 介绍 了 磁盘 的 内 部 原理 、 构 造 以 及 外 部 的 接口 
系统 。 但 一 块 磁盘 的 容量 是 有 限 的 ,速度 也 是 有 限 的。 对 
一 些 应 用 来 说 ， 可 能 需要 上 百 吉 字 节 ( GB ) 甚至 几 太 字 
节 (TB ) 大 小 的 分 区 来 存放 数据 。 目 前 的 磁盘 单 块 容量 最 
多 能 到 1TB， 这 对 于 现代 应 用 程序 来 说 远 远 不 够 。 

那么 必须 要 制造 单 盘 容 量 更 大 的 硬盘 么 ? 为 解决 这 
个 问题 ， 人 们 发 明了 RAID 技术 ， 即 Redundant Array of 
Independent Disks 技术 ， 中 文 意思 是 由 独立 的 磁盘 组 成 的 
具有 宛 余 特性 的 阵列 。 既 然 是 阵列 , 那 一 定 需要 很 多 磁盘 
来 组 成 ; 既然 是 具有 宛 余 特性 的 , 那 一 定 可 以 允许 某 块 磁 
盘 损坏 之 后 ， 数 据 仍然 可 用 。 下 面 我 们 就 来 看 一 下 RAID 
是 怎样 炼 成 的 。 
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4.1 大 话 七 种 RAID 武器 


话说 几 千年 前 , 有 位 双 刀 大 侠 , 左右 手 各 拿 一 把 大 刀 。 开始 的 时 候 , 他 总 是 单独 使 用 每 把 刀 ， 
要 么 用 左手 刀 ， 要 么 用 右手 刀 ， 但 是 总 被 人 打败 ， 郁 问 至 极 ， 于 是 苦心 悟道 ， 静 心 修炼 。 他 逐渐 
摸索 出 一 套 刀 法 ， 自 称 “ 合 一 刀 法 ”， 即 双 刀 并 用 。 外 人 看 不 见 他 的 第 二 把 刀 ， 只 能 看 到 他 拿 着 
一 把 刀 。 他 把 两 把 刀 的 威力 ， 合 二 为 一 ， 成 为 一 把 大 刀 ! 

而 这 种 双 刀 合 一 的 刀 法 ， 又 可 以 分 为 两 条 路 子 。 一 条 是 常规 路 子 ， 即 这 把 合 二 为 一 的 大 刀 ， 
其 实 每 出 一 招 只 有 原来 一 把 刀 的 威力 ， 但 是 后 劲 更 足 了 。 一 把 思 顶 不 起 来 的 时 候 ， 可 以 第 二 把 刀 
上 阵 。 对 于 敌人 来 说 ， 还 是 只 看 见 一 把 大 刀 。 另 一 条 是 野 路 子 ， 野 路 子 往往 效果 很 好 ， 每 出 一 招 
总 是 具有 两 把 刀 的 威力 之 和 ， 而 且 也 具有 两 把 刀 的 后 劲 ! 他 实现 这 个 野 路 子 的 方法 ， 便 是 界 内 早 
有 的 思想 一 一 分 而 治之 ! 也 就 是 说 他 把 一 把 刀 又 分 成 了 很 多 细小 的 元 素 ， 每 次 出 招 时 把 两 把 万 的 
元 素 组 合 起 来 ， 所 以 不 但 威力 大 了 ， 后 劲 也 足 了 ! 

不 过 大 侠 的 这 个 刀 法 有 个 致命 的 弱点 ， 就 是 双 刀 息息相关 。 一 旦 其 中 一 把 刀 有 所 损坏 ， 另 一 
把 刀 相 应 的 地 方 也 跟着 损坏 。 如 果 一 把 刀 完 全 失去 效力 ， 那 么 另 一 把 刀 也 跟着 失效 。 

双 刀 大 侠 一 直到 临终 也 没有 收 一 个 徒弟 ,不 是 因为 他 武艺 不 精 ， 而 是 因为 他 的 合 一 刀 法 在 当 
时 被 认为 是 野 路 子 ， 牌 门 收 路 的 功夫 ， 所 以 郁闷 一 生 。 临 终 时 他 用 尽 自 己 最 后 一 点 力气 在 纸 上 写 
下 了 4 句 诗 后 ， 抱 憾 而 终 ! 


刀 于 我 手 不 为 刀 ， 
模 分 坚 割 成 龙 缘 。 
化 作 神 龙 游 天 际 ， 
龙 在 我 心 任 道 膛 ! 
这 就 是 后 世 流传 的 “ 合 一 刀 谱 ”! 俗称 “ 龙 谱 ”。 
世上 最 高 的 刀 法 在 心中 ， 而 不 是 手 上 ! 双 刀 大 侠 练 就 的 是 一 门 “浩瀚 ”绝学 , 一 招 一 式 都 是 
铺天盖地 ， 势 不 可 挡 ! 
几 百 年 后 , 七星 大 侠 在 修炼 了 磁盘 大 挪移 神功 和 龙 谱 之 后 的 某 一 天 ， 他 突然 两 腿 发 乙 : “我 
悟 到 了 ! ”然后 奋 笔 疾 书 ,成 就 7 了 “七星 北斗 阵 ” 这 个 空前 绝 后 的 阵 式 ! RAID 0 阵 式 就 是 这 个 
阵 式 的 第 一 个 阵 式 ! 下 面 来 看 看 这 个 阵 式 的 绝妙 之 处 吧 ! 


4.1.1 RAID 0 阵 式 


首先 ， 这 位 七 星 大 侠 一 定 是 对 磁盘 大 挪移 神功 有 很 高 的 造 放 ， 因 为 他 熟知 每 块 磁盘 上 面 的 磁 
性 区 域 的 构造 ， 包 括 磁道 、 磁 头 、 扇 区 和 柱 面 等 ， 这 些 口诀 心 法 已 经 烂熟 于 心 。 在 他 看 来 ， 盘 片 
就 像 一 个 蜂窝 ， 上 面 的 每 一 个 孔 都 是 一 个 扇 区 ， 可 以 说 他 已 经 参透 了 磁盘 。 其 次 ， 七 星 大 侠 一 定 
是 对 合 一 刀 法 的 精 茵 有 很 深 的 领悟 ， 即 他 能 领会 双 刀 大 侠 那 4 句 诗 的 含义 ， 特 别 是 第 二 句 给 了 他 
很 大 的 启发 ! “ 横 分 竖 割 成 龙 乡 ”， 暗 示 着 双 刀 大 侠 把 他 的 刀 在 心中 分 割 成 了 横 条 带 和 坚 条 带 ， 
所 以 叫 “ 横 分 紧 割 ”。 分 割 完 毕 之 后 ， 双 刀 大 侠 把 这 些 分 割 后 所 谓 的 “ 乡 ”， 即 细 条 带 ， 在 心中 
组 合 起 来 形成 一 条 虚拟 的 “ 龙 ”， 然 后 用 龙 来 当 作 武器 ， 即 “ 龙 在 我 心 任 首 各”。 

这 显然 给 了 七 星 大 侠 很 大 的 启发 ， 何 不 把 几 块 磁盘 也 给 “ 横 分 紧 割 ”， 然 后 组 成 “ 龙 ” 呢 ? 


78 


第 4 章 七 星 北 斗 一 一 大 话 /详解 七 种 RAID @ 


对 ， 就 这 么 干 ! 七 星 大 侠 卖 血 换 来 两 块 磁盘 ， 找 了 个 破 庙 ， 在 后 面 搭 了 个 草 堆 ， 成 天 摆弄 他 那 两 
块 用 血 换 来 的 磁盘 。 白 天 出 去 要 饭 ， 晚上 回来 潜心 钻研 ! 他 首先 决定 把 两 块 磁盘 都 分 割 成 条 带 ， 
形成 “ 缘 ”, 可 是 该 怎么 分 好 呢 ? 合 一 刀 法 的 思想 主要 有 两 条 路 ; 一 条 是 懒 人 做 法 , 不想 动 脑子 ， 
即 威力 小 、 后 劲 足 那 种 ， 另 一 种 是 需要 动脑 子 算 的 ， 即 威力 足 、 后 劲 也 足 那 种 。 

第 一 种 怎么 实现 呢 ? 七 星 大 侠 冥 思 苦 想 , 却 发 现 被 误导 了 。 因为 第 一 种 根本 不 需要 做 “ 丝 ”。 
双 刀 大 侠 的 诗 只 是 描述 了 威力 巨大 的 第 二 种 路 子 。 所 以 三 下 五 除 二 ,七星 大 侠 写 出 了 RAID 0 阵 
式 中 的 第 一 个 套路 : 累加 式 。 也 就 是 说 ,磁盘 还 是 那些 磁盘 ,什么 都 不 动 ， 也 不 用 “ 横 分 竖 制 ”。 
数据 来 了 ， 先 往 第 一 块 磁盘 上 写 。 等 写 满 之 后 ， 再 往 第 二 块 上 写 。 然 后 将 这 两 块 磁盘 在 心中 组 成 
一 条 龙 ， 这 就 符合 了 合 一 刀 法 的 思想 。 只 不 过 这 条 龙 威力 比较 弱 ， 因 为 每 次 IO 只 用 到 了 一 块 磁 
盘 ， 另 一 块 磁盘 没有 动作 。 但 是 这 条 龙 的 后 劲 ， 比 单个 磁盘 足 了 ， 因 为 容量 相对 一 块 磁盘 来 说 ， 
增 大 了 。 

第 一 套路 子 实现 了 , 可 第 二 套路 子 就 难 了 。 其 实 磁盘 已 经 被 分 割 了 , 扇 区 不 就 是 被 分 割 的 么 ? 
但 是 一 个 扇 区 只 有 512B 大 小 ， 这 不 符合 合 一 刀 法 。 因 为 合 一 刀 法 中 是 “ 缘 ” 而 不 是 “ 粒 ”, 分 
制 成 粒 的 话 ， 不 仅 开销 太 大 ， 而 且 组 合 起 来 也 很 困难 。 所 以 七 星 大 侠 决 定 完全 照搬 合 一 刀 法 的 思 
想 ， 但 是 又 不 能 丢弃 磁盘 已 经 分 割 好 的 扇 区 ， 所 以 七 星 绞 尽 脑汁 想 出 这 么 一 个 办 法 ， 如 图 4-1 和 
图 4-2 所 示 。 


block ( 庚 ) 

ee 
ls/ ke hn 

和 十 同 帮 二 一 

一 一 天 辣 辐 是 司 一 一 一 一 一 

mm 二 帮 因明 一 一 一 一 一 


bt |/ be | 
bskenlsel | | | bokeneninl "一 一 一面 用 虹 国 一 一 一 一 
“~"——gymn" 一 


eentz extentl extent3 每 人 sgment 和 人 的 


HH 时 块 或 者 扇 区 的 数量 ， 

磁 指 1 磁盘 2 磁盘 3 磁盘 4 Segment ( 段 ) 称 为 条 带 深度 

图 4-1 正常 的 4 块 硬盘 图 4-2 被 分 割 的 4 块 硬盘 

图 4-1 所 示 的 是 4 块 普通 硬盘 ， 其 上 布 满 了 扇 区 。 扇 区 是 实 实在 在 存在 于 盘 片上 的 ， 具 有 自 
己 的 格式 。 图 4-2 所 示 的 是 引入 分 割 思想 之 后 的 硬盘 。 由 于 许多 文件 系统 或 者 卷 管理 软件 都 使 用 
块 而 不 是 扇 区 作为 基本 存储 单元 ,所 以 图 4-2 中 也 使 用 由 4 个 扇 区 组 成 的 块 作 为 基本 单元 。 不 同 
磁盘 的 相同 偏 移 处 的 块 组 合成 Sripe， 也 就 是 条 带 。 

块 的 编号 也 是 以 横向 条 带 方向 开始 一 条 一 条 的 向 下 。 这 样 ,对 于 一 个 全 新 的 文件 系统 和 RAID 
0 磁盘 组 ， 如 果 有 大 块 数据 写 入 时 ， 则 数据 在 很 大 几率 上 可 以 以 条 带 为 单位 写 入 。 也 就 是 说 数据 
被 分 成 多 块 写 入 4 个 硬盘 ， 而 不 是 单 硬盘 系统 中 的 顺序 写 入 一 个 硬盘 ， 这 就 大 大 提高 了 速度 。 图 
4-3 所 示 的 为 多 块 磁 盘 组 成 的 逻辑 磁盘 示意 图 。 
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七 星 生成 他 的 心中 之 龙 ， 也 有 
两 套路 子 ， 第 一 套路 子 ， 也 就 
是 不 分 割 ， 只 把 两 块 磁盘 在 心 
中 合并 成 一 块 ,第 一 块 用 完了 ， 
接着 用 第 二 块 。 在 外 看 来 ， 就 
是 一 整 块 大 磁盘 。 

第 二 套路 子 ， 也 就 是 分 割 成 
“ 缘 ”， 然 后 两 块 磁盘 轮流 上 
阵 ， 你 出 一 招 ， 我 出 一 式 ， 你 
再 出 一 招 ， 我 再 出 一 式 ， 也 就 
是 extent0 在 磁盘 1, extent3 在 
磁盘 2，extent3 又 回 到 磁盘 1。 
当然 如 果 多 块 盘 ， 那 么 extent 
就 轮流 转 ， 就 这 样 组 成 心中 之 


Virtual Disk 


图 4-3 心中 之 龙 
提示 : 磁盘 上 实 实在 在 存在 的 只 有 扇 区 结构 ，Stripe 并 不 是 一 个 实 实在 在 的 结构 , 它 只 是 
由 程序 根据 算法 公式 现 套现 用 的 。 就 像 戴 了 一 副 有 格子 的 眼镜 看 一 张 白 纸 ， 那 么 会 认为 
这 张 白 纸 被 格式 化 了 ， 其 实 并 没有 。 另 外 ,条 带 化 之 后 的 多 块 硬盘 ， 数 据 是 被 并 行 写 和 
所 有 磁盘 的 ， 也 就 是 多 管 齐 下 ， 而 不 是 横向 写 满 一 个 条 带 ， 再 写 下 一 个 条 带 。 


七 星 大 侠 就 这 样 埋头 苦 昔 思考 了 整整 1 年 ， 基 于 合 一 刀 法 的 横 分 竖 割 的 思想 ， 完 成 了 “七 星 
北斗 阵 ” 的 第 一 个 阵 式 一 一 RAID 0 阵 式 。 


4.1.2 RAID 1 阵 式 


花 开 七 打 ， 各 表 其 一 。 话 说 七 星 在 完成 RAID 0 阵 式 之 后 ， 并 没有 沾沾自喜 ， 而 总 是 想 在 合 
一 刀 法 上 有 所 创新 。 


提示 : RAID 0 阵 式 纵然 威力 无 比 ， 但 弱点 也 很 明显 : 一 旦 其 中 一 块 磁盘 废 掉 ， 整 个 阵 式 

将 会 被 轻易 攻破 。 因 为 每 次 出 招 靠 的 就 是 “ 合 一 ”， 如 果 任 意 一 块 坏 掉 ， 也 就 没有 “ 合 ” 

的 意义 了 。 也 就 是 说 ， 数 据 被 我 在 心中 分 割 ， 本 来 老 老实 实 写 到 一 块 盘 就 完事 了 ， 可 为 

了 追求 威力 , 非 要 并 发 写 盘 , 第 一 、 三 、 五 …… 块 数据 写 到 了 1 号 盘 , 第 二 四、 六 、…… 

块 数据 写 到 了 2 号 盘 。 但 是 对 于 外 界 来 说 ， 会 认为 是 把 数据 都 写 到 了 我 心中 的 一 块 虚拟 

盘 上 。 这 样 不 坏 则 已 ,一 旦 其 中 任何 一 块 磁盘 损坏 ， 就 会 数据 全 毁 ， 因 为 数据 是 被 分 割 

开 存 放 在 所 有 磁盘 上 的 。 不 行 ， 太 不 保险 了 。 为 了 追求 威力 ， 冒 的 险 太 大 ， 要 想 个 稳妥 

的 办 法 。 

于 是 七 星 再 次 反思 苗 想 ， 终 于 创 出 了 RAID 1 阵 式 ! 

这 话 要 说 到 800 年 前 ， 有 位 “独行 侠 ”， 心 独身 独 终日 孤单 一 人 。 据 称 他 每 次 出 招 从 来 不 用 
双手 , 总 是 单 手打 出 单 掌 , 练 就 了 一 门 “独孤 影子 掌 ”。 虽 说 此 掌 法 威力 不 高 , 但 是 自 有 其 妙 处 。 
每 当 他 敌 不 过 他 人 ， 单 掌 被 击溃 的 时 候 ， 就 会 立即 换 用 另 一 只 从 来 都 没 用 过 的 掌 继续 出 招 。 这 一 
绝学 往往 令 自 以 为 已 经 占 了 上 风 的 敌人 在 还 没有 回 过 神 来 的 情况 下 ， 就 被 打 个 落花 流水 ! 不 但 他 
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的 掌 法 绝妙 ， 就 连 他 的 身 法 都 达到 了 炉火纯青 的 地 步 。 他 能 修炼 出 一 个 影子 ， 这 个 影子 平时 总 是 
跟随 着 他 ， 他 做 什么 ， 影 子 就 做 什么 。 一 旦 真 身 损毁 ， 其 影子 便 代替 他 的 真 身 来 动作 。 这 位 独行 
侠 遗 留 的 “孤独 影子 掌 ” 秘 笈 如 下 : 
心 腾 爱 ， 掌 脱 胱 。 
掌 由 独 心 生 。 
身 膀胱 ， 影 腾 胱 。 
身影 心 相同 。 
花 胖 胱 ， 夜 膀胱 。 
独 饮 赏 月 容 。 
灯 滕 腕 ， 人 胖 胱 。 
此 景 何 时 休 ? 

独行 侠 的 这 段 诗句 不 难 理解 ， 孤 独 给 了 他 灵感 ， 身 独 心 也 独 ， 如 此 练 就 的 功夫 ， 也 是 独孤 残 
影 。 最 后 一 名 说 出 了 大 侠 的 无 奈 ， 其 实 他 也 不 想 孤 独 ， 但 是 没 人 能 理解 他 。 

七 星 大 侠 领 司 了 独行 侠 的 苦衷 ， 感受 了 他 的 心境 。 独 行 侠 练 就 的 是 一 门 “无 奈 ” 绝 学 ， 处 处 
体现 着 凄惨 与 泳 迫 。 只 有 残 了 , 才能 重 获 新 生 。 一 只 掌 断 了 , 另 一 只 掌 才能 接替 , 这 是 何等 凄惨 ? 
简直 凄惨 至 极 ! 不 过 往往 孤独 凄 苦 的 人 都 很 注意 自 保 ， 虽 然 招式 的 威力 是 最 小 的 ， 但 是 这 门 学 问 
是 武林 中 用 于 自 保 的 最 佳 选择 。 

七 星 大 侠 没 有 理由 不 选择 这 门 自 保 神功 来 解决 他 在 RAID 0 阵 式 中 的 破绽 ,也 就 是 安全 问题 。 
毫 无 疑问 ，RAID 0 是 强大 的 , 但 是 也 是 脆弱 的 ， 一 点 点 挫折 就 足以 让 RAID 0 解体。 

七 星 大 侠 决 定 完全 抛弃 RAID 0 的 思想 ， 采 用 独行 侠 的 思想 。 将 两 块 磁盘 中 的 一 块 用 于 正常 
使 用 ， 另 一 块 用 作 正 常 使 用 磁盘 的 影子 。 影 子 总 是 跟随 主人 ， 主 人 做 什么 ， 影子 就 做 什么 。 工 作 
盘 写 了 一 个 数据 ， 影 子 盘 在 相同 位 置 也 写 上 了 数据 。 读 数据 的 时 候 ， 因 为 数据 有 两 份 ， 可 以 在 工 
作 盘 读 ， 也 可 以 到 影子 盘 读 ， 所 以 增加 了 并 发 性 。 即 修炼 这 个 阵 式 的 人 ， 可 以 同时 应 付 两 个 敌人 
的 挑 鲜 ， 自 身 应 付 一 个 ， 影 子 应 付 一 个 ， 这 无 疑 是 很 高 明 的 ! 

但 是 应 付 一 个 敌人 的 时 候 ， 不 像 RAID 0 阵 式 那样 可 以 同时 使 用 多 块 磁盘 ， 只 能 使 用 一 块 磁 
盘 。 当 其 中 一 块 磁盘 坏 掉 ， 或 者 其 中 一 块 磁盘 上 某 个 区 域 坏 掉 ， 那 么 对 应 影子 盘 或 者 影子 盘 上 对 
应 的 位 置 便 会 立即 接替 工作 盘 ， 敌人 看 不 出 变化 。 可 能 独行 侠 一 生 都 没有 遇 到 同时 和 两 个 对 手 过 
招 的 情况 ， 所 以 在 他 的 秘笈 中 ， 并 没有 体现 “并 发 读 ” 这 个 功能 ， 只 体现 了 安全 自 保 。 

然而 七 星 并 没有 全 面 抛弃 双 刀 大 侠 的 思想 ， 而 是 保留 了 双 刀 的 精华 ， 即 “ 横 分 竖 割 ”的 基本 
思想 ,抛弃 了 他 的 算法 ， 即 鲁莽 而 不 计 后 果 的 并 发 往 各 个 磁盘 上 写 数据 的 方法 。 所 谓 算法 ， 也 即 
指 大 侠 对 付 敌 人 招数 的 时 候 ， 在 心中 盘算 的 过 程 。 心 算 的 速度 远 远 快 于 出 招 的 速度 ， 所 以 心算 引 
发 的 延 时 并 不 会 影响 出 招 。 现 在 江湖 人 士 也 大 多 都 是 精 于 钻研 算法 ， 而 只 有 制造 兵器 的 铁匠 才 去 
钻研 如 何 用 料 ， 考 虑 如 何 才能 减轻 兵器 重量 而 不 影响 兵器 的 硬度 和 耐 磨 度 等 。 

可 以 说 ， 兵 器 的 材质 、 设 计 加 上 大 侠 们 精心 的 算法 才 形成 了 江湖 上 形形色色 的 功夫 秘笈 ! 而 
材质 在 很 大 程度 上 发 展 是 很 慢 的 ， 想 有 突破 非常 困难 。 但 是 算法 就 不 同 了 ， 大 侠 可 以 研究 出 各 种 
使 用 兵器 的 方法 ， 将 兵器 用 得 神 平 其 神 ! 磁盘 的 转速 、 磁 密度 、 电 路 等 ， 虽 然 一 直 在 提升 ， 但 是 
终究 太 慢 。 所 以 出 现 了 以 七 星 大 使 为 代表 的 算法 派 ， 他 们 苦 研 算法 ， 用 来 提高 磁盘 的 整体 性 能 。 
假想 某 天 一 旦 某 个 铁匠 造 出 了 屠 龙 思 、 倚 天 剑 这 般 的 神器 , 我 想 七 星 这 等 大 侠 也 就 无 用 武之 处 了 。 
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可 惜 这 两 把 神器 已 经 在 自 相 残杀 中 玉石 俱 焚 了 。 
七 星 大 侠 最 后 给 这 个 阵 式 起 名 叫做 “RAID 1”。 图 4-4 显示 了 RAID 1 组 成 的 逻辑 磁盘 。 


心 脱 腾 ， 掌 脱胶 |[aaassso 
学 由 独 心 生 [page | 
身 膛 胶 ， 影 瞳 胱 ”|[ 记 pasess | 
身影 心 相 同 Da Block§ 
花 脱 腾 ， 夜 脱胶 TD 
独 饮 赏 月 容 LT 


灯 脱 胶 ， 人 脱胶 |Beset2 
此 景 何 时 体 ? 于 


图 4-4 RAID 1 示意 图 


但 是 七 星 也 深 深 认识 到 ， 这 个 RAID 1 阵 式 还 是 有 两 个 大 弱点 。 

在 修炼 的 时 候 , 速度 会 稍 慢 ,因为 每 次 修炼 , 除了 练 真 身 之 外 , 还 要 练 影子 。 不 然 影子 不 会 ， 
出 招 的 时 候 影 子 就 无 法 使 用 。 这 会 对 实际 使 用 有 一 定 影 响 ， 数据 写 到 工作 盘 上 ， 也 必须 写 到 影子 
盘 上 一 份 。 


FE 
号 


虽然 自己 有 个 影子 ， 但 是 影子 没有 给 真 身 增加 后 劲 。 真 身 累 了 ， 影 子 也 会 被 拖累 。 不 管 修炼 


了 几 个 影子 ， 整 体 的 耐力 和 体力 只 等 于 其 中 一 个 的 体力 耐力 ， 也 就 是 真 身 的 体力 和 耐力 。 整 体 的 


体力 和 和 


0 耐力 都 被 限制 在 体力 耐力 最 小 的 影子 盘 或 者 真 身上 。 也 就 是 说 RAID 1 提供 的 最 大 容量 等 


于 所 有 组 成 RAID 1 的 磁盘 中 容量 最 小 的 一 块 , 剩余 容量 不 被 使 用 , RAID 1 磁盘 组 的 写 性 能 等 于 
所 有 磁盘 中 性 能 最 低 的 那 块 磁盘 的 写 性 能 。 

七 星 看 了 看 RAID 0, 又 看 了 看 RAID 1, 一 个 鲁 养 急躁 但 威力 无 比 , 一 个 独孤 残 苦 自嘲 自 保 。 
矣 ! 呜呼 哉 ! ! 七 星 心 想 ,我 怎么 走 了 两 个 极端 呢 ? 不 妥 ， 不 妥 ， 二 者 皆 不 合 我 意 ! 于 是 , 七 星 
大 侠 又 开始 了 苦心 钻研 ， 这 一 下 就 是 2 年 ! 


4.1.3 RAID 2 阵 式 


史话 : 话说 明 末 清 初时 期 ， 社 会 动 功 ， 英雄 辈出 。 有 这 么 一 位 英雄 ,号 称 “优雅 剑侠 ”， 
他 持 双手 剑 ， 得 益 于 流传 甚 广 的 合 一 刀 法 ,并 加 入 了 自己 的 招式 ， 修 炼 成 了 一 套 “ 合 一 
优雅 剑 法 ”。 剑 侠 深 知 合 一 刀 法 的 鲁莽 招式 ， 虽 然 威力 巨大 ， 但 必 会 酿 成 大 祸 。 所 以 他 
潜心 研究 ,终于 找到 一 种 办 法 ， 可 以 避免 合 一 的 鲁莽 造成 的 不 可 挽回 的 祸患 。 他 分 析 过 ， 
合 一 之 所 以 鲁莽 就 是 因为 他 没有 备份 措施 ， 兵 器 有 任何 一 点 损坏 都 会 一 损 俱 损 。 那 么 是 
不 是 可 以 找 一 种 方法 ， 对 兵器 上 的 每 个 条 带 都 做 一 个 备份 ， 就 像 当年 独行 侠 那 样 ? 但 是 
又 不 能 一 个 对 一 个 ， 那 就 和 独行 侠 无 异 了 。 
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剑侠 的 脑子 很 好 用 ， 他 从 小 精 于 算术 ， 有 常人 不 及 之 算术 功夫 。 如 今 他 终于 发 挥 出 他 的 算术 
技能 了 ， 他 先 找 来 一 张 纸 ， 然 后 把 他 的 两 把 剑 和 这 张 纸 ， 并 排 摆 在 地 上 ， 然 后 对 剑 和 纸 进行 横 分 
坚 割 , 然后 一 一 对 照 , 将 第 一 把 剑 的 第 一 格 写 上 一 个 1, 然后 在 第 二 把 剑 的 相同 位 置 上 写 上 一 个 0 
然后 在 纸 的 对 应 位 置 上 算出 前 二 者 的 和 ， 即 1+0=1。 然 后 剑侠 设想 ， 一 旦 第 一 把 剑 被 损坏 ,现在 
只 剩 第 二 把 剑 和 那 张 记 满 数字 的 纸 ， 剑 侠 懂 然 大 悟 : 原来 如 此 精妙 ! 

为 什么 呢 ? 虽然 第 一 把 剑 损坏 , 但 是 此 时 仍然 可 以 出 招 ， 因 为 第 一 把 剑 上 的 数字 可 以 用 纸 上 
对 应 位 置 的 数字 , 减 去 第 二 把 剑 对 应 位 置 上 的 数据 ! 也 就 是 1 一 0=1, 就 可 以 得 出 第 一 把 剑 上 已 经 
丢失 的 数字 ! 而 在 敌人 看 来 ， 仍 旧 是 手持 一 把 大 剑 ， 只 不 过 威力 变 小 了 ， 因 为 每 次 出 招 都 要 计算 
一 次 。 而 且 修炼 的 时 候 也 更 加 难 了 ， 因 为 每 练 一 招 就 要 在 纸 上 记录 下 双 剑 之 和 ， 而 且 还 需要 用 脑 
子 算 ， 速 度 比 合 一 刀 法 慢 了 不 少 。 

哇 哈哈 ， 剑 侠 仰 天 长 笑 ! 他 给 自己 的 剑 法 取 名 “优雅 合 一 剑 法 ”， 意 即 他 的 剑 法 比 合 一 刀 法 
虽然 威力 不 及 ， 但 也 差不多 少 。 最 重要 的 是 ， 他 克服 了 合 一 刀 法 鲁莽 不 计 后 果 的 弱点 ， 所 以 要 比 
合 一 刀 法 来 得 优雅 。 但 是 这 个 剑 法 也 有 弱点 , 就 是 他 额外 增加 了 一 张 纸 和 用 了 更 多 的 脑筋 来 计算 。 
脑子 计算 倒是 不 成 问题 ,努力 学 习 算 法 便 可 ,但 是 额外 增加 了 一 张 纸 ， 这 个 难免 有 些 遗 憾 ,但 是 
也 没有 办 法 ， 总 比 独 行 侠 那 一 套 自 保 好 得 多 。 自 保 的 代价 是 修炼 一 个 平时 几乎 用 不 到 的 影子 ,是 

比 一 。 优 雅 合 一 剑 法 是 二 比 一 ， 降 低 了 修炼 的 代价 ， 而 威力 却 较 合 一 刀 法 没 减 多 少 。 

然而 , 这 套 剑 法 虽然 声名 大 噪 , 但 是 优雅 剑侠 还 是 被 一 个 突如其来 的 问题 一 直 折 磨 着 ， 直 到 
临终 也 没有 想 出 办 法 解决 。 

疑 间 : 如 果 我 使 用 3 把 剑 、4 把 剑 、5 把 剑 , 这 套 剑 法 还 奏效 么 ?因为 3 把 剑 的 数字 之 和 ， 

就 不 是 一 个 数字 ， 而 是 两 个 数字 了 ,比如 1+0+1=10。 而 这 套 剑 法 只 有 一 张 纸 , 一 个 格 

不 能 放 两 个 数字 ， 这 样 就 必须 再 加 一 张 纸 ， 这 样 不 就 和 独行 侠 那 一 套 无 异 了 么 ? 比例 太 

高 ,不 妥 。 所 以 优雅 剑侠 一 直 再 考虑 这 个 问题 ， 临 终 前 留 下 一 段 诗句 ， 也 抱 憾 而 终 。 

独行 合 一 皆 非 道 ， 
二 者 中 庸 方 优雅 。 
加 减 算术 勤 思考 ， 


世间 正道 为 算法 ! 

优雅 剑侠 这 段 诗 的 最 后 一 句 ， 指 明了 后 人 若 要 解决 这 个 问题 ， 必 须要 找到 一 种 算法 。 不 管 多 
少 个 数字 ， 如 果 掩盖 一 个 数字 ， 可 以 将 其 他 数字 代入 这 个 算法 ， 就 可 以 得 到 被 掩盖 的 数字 的 值 。 
这 在 当时 简直 就 是 不 可 能 的 事 。“ 世 间 正 道 为 算法 ”这 句 话 后 来 被 作为 推动 武林 发 展 的 一 句 至 理 
名 言 。 随 着 近代 西方 科技 传 入 中 国 ， 这 种 算法 终于 被 人 了 解 了 ! 他 是 如 此 简单 而 美丽 ! 他 改变 了 
整个 世界 ! 

峰回路转 ,七 星 大 侠 在 优雅 剑 法 的 基础 上 ， 把 剑 换 成 了 磁盘 。 那 张 记录 数字 之 和 的 纸 ， 七 星 
也 改 用 磁盘 来 记录 。 这 样 ， 组 成 了 一 个 三 磁盘 系统 ， 两 块 数据 盘 ， 一 块 所 谓 “ 校 验 盘 ”。 当 数据 
损坏 时 ,根据 校 验 盘 上 的 数字 , 可 恢复 损坏 磁盘 上 的 数字 。 两 个 磁盘 系统 每 次 只 能 传输 2 路 数据 ， 
因为 数据 盘 就 两 块 ， 而 每 块 磁盘 每 次 就 传输 出 去 一 路 。 

RAID 2 的 具体 实现 如 图 4-5 所 示 。 


83 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


DRTR IN PARITY BITS RDDED TRANSMITTED WORDS 
wa 

Dp8 1 

D4 上 P1 D8、D4、D1 

D2 】 

o1 上 P2 D8、D2、D1 

P3 D4、D2、D1 

数据 位 | |: ls 4 5 6 世 

代码 ”|P1 P2 |p8 P3 D4 D2 D1 

说 明 第 1 个 汉 | 第 2 个 汉 | 第 1 个 数 | 第 3 个 汉 | 第 2 个 数 | 第 3 个 数 | 第 4 个 数 
明 


ECC/Ax ECC/Ay ECC/Az 


ECC/Bx ECC/By ECC/Bz | 
ECC/Cx ECC/Cy ECC/Cz 
ECC/Dx ECC/Dy ECC/Dz 


AO to A3=Word A; BO to B3 = Word B; ECC/Ax to Az=Word A ECC; ECC/Bx to Bz = Word B ECC; 
COtoC3=Word 5; Do to D3 = Word D — ECC/Cx to Cr=Word CECC; ECC/Dx to Dz = Word D ECC 


图 4-5 RAID 2 的 具体 实现 

看 看 RAID 2 的 具体 实现 。 值 得 研究 的 是 ， 七 星 大 侠 并 没有 使 用 加 减法 来 进行 校 验 ， 而 是 用 
了 一 种 算法 复杂 的 所 谓 “ 汉 明码 ”来 校 验 。 这 可 不 是 信 手 牛 来 ， 而 是 有 一 定 原因 的 。 用 加 减 算法 
进行 校 验 ， 并 没有 对 数据 纠 错 的 能 力 。 加 减法 情况 下 ， 比 如 1+0+1=10， 这 段 数据 在 从 磁盘 被 传 
输 给 控制 器 的 时 候 ， 校 验 位 会 一 同 传输 ， 即 数据 位 101， 校 验 位 10， 此 时 经 过 控制 器 的 校 验 ， 他 
会 算出 1+0+1=10， 和 一 同 传 过 来 的 校 验 位 进行 比 对 。 如 果 相 同 ， 则 证 明 数 据 都 无 误 。 但 是 此 时 
如 果 在 传输 的 过 程 中 ， 电 路 受到 干扰 ， 数 据 位 其 中 有 一 位 畸变 了 ， 比 如 变 成 111 了 ， 也 就 是 中 间 
那个 0 变 成 1 了， 其 他 不 变 ， 此 时 控制 器 进行 计算 1+1+1=11， 和 一 同 传 过 来 的 10 不 同 ， 那 么 控 
制 器 会 怎么 认为 ?” 它 可 以 认为 数据 位 全 部 正确 ， 而 校 验 位 被 畸变 ， 也 可 以 认为 数据 位 被 畸变 ， 校 
验 位 正确 。 所 以 根本 不 能 判断 到 底 是 哪 种 情况 ， 所 以 不 能 修复 错误 。 而 七 星 引 入 了 汉 明 码 ， 汉 明 
码 的 设计 使 得 接收 方 可 以 判断 到 底 是 哪 一 位 出 错 了 ， 并 且 能 修正 一 位 错误 ,但 是 如 果 有 两 位 都 错 
了 ， 那 么 就 不 能 修正 了 。 


Hamming Code ECC ( 汉 明 码 错误 检测 与 修正 ) 


RAID 2 算法 的 复杂 性 在 于 它 使 用 了 很 早期 的 纠 错 技术 一 一 汉 明 码 ( Hamming Code ) 校 验 技 
术 。 现 在 就 来 看 一 下 汉 明 码 的 算法 。 

汉 明 码 在 原 有 数据 位 中 插入 一 定数 量 的 校 验 位 来 进行 错误 检测 和 纠 错 。 比 如 ， 对 于 一 组 4 位 
数据 编码 为 例 ， 汉 明码 会 在 这 4 位 中 加 入 3 个 校 验 位 ， 从 而 使 得 实际 传输 的 数据 位 达到 7 位 ， 它 
们 的 位 置 如 图 4-5 所 示 。 

需要 被 插入 的 汉 明码 的 位 数 与 数据 位 的 数量 之 间 的 关系 为 2P>P+D+1， 其 中 P 代表 汉 明 码 
的 个 数 ,D 代表 数据 位 的 个 数 。 比 如 4 位 数据 ,加 上 1 就 是 5, 而 能 大 于 5 的 2 的 客 数 就 是 3( 23=8， 
22=4 ) 。 所 以 ，7 位 数据 时 需要 4 位 汉 明 码 (24> 4+7+1 ) ，64 位 数据 时 就 要 7 位 汉 明码 ( 27 > 
64+7+1 ) 。 
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在 RAID 2 中 ,每 个 IO 下 发 的 数据 被 以 位 为 单位 平均 打 散 在 所 有 数据 盘 上 。 如 图 4.5 中 所 示 ， 
左边 的 为 数据 盘 阵 列 ， 如 果 某 时 刻 有 一 个 4KB 的 IO 下 发 给 这 个 RAID 2 系统, 则 这 4KB 中 的 第 
1、5、9、13 等 位 将 被 存放 在 第 一 块 数据 盘 的 一 个 扇 区 中 ,第 2、6、10、14 等 位 被 存放 在 第 二 个 
磁盘 的 对 应 条 带 上 的 扇 区 ， 依 此 类 推 。 这 样 ， 数 据 强行 打 散 在 所 有 磁盘 上 ， 迫 使 每 次 IO 都 要 全 
组 联动 来 存 取 ， 所 以 此 时 要 求 各 个 磁盘 主轴 同步 ， 才 能 达到 最 佳 效果 。 因 为 如 果 某 时 刻 只 读 出 了 
一 个 IO 的 某 些 肩 区 ， 另 一 些 肩 区 还 没有 读 出 ， 那 么 先 读 出 来 的 数据 都 要 等 待 ， 这 就 造成 了 瓶颈 。 
主轴 同步 之 后 ， 每 块 磁盘 盘 片 旋转 同步 ， 某 一 时 刻 每 块 磁盘 都 旋转 到 同一 个 扇 区 偏 移 的 上 方 。 同 
理 ， 右 边 的 阵列 (我们 称 之 为 校 验 阵列 ) 则 存储 相应 的 汉 明码 。 

RAID 2 在 写 入 数据 块 的 同时 还 要 计算 出 它们 的 汉 明 码 并 写 入 校 验 阵 列 ， 读 取 时 也 要 对 数据 
即时 地 进行 校 验 ， 最 后 再 发 向 系统 。 通 过 上 文 的 介绍 ， 我 们 知道 汉 明码 只 能 纠正 一 个 位 的 错误 ， 
所 以 RAID 2 也 只 能 允许 一 个 硬盘 出 问题 , 如 果 两 个 或 以 上 的 硬盘 出 问题 , RAID 2 的 数据 就 将 受 
到 破坏 。 

RAID 2 是 早期 为 了 能 进行 即时 的 数据 校 验 而 研制 的 一 种 技术 ( 这 在 当时 的 RAID 0、1 等 级 
中 是 无 法 做 到 的 ) ， 从 它 的 设计 上 看 也 是 主要 为 了 即时 校 验 以 保证 数据 安全 ， 针 对 了 当时 对 数据 
即时 安全 性 非常 敏感 的 领域 ， 如 服务 器 、 金 融 服务 等 。 但 由 于 校 验 盘 数 量 太 多 、 开 销 太 大 及 成 本 
昂贵 ， 目 前 已 基本 不 再 使 用 ， 转 而 以 更 高 级 的 即时 检验 RAID 所 代替 ,如 了 RAID 3、5 等 。 

七 星 大 侠 现 在 已 经 创造 了 三 种 阵 式 了 ， 根 据 合 一 刀 法 所 创 的 RAID 0， 根 据 独孤 掌 所 创 的 
RAID 1， 根 据 优雅 合 一 剑 法 所 创 的 RAID 2。 而 七 星 大 侠 的 郁闷 之 处 和 当年 优雅 剑侠 一 样 ， 就 是 
苦于 找 不 到 一 种 一 劳 永 逸 的 绝妙 算法 ,一 种 集 各 种 优点 为 一 身 而 且 开 销 小 的 算法 。 


4.1.4 RAID 3 阵 式 


话说 到 了 清末 ， 清 政府 开展 洋务 运动 ， 师 夷 长 技 以 治 夷 。 还 别 说 ， 真 引入 了 不 少 好 技术 ， 比 
如 布尔 逻辑 运算 式 。 这 话 要 从 布尔 说 起 , 布尔 有 一 次 在 家 捣 鼓 继电器 , 他 将 多 个 继电器 时 而 串联 ， 
时 而 并 联 ， 时 而 串 并 一 同 使 用 ， 逐 渐 摸 索 出 一 些 规律 。 比 如 两 个 继电器 在 串联 时 ， 必 须 同 时 闭合 
两 个 开关 , 电路 才能 接 通 , 灯泡 才能 亮 。 如 果 把 开关 闭合 当 作 1,， 开关 关闭 当 作 0, 灯泡 点 亮 当 作 
1， 灯 泡 不 亮 当 作 0， 那 么 这 种 串联 电路 的 逻辑 就 可 以 这 样 写 : 1 和 1=1。 也 就 是 两 个 开关 都 闭合 ， 
灯泡 才能 亮 (等 于 1) 。 

然后 ， 他 还 发 现 一 个 逻辑 ， 如 果 在 这 个 串联 电路 上 增加 一 个 元 件 ， 如 果 两 个 开关 都 闭合 的 时 
候 ， 电 路 反而 是 断 开 的 。 有 人 说 不 可 能 ， 那 么 请 仔细 想 一 想 ， 闭 合 开关 电路 断 开 ， 这 有 什么 难 的 
么 ? 完全 可 以 通过 继电器 来 实现 ， 比 如 电路 闭合 之 后 ， 电 磁铁 通电 ， 把 铁 片 吸引 下 来 ， 而 这 个 铁 
片 是 另 一 个 电路 的 开关 ， 铁 片 下 来 了 ， 另 一 个 电路 也 就 断 开 了 ， 所 以 通过 把 这 两 个 电路 组 合 ， 完 
全 可 以 得 到 这 种 逻辑 : 1 和 1=0。 

还 有 一 种 逻辑 ， 就 是 当 两 个 开关 任意 一 个 闭合 时 ， 电 路 就 通路 ， 也 就 是 并 联 电路 。 这 种 逻辑 
可 以 这 么 表达 : 1 或 1=1，1 或 0=1。 经 过 多 种 组 合 ， 布 尔 得 到 了 1 或 1=1、1 或 0=1、1 和 1=1、 
1 和 0=0。 

这 就 是 4 种 基本 逻辑 电路 。 这 种 “和 ”、“ 或 ”的 运算 ， 很 多 人 都 不 理解 。 人 们 理解 的 只 是 
加 减 运 算 , 因为 加 减 很 常用 。 人 们 不 理解 的 原因 就 是 不 知道 除了 加 减 算术 之 外 , 还 有 一 种 叫做 “多 
辑 ” 的 东西 ， 也 就 是 因果 的 运算 。 人 们 往往 把 1 当成 数量 ， 代 表 1 个 ， 而 在 因果 率 中 ，1 不 代表 
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量 ， 它 只 代表 真 假 ， 其 实 我 们 完全 可 以 不 用 1 这 个 符号 来 代表 真 , 我 们 就 用 中 文 “ 真 ”代表 真 ， 
再 2 

当然 可 以 , 但 是 因为 笔画 太 多 , 不 方便 , 还 是 用 1 和 0 代表 真 假 比较 方便 。 其 实 磁盘 上 的 数 
据 ， 也 不 是 1 就 代表 1 个 ， 而 是 1 代表 磁性 的 取向 ， 因 为 磁性 只 有 两 个 取向 ， 仿 佛 对 称 就 是 组 成 
宇宙 的 基石 一 样 ， 比 如 正 、 负 ， 对 、 错 等 。 当 因果 率 被 用 数学 方程 式 表达 出 来 并 赋予 电路 的 物理 
意义 之 后 ， 整 个 世界 也 就 进入 了 新 世纪 的 黎明 ， 这 个 世纪 是 计算 机 的 世纪 。 


提示 : 从 数学 到 物理 意义 ， 我 们 仿佛 看 出 点 什么 来 ， 现 代 量 子 力学 那 一 大 堆 数 学 式 ， 折 
服 了 太 多 的 科学 家 ,包括 爱 因 斯 坦 ， 到 他 去 世 前 ， 爱 因 斯 坦 都 没有 理解 量子 力学 所 推演 
出 来 的 数学 式 子 在 物理 上 到 底 代表 了 什么 意义 。 而 且 直 到 21 世纪 , 也 没有 人 给 予 这 些 式 
子 以 “目前 ”可 理解 的 物理 意义 。 我 们 可 以 想象 一 下 布尔 逻辑 算式 公布 的 时 候 ， 物 理 意 
义 到 底 是 什么 ? 没 人 知道 ， 甚 至 布尔 自己 估计 也 不 知道 ， 就 只 是 一 对 式 子 而 已 。 直 到 有 
一 天 一 个 人 在 家 捣 鼓 继电器 , 突然 风 马 牛 不 相 及 地 想到 了 , 这 不 就 是 布尔 逻辑 么 ”从 此 ， 
数字 电路 ,计算 机 时 代 ， 改 变 了 我 们 的 世界 。 

七 星 在 学 习 了 布尔 逻辑 算式 之 后 ， 也 是 稀里糊涂 地 把 它 用 在 RAID 2 那 一 直 困 扰 他 的 问题 上 
， 看 看 能 否 有 所 突破 。 

布尔 运算 中 有 一 个 XOR 运算 , 即 1 XOR 0=1，1 XOR 1=0, 0 XOR 0=0。 布尔 也 总 结 出 了 
与 加 法 结合 率 、 加 法 交换 率 等 类 似 的 逻辑 运算 率 ， 并 发 现 了 一 些 规律 : 


1 XOR 0 XOR 1=0 


翌 


0 XOR 1 XOR 0=1 

假如 第 一 个 式 子 中 , 中间 的 0 被 扼 盖 ， 完 全 可 以 从 结果 推出 这 个 被 拖 盖 的 逻辑 数字 。 不 管 多 
少 位 ， 进 行 逻辑 运算 之 后 还 是 一 位 。 仔 细 一 想 也 是 理所当然 的 ， 逻 辑 结果 只 有 两 个 值 ， 不 是 真 ， 
就 是 假 ， 当 然 只 用 一 位 就 可 以 代替 了 。 

提示 : 大 家 可 以 自己 算 算 ， 不 管 等 式 左边 有 多 少 位 进行 运算 ， 这 个 规律 都 适用 。 但 是 在 

加 减法 中 , 若 要 保持 等 式 右 边 有 一 位 , 则 左边 参与 运算 的 只 能 是 1+ 0 或 者 0+ 1, 再 多 一 

个 数 的 话 ， 右 边 就 是 两 位 了 。 但 是 多 辑 运算 中 等 式 右边 永远 都 是 一 位 ! 就 是 如 此 绝妙 。 

为 什么 如 此 精妙 呢 ? 没 人 能 解释 为 什么 ， 就 像 问 为 什么 有 正 电荷 、 负 电荷 一 样 ， 它 们 到 

底 是 什么 东西 ， 谁 也 说 不 清 。 

七 星 大 侠 开 始 并 不 觉得 这 是 真 的 ， 他 反复 演算 ， 想 举 出 一 个 伪证 ， 可 是 徒劳 无 功 。 七 星 不 得 
不 为 布尔 的 绝学 所 折服 ! 同时 也 为 西方 发 达 的 基础 科学 所 赞叹 ! 

至 此 ， 困 扰 七 星 大 侠 多 年 的 关于 算法 的 问题 ， 终 于 随 着 西方 科学 的 介入 ， 得 以 顺利 解决 ! 而 
且 解 决 得 是 那么 完美 ， 那 么 畅快 ! 

七 星 立即 决定 投入 其 下 一 个 阵 式 RAID 3 的 创立 过 程 中 。 他 发 狂 似 地 抛弃 了 那 元 余 的 让 人 看 
着 就 不 顺眼 的 RAID 2 的 几 块 校 验 盘 ， 只 留 下 一 块 。 按 照 布尔 的 思想 ， 数 据 盘 的 每 一 个 位 之 间 做 
XOR 运算 ， 然 后 将 结果 写 入 校 验 盘 的 对 应 位 置 。 这 样 ， 任 何 一 块 数据 盘 损 坏 ， 或 者 其 中 的 任何 
一 个 扇 区 损坏 ， 都 可 以 通过 剩余 的 位 和 校 验 位 一 同 进行 XOR 运算 ， 而 运算 的 结果 就 是 这 个 丢失 
的 位 。8 位 一 起 校 验 可 以 找 出 一 个 丢失 的 字 节 ，512 字 节 一 起 校 验 就 可 以 找到 一 个 丢失 的 扇 区 。 

做 到 这 里 ， 已 经 算是 成 功 了 ， 但 是 七 星 还 不 太 满 足 ， 因 为 他 还 有 一 桩 心事 ， 就 是 RAID 2 中 


第 4 章 七 星 北斗 一 一 大 话 / 详 解 七 种 RAID @ 


数据 被 打 得 太 散 了 。 七 星 大 侠 索 性 把 RAID 3 的 条 带 长 度 设置 成 为 4KB， 这 样 刚好 适 配 了 上 层 的 
数据 组 织 , 一 般 文件 系统 常用 的 是 以 4KB 为 一 个 块 。 如 果 用 4 块 数据 盘 , 则 条 带 深度 为 两 个 扇 区 
或 者 1KB。 如 果 用 8 个 数据 盘 , 则 条 带 深度 为 1 个 扇 区 或 者 说 512B。 总 之 ,要 保持 条 带 长 度 为 上 
层 块 的 大 小 。 上 层 的 IO 一 般 都 会 以 块 为 单位 ， 这 样 就 可 以 保证 在 连续 写 的 情况 下 ， 可 以 以 条 带 
为 单位 写 入 ， 大 大 提高 磁盘 并 行 度 。 

七 星 在 RAID 3 阵 式 中 , 仍旧 保持 RAID 2 的 思想 , 也 就 是 对 一 个 IO 尽量 做 到 能 够 分 割 成 小 
块 , 让 每 个 磁盘 都 得 到 存放 这 些小 块 的 机 会 。 这 样 多 磁盘 同时 工作 , 性 能 高 。 所 以 七 星 在 RAID 3 
中 把 一 个 条 带 做 成 4KB 这 个 魔术 值 , 这 样 每 次 IO 就 会 牵动 所 有 磁盘 并 行 读 写 。 到 此 我 们 了 解 了 ， 
RAID 2 和 RAID 3 都 是 每 次 只 能 做 一 次 IO (在 IO 块 大 于 Block SIZE 的 时 候 ) ， 不 适合 于 要 求 
多 IO 并 发 的 情况 ， 因 为 会 造成 IO 等 待 。RAID 3 的 并 发 只 是 一 次 IO 的 多 磁盘 并 发 存 取 ， 而 不 
是 指 多 个 IO 的 并 发 。 所 以 和 RAID 2 一样， 适合 IO 块 大 、IO SIZE/IO PS 比值 大 的 情况 。 

提示 : 在 极端 优化 的 条 件 下 , RAID 3 也 是 可 以 做 到 IO 并 发 的 。 控 制 器 向 一 块 磁盘 发 送 

的 读 写 指令 ， 其 中 包含 一 个 所 要 读 取 扇 区 的 长 度 ， 如 果 下 一 次 I0 与 本 次 I0 在 物理 上 是 

连续 的 ( 连续 I0 ) ， 此 时 如 果 控 制 器 做 了 极端 的 优化 ， 则 可 以 将 这 两 次 10 合并 起 来 , 向 

磁盘 发 送 的 每 个 I0 指令 中 包含 了 两 次 上 层 I0 的 数据 ， 这 样 也 算是 一 种 并 发 1I0。 当 然 ， 

这 种 优化 不 仅仅 可 以 在 磁盘 控制 器 这 一 层 实 现 ， 其 实 文件 系统 层 也 可 以 实现 。 


提示 : RAID 3 和 RAID 2 一样 ， 要 达到 RAID 3 的 最 佳 性 能 ， 需 要 所 有 磁盘 的 主轴 
同步 。 也 就 是 说 ， 对 于 一 块 数据 ， 所 有 磁盘 最 好 同时 旋转 到 这 个 数据 所 在 的 位 置 ， 然 后 
所 有 磁盘 同步 读 出 来 。 不 然 ， 一 旦 有 磁盘 和 其 他 磁盘 不 同步 ， 就 会 造成 等 待 ， 所 以 只 有 
主轴 同步 才能 发 挥 最 大 性 能 。 
总 结 一 下 , RAID 3 相 比 RAID 2 校 验 效率 提升 ,成 本 减少 ( 使 用 磁盘 更 少 了 ) 。 缺点 是 不 支 
持 错误 纠正 了 ， 因 为 XOR 算法 无 法 纠正 错误 。 但 是 这 个 缺点 已 经 不 重要 ， 发 生 错误 的 机 会 少 之 
又 少 ， 可 以 完全 靠 上 层 来 处 理 错误 了 。 正 可 谓 : 
与 非 异 或 同 ， 
一 语 解 千 愁 。 
今朝 有 酒 醉 ， 
看 我 数 风流 ! 
下 面 说 明 关 于 RAID 3 的 校 验 盘 有 没有 瓶颈 的 问题 。 
不 妨 用 一 个 例子 来 深入 理解 一 下 RAID 3。 通 过 刚才 的 讲解 ,大 家 知道 了 RAID 3 每 次 IO 都 
会 分 散 到 所 有 盘 。 因 为 RAID 3 把 一 个 逻辑 块 又 分 割 成 了 N 份 , 也 就 是 说 如 果 一 个 逻辑 块 是 4KB 
(一 般 文件 系统 都 使 用 这 个 值 ) ， 在 有 5 块 盘 的 RAID 3 系统 中 其 中 4 块 是 数据 盘 ， 1 块 是 校 验 
盘 。 这 样 , 把 4KB 分 成 4 块 , 每 块 1KB, 每 个 数据 盘 上 各 占 1 块 ， 也 就 是 两 个 扇 区 。 而 文件 系统 
下 发 的 一 个 IO ,至少 是 以 一 个 逻辑 块 为 单位 的 ， 也 就 是 不 能 IO 半 个 逻辑 块 的 单位 ， 也 就 不 可 能 
存在 一 个 IO ,大 小 是 小 于 4KB 的 , 要 么 是 1 个 4KB,， 要 么 是 N 个 4KB。 但 这 只 是 针对 文件 系统 
下 发 的 IO， 磁盘 控制 器 驱动 向 磁盘 下 发 的 IO 最 细 粒 度 可 以 为 一 个 扇 区 。 这 样 ， 就 保证 了 文件 系 
统 下 发 的 一 次 IO， 不管 多 大 都 被 跨越 了 所 有 数据 盘 。 
读 又 分 成 连续 读 和 随机 读 。 连 续 读 指 的 是 每 个 IO 所 需要 提取 的 数据 块 在 序号 上 是 连续 的 ， 
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磁头 不 必 耗 费 太 多 时 间 来 回 寻 道 ， 所 以 这 种 情况 下 寻 道 消耗 的 时 间 就 很 短 。 我 们 知道 , 一 个 IO 
所 用 的 时 间 约 等 于 寻 道 时 间 加 上 旋转 延迟 时 间 再 加 上 数据 传输 时 间 。 IOPS=1/ ( 寻 道 时 间 + 旋 转 延 
迟 时 间 + 数 据 传输 时 间 ) ,由 于 寻 道 时 间 相 对 于 传输 时 间 要 大 几 个 数量 级 , 所 以 影响 IOPS 的 关键 
因素 就 是 寻 道 时 间 。 而 在 连续 IO 的 情况 下 ， 仅 在 换 磁道 时 需要 寻 道 ， 而 磁道 都 是 相 邻 的 ， 所 以 
寻 道 时 间 也 足够 短 。 在 这 个 前 提 下 ， 传 输 时 间 这 个 分 母 就 显示 出 作用 来 了 。 由 于 RAID 3 是 一 个 
IO， 必 定 平均 分 摊 到 了 N 个 数据 盘 上 ， 所 以 数据 传输 时 间 是 单 盘 的 VN， 从 而 在 连续 IO 的 情况 
下 ,大 大 增加 了 IOPS。 而 磁盘 总 体 传输 速率 约 等 于 IOPS 乘 以 IO SIZE。 不 管 IO SIZE 多 大 ,RAID 3 
的 持续 读 性 能 几乎 就 是 单 盘 的 N 倍 ， 非 常 强 大 。 

再 看 看 持续 写 ， 同 样 的 道理 ， 写 IO 也 必定 分 摊 到 所 有 数据 盘 ， 那 么 寻 道 时 间 也 足够 短 ( 
为 是 持续 IO ) 。 所 以 写 的 时 候 所 耗费 的 时 间 也 是 单 盘 的 MN， 因 此 速率 也 是 单 盘 的 N 倍 。 有 人 
说 RAID 3 的 校 验 盘 是 热点 盘 , 是 瓶颈 。 理 由 是 RAID 3 写 校 验 的 时 候 , 需要 像 RAID 5 一样, 先 
读 出 原来 的 校 验 块 ， 再 读 出 原来 的 数据 块 ， 接 着 计算 出 新 校 验 ， 然 后 写 入 新 数据 和 新 校 验 。 实 际 
上 RAID 3 中 每 个 IO 必定 要 改动 所 有 数据 盘 的 数据 分 块 。 因 为 一 个 文件 系统 IO 的 块 已 经 被 分 制 
到 所 有 盘 了 ， 只 要 这 个 IO 是 写 的 动作 ， 那 么 物理 磁盘 上 的 所 有 分 块 ， 就 必定 要 全 部 都 被 更 新 重 
写 。 既 然 这 样 ， 还 有 “ 旧 数 据 ” 和 “ 旧 校 验 ” 的 概念 么 ? 没有 了 ， 因 为 这 个 IO 上 的 所 有 分 制 块 
需要 全 部 被 更 新 ， 包 括 校 验 块 。 数 据 在 一 次 写 入 之 前 ， 控 制 器 就 会 计算 好 校 验 块 ， 然 后 同时 将 数 
据 块 和 校 验 块 写 入 磁盘 。 这 就 没有 了 什么 瓶颈 和 热点 的 区 别 ! 

RAID 4 是 有 热点 盘 ， 因 为 RAID 4 系统 处 理 文件 系统 IO 不 是 每 次 都 会 更 新 所 有 盘 的 ， 所 以 
它 必 须 用 RAID 5 的 那个 计算 新 校 验 的 公式 , 也 就 是 多 出 4 个 操作 那个 步骤 , 所 以 当然 有 瓶颈 了 ! 
要 说 RAID 3 有 热点 盘 ， 也 行 ， 所 有 盘 都 是 热点 盘 ， 数 据 、 校 验 ， 所 有 盘 ， 对 RAID 3 来 说 , 每 
次 IO 必 将 牵动 所 有 盘 ， 那 么 就 可 以 说 RAID 3 全 部 都 是 热点 盘 ! 

再 来 看 看 RAID 3 的 随机 读 写 。 所 谓 随机 IO, 即 每 次 IO 的 数据 块 是 分 布 在 磁盘 的 各 个 位 置 ， 
这 些 位置 是 不 连续 的 ， 或 者 连续 几率 很 小 。 这 样 ， 磁 头 就 必须 不 断 地 换 道 ， 换 道 操作 是 磁盘 操作 
中 最 慢 的 环节 。 根 据 公式 IOPS=1/ ( 换 道 时 间 + 数 据 传输 时 间 ) ， 随 机 IO 的 时 候 换 道 时 间 很 大 ， 
大 出 传输 时 间 几 个 数量 级 , 所 以 传输 得 再 快 , 翻 10 倍 也 才 增 高 了 一 个 数量 级 , 远 不 及 换 道 时 间 的 
影响 大 ， 所 以 此 时 可 以 忽略 传输 时 间 的 增加 效应 。 由 于 一 次 IO 同样 是 被 分 割 到 了 所 有 数据 盘 ， 
那么 多 块 盘 同时 换 道 ， 然 后 同时 传输 各 自 的 那个 分 块 ， 换 道 时间 就 约 等 于 单 盘 。 其 传输 时 间 是 单 
盘 的 1/N， 而 传输 时 间 带 来 的 增 效 可 以 忽略 。 所 以 对 于 随机 读 写 的 性 能 ，RAID 3 并 没有 提升 ， 
和 单 盘 一 样 ， 甚 至 不 及 单 盘 。 因 为 有 时 候 磁盘 不 是 严格 主轴 同步 的 ， 这 样 换 道 慢 的 磁盘 会 拖累 其 
他 磁盘 。 

再 来 看 看 并 发 IO。 显然 , RAID 3 执行 一 次 IO 必 将 牵动 占用 所 有 盘 ， 那 么 此 时 其 他 排队 的 
IO 就 必须 等 待 ， 所 以 RAID 3 根本 就 不 能 并 发 IO。 


注意 : 上 文中 的 “IO” 均 指 文件 系统 下 发 的 10， 而 不 是 指 最 终 的 磁盘 I0。 


4.1.5 ”RAID 4 阵 式 


七 星 自从 学 习 了 西方 先进 的 基础 科学 之 后 ， 一 发 而 不 可 收 。 以 前 已 经 是 以 钻研 为 乐 ,现在 成 
了 以 钻研 为 生 了 。 以 前 俄 了 还 知道 去 要 饭 吃 , 现在 七 星 已 经 感觉 不 到 俄 了 , 只 要 有 东西 让 他 钻研 ， 
就 等 于 吃饭 了 。 
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话说 某 天 七 星 正 在 闭 目 思考 修炼 ， 他 回想 起 了 双 刀 时 代 的 辉煌 、 独 行 时 代 的 凄 苦 和 优雅 剑 时 
代 的 中 庸 之 乐 。 往 事 历历 在 目 ,再 看 看 如 今 已 经 是 穷困 渡 倒 的 自己 , 他 不 禁 满 然 泪 下 , 老 泪 纵横 。 

他 给 上 面 的 三 种 思想 , 分 别 划分 了 门派 , RAID 0 属于 激进 派 , RAID 1 属于 保守 派 , RAID 2， 
RAID 3 属于 中 良 派 。 中 庸 派 的 思想 一 方面 汲取 了 激进 派 的 横 分 竖 制 提高 威力 的 做 法 ， 一 方面 适 
当地 降低 威力 来 向 保守 派 汲 取 了 自 保 的 经 验 ， 而 创立 了 引 以 为 豪 的 校 验 盘 的 绝妙 技术 。 

七 星 想 着 激进 派 似乎 已 经 没有 什么 可 以 让 中 庸 派 值得 借鉴 的 地 方 了 ,倒是 保守 派 的 一 个 关键 
技术 中 庸 派 还 没有 移植 过 来 ， 那 就 是 同时 应 付 多 个 敌人 的 技术 。 虽 然 当年 独行 侠 根 本 就 没有 意识 
到 他 的 独孤 影子 掌 可 以 同时 应 付 两 个 敌人 ， 因 为 独行 侠 一 生 都 没有 同时 和 两 个 人 交 过 手 。 虽 然 独 
孤 掌 的 秘笈 中 也 没有 提 及 这 门 绝招 , 但 是 七 星 凭 他 积累 多 年 的 知识 和 经 验 , 强烈 地 感觉 到 并 发 IO 
早 在 独孤 掌 时 代 就 已 经 被 实现 了 ， 只 不 过 没有 被 记载 ， 而 且 一 直 被 人 忽略 ! 要 想 有 所 突破 就 必须 
突破 这 一 关 ! 想到 这 里 ， 七 星 立即 再 次 开始 了 他 的 实验 。 

RAID 2 阵 式 中 , 数据 块 被 以 位 为 单位 打 散在 多 块 磁盘 上 存储 ， 这 种 设计 确实 应 该 被 淘汰 了 ， 
且 不 说 IO 设计 合理 与 否 , 看 它 校 验 盘 的 数量 就 让 人 气 不 打 一 处 来 。 那 么 再 看 看 RAID 3, 在 RAID 3 
的 IO 设计 中 还 是 走 了 RAID 2 的 老路 子 ， 也 就 是 一 次 IO 尽量 让 每 块 磁盘 都 参与 ， 而 控制 器 的 一 
次 IO 数据 块 不 会 很 大 ,那么 想 让 每 块 磁盘 都 参与 这 个 IO ， 就 只 能 人 为 地 减 小 条 带 深 度 的 大 小 。 
事实 证 明 这 种 IO 设计 在 IOSIZE/IOPS ( 比值 ) 很 大 的 时 候 ， 确 实效 果 明 显 。 但 在 现实 应 用 
中 , 很 多 应 用 的 IOSIZE/IOPS 都 很 小 , 比如 随机 小 块 读 写 等 , 这 种 应 用 每 秒 产生 的 IO 数目 很 大 ， 
但 是 每 个 IO 所 请 求 的 数据 长 度 却 很 短 。 如 果 所 有 磁盘 同一 时 刻 都 被 一 个 IO 占用 着 , 且 不 能 并 发 
IO， 只 能 一 个 IO 一 个 IO 的 来 做 ， 由 于 IO 块 长 度 小 ， 此 时 全 盘 联 动 来 传输 这 个 IO， 得 不 偿 失 ， 
还 不 如 让 这 个 IO 的 数据 直接 写 入 一 块 磁盘 ， 空 余 的 磁盘 就 可 以 做 其 他 IO 了 。 

要 实现 并 发 IO, 就 需要 保证 有 空闲 的 磁盘 未 被 IO 占用 , 以 便 其 他 IO 去 占有 磁盘 进行 访问 。 
唯一 可 以 实现 这 个 目的 的 方法 就 是 增 大 条 带 深度 , 控制 器 的 一 个 IO 过 来 , 如 果 这 个 IO 块 小 于 条 
带 深度 ， 那 么 这 次 IO 就 被 完全 “ 禁 钢 ”在 一 块 磁盘 上 ， 直 接 就 写 入 了 一 个 磁盘 上 的 Segment 中 ， 
这 个 过 程 只 用 到 了 一 块 磁盘 。 而 其 他 IO 也 可 以 和 这 个 IO 同时 进行 ， 前 提 是 其 他 IO 的 目标 不 是 
这 个 IO 要 写 入 或 读 取 的 磁盘 。 所 以 实现 IO 并 发 还 需要 增 大 数据 的 随机 分 布 性 ,而 不 要 连续 在 一 
个 磁盘 上 分 布 。 这 里 七 星 大 侠 忽 略 了 一 个 非常 重要 的 地 方 ， 下 面 会 看 到 。 

在 这 些 分 析 的 基础 上 ,七星 将 RAID 3 进行 了 简单 的 改造 ， 增 大 了 条 带 深度 ， 于 是 便 创立 了 
一 个 新 的 阵 式 ， 名 日 RAID 4。 
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四 海 一 家 


尖 和 这 人 尝 冲 故 定 内 和 虹 未 光 汗 
朵 三 呆 和 兰 妆 妆 寺 六 小 往 通 闭 


4.1.6 RAID 5 阵 式 


话说 七 星 大 侠 正 在 为 创立 了 RAID 4 阵 式 而 欢喜 的 时 候 ， 麻 烦 来 了 。 很 多 江湖 上 的 朋友 都 给 
他 朱 信 说 , 修炼 了 RAID 4 阵 式 之 后 , 在 IO 写 的 时 候 , 好 像 性 能 相对 于 RAID 3 并 没有 什么 提升 ， 
不 管 IOSIZE/IOPS 的 值 是 多 少 。 这 个 奇怪 的 问题 ,让 七 星 大 侠 天 天 如 坐 针 息 、 茶 饭 不 思 , 终日 思 
考 这 个 问题 的 原因 。 他 不 停 地 拿 着 两 块 磁盘 和 一 张 纸 ( 校 验 盘 ) 比划 。 时 间 一 长 ,七 星 有 一 天 突 
然 发 现 , 纸 已 经 被 他 画 的 不 成 样子 了 , 需要 另 换 一 张 。 这 引起 了 思维 活跃 的 七 星 大 侠 的 思考 , “并 
发 IO, 并 发 IO, 并 发 JO，…… ”， 他 不 停 地 在 嘴 里 念 四 着 。 突 然 他 两 眼 一 睁 ， 吕 了 一 句 之 后 ， 
开始 奋 笔 疾 书 。 

七 星 大 侠 想 到 了 什么 让 他 悦 然 大 悟 呢 ?原来 七星 经 过 思考 之 后 ， 发 现 RAID 4 确实 是 他 的 
一 大 败笔 相对 RAID 3 没有 什么 性 能 提升 ， 反 而 误 人 子弟 ， 浪 费 了 很 多 人 的 时 间 去 修炼 一 个 无 
用 的 功夫 。 

七 星 创 立 RAID 4 时 ， 太 过 大 意 了 ,竟然 忽略 了 一 件 事情 。 每 个 10 写 操作 必须 占用 校 验 盘 ， 
校 验 盘 每 一 时 刻 总 是 被 一 个 IO 占用 ， 因 为 写 数据 盘 的 时 候 ， 同 时 也 要 读 写 校 验 盘 上 的 校 验 码 。 
所 以 每 个 写 IO 不 管 占 用 了 哪 块 数据 盘 ， 校 验 盘 它 是 必须 占用 的 ， 这 样 校 验 盘 就 成 为 了 瓶颈 ， 而 
且 每 个 写 入 IO 都 会 拖累 校 验 盘 ， 使 得 校 验 盘 没有 休息 的 时 间 ， 成 了 “热点 盘 ”， 非 常 容 易 损坏 。 

没有 引入 校 验 功能 ， 数 据 盘 可 以 被 号 IO 并 发 ， 引 入 了 校 验 功能 之 后 ， 数 据 盘 还 可 以 并 发 ， 
但 是 校 验 盘 不 可 以 并 发 ， 所 以 整体 上 还 是 不 能 并 发 。 除 非 不 使 用 校 验 盘 ， 不 过 那 就 和 RAID 0 没 
什么 区 别 了 。 所 以 七 星 在 RAID 4 上 掉 进 了 一 个 误区 ， 如 今 他 终于 醒悟 了 。 

创立 的 RAID 4 什么 都 不 是 ， 不 伦 不 类 。 七 星 这 个 郁闷 啊 ! 为 了 实现 真正 的 写 IO 并 发 , 他 
这 次 是 钦 出 去 了 ， 一 定 要 创立 新 的 阵 式 ! 
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思考 : RAID 4 的 关键 错误 在 于 忽略 了 校 验 盘 。 每 个 IO 不 管 目标 在 哪个 数据 盘 , 但 是 一 

定 要 读 写 校 验 盘 。 而 校 验 盘 只 有 一 块 ， 不 读 也 得 读 ! 那 如 果 有 两 块 校 验 盘 ， 它 能 否 随 机 

选择 一 块 来 读 写 ? 不 行 ， 这 两 块 校 验 盘 之 间 也 要 同步 起 来 ,类似 RAID 1， 这 样 开销 太 

大 ,成 本 太 高 。 

不 妨 作 一 下 演绎 ， 首 先 ， 我 们 的 目标 是 并 发 IJO。 要 并 发 IO ， 校 验 盘 某 一 时 刻 必 须 可 以 被 多 
个 IO 占用 ， 这 是 必须 的 ， 否 则 就 不 是 并 发 IO。 但 是 “ 校 验 盘 某 一 时 刻 可 以 被 多 个 IO 占用 ”， 
这 不 简直 是 扯淡 么 ? 一 块 磁盘 怎么 可 以 同时 被 多 个 IO 占用 呢 ? 所 以 七 星 下 了 结论 ， 中 庸 派 不 可 
能 实现 并 发 IO。 

结论 下 了 ,七 星 也 病 了 ， 彻 彻底 底 的 病 倒 了 。 他 不 甘心 ,在 他 心中 一 定 有 一 个 完美 的 阵 式 。 
他 拿 着 那 张 已 经 快 被 画 烂 的 纸 ， 气 愤 至 极 ， 将 纸 撕 成 了 两 半 。 碎 片 就 像 七 星 那 破碎 的 心 ， 飘 飘落 
下 ,不 偏 不 倚 ， 正 好 分 别 落 到 了 地 上 的 两 把 剑 上 ， 分 别 盖 住 了 剑 的 一 半 。 七 星 看 着 这 情景 ， 一 发 
惕 ， 仿 佛 冥 冥 中 一 直 有 个 神仙 在 指引 着 他 似 的 ， 又 一 次 让 七 星 茅 塞 顿 开 ， 习 然 大 悟 : “ 老 天 助 我 
啊 ! 哇 哈 哈哈 哈哈 ! ” 

七 星 疯 了 一 般 从 迷 上 滚 落下 来 ， 他 又 找 来 一 把 剑 ， 把 纸 撕 成 三 块 ， 分 别 盖 住 每 把 剑 的 三 分 之 
一 。 同 样 ，4 把 剑 ， 把 纸 撕 成 4 块 ， 盖 住 剑 的 四 分 之 一 。 良 久之 后 ,七 星 仰 天 长 叹 : “完美 , 太 
完美 了 ! ” 

七 星 赶 紧 静 下 心 来 ， 他 深 知 ， 必 须 经 过 深思 熟 虑 ， 才 不 会 出 现 问题 ， 不 能 重 蹈 RAID 4 的 覆 
略 。 他 花 了 半 个 月 的 时 间 ， 用 树枝 在 地 上 画图 演算 ， 并 仔细 分 析 。 一 块 磁盘 同一 时 刻 不 能 被 多 个 
IO 占用 ,这 是 绝对 真理 ,不 可 质疑 的 真理 。 那 么 以 前 也 曾经 想 过 ， 把 校 验 盘 做 成 多 块 ， 可否? 也 
不 好 ,不 完美 。 这 次 把 校 验 盘 分 制 开 ， 组 合 于 数据 盘 之 中 ， 依 附 于 数据 盘 ， 这 样 就 完美 地 避 开 了 
那个 真理 。 既 然 多 个 IO 可 以 同时 刻 访问 多 块 数据 盘 ， 而 校 验 盘 又 被 打 散 在 各 个 数据 盘 上 ， 那 么 
就 意味 着 多 IO 可 以 同时 访问 校 验 盘 (的 “ 残 体 ”) 。 这 样 就 大 大 增加 了 多 IO 并 发 的 几率 ,纵使 
发 生 多 个 IO 所 要 用 到 的 校 验 盘 的 “ 残 体 ” 可 能 在 同一 块 数据 盘 上 , 这 样 还 是 可 以 IO 排队 等 待 的 。 

如 果 数 据 盘 足 够 多 ， 校 验 盘 打 散 的 部 分 就 会 分 布 得 足够 广泛 ， 多 IO 并 发 的 几率 就 会 显著 增 
大 ! 他 根据 这 个 推断 做 实验 ， 首 先是 两 个 数据 盘 。 把 纸 撕 成 两 半 ， 分 别 盖 住 两 把 剑 的 一 半 ， 这 样 
实际 的 数据 盘 容量 其 实 是 一 把 剑 的 容量 ， 校 验 盘 容量 也 是 一 把 剑 的 容量 ， 它 们 分 别 占 了 总 容量 的 
二 分 之 一 。 由 于 2 块 盘 的 RAID 5 系统 ， 对 于 写 操作 来 说 不 能 并 发 IO， 因 为 一 个 IO 访问 其 中 一 
块 盘 的 数据 的 时 候 ， 校 验 信息 必定 在 另 一 块 盘 ， 必 定 也 要 同时 访问 另 一 块 盘 。 同 样 ，3 块 盘 的 
RAID 5 系统 也 不 能 并 发 IO, 最 低 可 以 并 发 IO 的 RAID 5 系统 需要 4 块 盘 , 而 此 时 最 多 可 以 并 发 
两 个 IO， 可 以 算出 并 发 几率 为 0.0322。 更 多 磁盘 数量 的 RAID 5 系统 的 并 发 几率 将 更 高 。 图 4-6 
为 一 个 RAID 5 系统 的 示意 图 。 
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图 4-6 RAID 5 系统 示意 图 

七 星 这 次 可 谓 是 红星 高 照 ， 脸 色 红润 ， 病 态 全 无 。 他 把 这 个 新 创立 的 阵 式 叫做 RAID 5。 正 

可 谓 : 
心 似 剑 ， 剑 如 心 ， 
剑 心 合 ， 方 不 侵 。 
分 久 必 合 合 久 分 ， 
分 分 合 合 天 地 真 ! 

RAID 5 也 不 是 那么 完美 无 缺 的 ,可 以 说 RAID 5 是 继 RAID 0 和 RAID 1 之 后 , 又 一 个 能 实 
现 并 发 IO 的 阵 式 ， 但 是 比 RAID 1 更 加 划算 ， 比 RAID 0 更 加 安全 。RAID 5 浪费 的 资源 , 在 2 
块 盘 的 系统 中 与 RAID 1 是 一 样 的 , 都 是 二 分 之 一 。 但 是 随 着 磁盘 数量 的 增加 , RAID 5 浪费 的 容 
量 比 例 越 来 越 小 ， 为 N 分 之 一 ， 而 RAID 1 则 永远 是 二 分 之 一 。 

RAID 5 和 RAID 0 都 是 利用 条 带 来 提升 性 能 , 但 是 它 又 克服 了 RAID 0 的 鲁莽 急 躁 , 对 数据 
用 校 验 的 方式 进行 保护 。 但 是 RAID 5 的 设计 思想 , 注定 了 它 的 连续 读 性 能 不 如 RAID 3, RAID 3 
由 于 条 带 深度 很 小 , 每 次 IO 总 是 能 牵动 所 有 磁盘 为 它 服务 ,对 于 大 块 连续 数据 的 读 写 速度 很 快 。 
但 是 RAID 5 的 条 带 深度 比较 大 , 每 次 IO 一 般 只 使 用 一 块 数 据 盘 , 而 且 通 用 RAID 5 系统 一 般 被 
设计 为 数据 块 都 是 先 放 满 一 个 Segment， 再 去 下 一 个 磁盘 的 Segment 存放 ， 块 编号 是 横向 进行 的 。 

RAID 5 在 随机 读 方 面 ， 确 实 是 首屈一指 的 ,这 要 归功 于 它 的 多 IO 并 发 的 实现 , 这 里 指 的 是 
随机 IO。 也 就 是 说 RAID 3 在 IOSIZE 值 大 的 时 候 具有 高 性 能 , RAID 5 在 随机 IOPS 大 的 时 候 具 
有 高 性 能 。 

RAID 5 的 一 大 缺点 就 是 写 性 能 较 差 。 写 性 能 差 是 中 庸 派 的 通病 ， 其 根本 原因 在 于 它们 每 写 
一 扇 区 的 数据 就 要 产生 其 校 验 扇 区 ， 一 并 写 入 校 验 盘 。 尤 其 是 更 改 数据 的 时 候 ， 这 种 效应 的 影响 

RAID 5 写 的 基本 过 程 是 这 样 的 ， 新 数据 过 来 之 后 ， 控 制 器 立即 读 取 待 更 新 扇 区 的 原 数据 ， 
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同时 也 要 读 取 这 个 条 带 上 的 校 验 数据 。 三 者 按照 公式 运算 ， 便 可 得 出 新 数据 的 校 验 数据 ， 然 后 将 
新 数据 和 新 数据 的 校 验 数 据 写 到 磁盘 。 公 式 如 下 : 

新 数据 的 校 验 数据 = 〈 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 

鱼 和 能 掌 不 可 兼 得 ! 最 后 七 星 总 结 了 这 么 一 句 话 。 也 就 是 说 随机 并 发 IO 和 写 性 能 二 者 取 其 
一 。 但 是 有 些 文件 系统 巧妙 地 减少 了 这 种 写 惩罚 ， 使 得 RAID 4 的 缺点 被 成 功 削减 ， 从 而 将 其 优 
点 显现 了 出 来 ， 本 章 后 面 会 提 到 这 种 优化 操作 。 


思考 : RAID 5 一 次 写 的 动作 ， 其 实 要 浪费 掉 3 个 其 他 动作 ， 也 就 是 要 先 读 出 老 数据 ， 读 
出 老 校 验 数 据 ， 然 后 写 新 数据 和 校 验 数 据 ， 这 样 只 有 “ 写 新 数据 ”是 要 完成 的 目的 ， 而 捕 
带 了 三 个 额外 操作 。 纵 观 RAID 0 和 RAID 1 此 二 者 ，RAID 0 鲁莽, 写 就 是 写 , 不 带 任何 考 
虑 ， 所 以 速度 最 快 。RAID 1 自 保 ， 但 是 每 次 也 只 要 写 两 次 即 可 ， 只 是 额外 多 了 一 个 操作 。 
所 以 RAID 5 和 RAID 4 在 处 理 写 方面 是 失败 的 。 就 连 RAID 2 和 RAID 3 都 比 RAID 5 写 性 
能 强 ， 因 为 它们 的 条 带 深度 很 小 , 任何 一 次 正常 点 的 I0 几乎 会 覆 写 所 有 盘 , 均 会 将 这 整 
个 条 带 上 的 位 都 改变 .所 以 RAID 2 和 RAID 3 不 用 顾忌 条 带 上 是 否 还 有 未 被 更 新 的 数据 ， 
所 以 它 不 会 管 老 数据 如 何 ， 只 管 从 新 数据 计算 出 新 校 验 数 据 ， 然 后 同时 将 数据 位 和 校 验 
位 分 别 写 到 数据 盘 和 校 验 盘 ， 这 样 只 用 了 两 个 操作 ， 比 RAID 5 少 了 两 次 读 的 过 程 。 


RAID 5E 和 RAID 5EE 阵 式 


七 星 大 侠 推 出 RAID 5 之 后 ， 得 到 了 极为 广泛 的 应 用 ， 江 湖上 的 武林 人 士 都 在 修炼 ， 有 些 练 
成 的 大 侠 还 各 自 创办 了 数据 库 、 网 站 等 生意 , 得 益 于 RAID 5 的 随机 IO 并 发 特性 , 这 些 人 赚 了 一 
大 笔 ， 生 意 火 得 一 塌 糊 涂 。 然 而 ， 七 星 还 是 那个 要 饭 的 七 星 ， 剑 还 是 那 把 剑 ， 依 然 终日 以 钻研 为 
乐 ， 以 钻研 为 生 。 

话说 有 一 天 ， 有 个 侠客 专门 找到 了 七 星 大 侠 ， 侠 客 请 他 到 “纵横 斋 ” 者 酒 畅 饮 。 酒 过 三 巡 ， 
菜 过 五 味 ， 侠 客 进 入 了 正题 ， 向 七 星 叙 述 了 一 件 事情 。 他 说 他 已 经 炼 成 了 RAID 5 阵 式 ， 但 是 在 
使 用 的 时 候 总 是 心里 没 底 。 其 原因 就 是 一 旦 一 块 磁盘 损坏 ， 虽 然 此 时 不 影响 使 用 , 但 是 总 有 顾虑 ， 
不 敢 全 力 出 招 ， 就 怕 此 时 再 坏 一 块 磁盘 ， 整 个 阵 式 就 月 溃 了 。 

他 请 求 七 星 解决 这 个 问题 , 临 走 的 时 候 留 下 了 几 块 市 面 上 品质 最 好 的 硬盘 和 一 些 银子 供 七 星 
研究 使 用 。 七 星 很 是 感动 ， 几 十 年 来 从 来 没有 一 位 江湖 人 士 和 他 交流 切磋 过 ， 也 从 来 没有 一 个 人 
来 帮助 过 他 。 此 景 让 他 泪 流 满面 ， 感 动 得 不 知 说 什么 好 。 他 向 那 位 侠客 道 : “能 交 您 这 位 豪杰 人 
士 , 我 七 星 此 生 无 憾 ! ”随后 ， 七 星 又 开始 终日 研究 。 这 位 大 侠 就 是 几 十 年 后 谱写 降 龙 传说 的 张 
真人 。 


思考 : 咽 , 一 旦 一 块 磁盘 损坏 ,此 时 这 块 盘 上 的 数据 已 经 不 复 存 在 , 但 是 如 果 有 I0 请 求 
这 块 坏 盘 上 的 数据 ,那么 可 以 用 还 存在 的 数据 ， 校 验 出 这 块 损坏 的 数据 ， 传 送出 去 。 也 
就 是 说 ， 损 坏 的 数据 是 边 校 验 边 传送 ， 现 生成 现 传送 的 。 而 对 于 要 写 人 这 块 盘 的 ID0， 控 
制 器 会 经 过 计算 ,将 其 “ 重 定向 ”到 其 他 盘 。 所 谓 重 定向 并 不 是 完全 透明 地 写 人 其 他 盘 ， 
而 是 运用 XOR 进行 逆 运 算 , 将 写 人 的 数据 代入 算式 进行 道 运算 ， 得 到 的 结果 写 人 现存 的 
磁盘 上 。 


此 时 如 果 再 有 一 块 磁盘 损坏 ， 无 疑 阵 式 就 要 骨 溃 了 。 解 决 这 个 问题 的 直接 办 法 ， 就 是 找 
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一 块 备用 的 磁盘 。 一 旦 有 磁盘 损坏 ， 其 他 磁盘 立即 校 验 出 损坏 的 数据 ， 立 即 写 到 备用 磁 
盘 上 。 写 完 之 后 ， 阵 形 就 恢复 原样 了 ， 就 没有 顾虑 了 。 但 是 必须 保证 在 其 他 磁盘 齐 力 校 
验 恢复 数据 的 过 程 中 ， 不 可 再 有 第 二 块 磁盘 损坏 ， 不 然 便 会 玉石 俱 焚 ! 


想到 这 里 ， 七 星 开始 了 他 的 实验 ， 并 且 取 得 成 功 。 就 是 在 整个 阵 式 中 增加 一 块 热 备 盘 ， 平 时 
这 块 磁盘 并 不 参与 组 阵 ， 只 是 在 旁边 观战 ， 什 么 也 不 干 。 一 旦 阵 中 某 个 人 受伤 不 能 参战 了 ， 这 个 
热 备 盘 立 即 项 蔡 他 ， 其 他 人 再 把 功力 传授 给 他 。 传 授 完毕 后 ， 就 像 原来 的 阵 式样 了 。 如 果 在 大 
家 传授 功力 的 时 候 ， 有 IO 请 求 这 块 损坏 磁盘 上 的 数据 ,那么 大 家 就 暂停 传授 ， 先 应 付 外 来 的 政 
人 。 当 没有 来 针对 这 块 损坏 磁盘 的 挑 评 时 ， 大 家 会 继续 传授 。 

七 星 的 经 验 不 断 丰 富 , 他 知道 不 能 急躁 , 所 以 实验 成 功 之 后 , 七 星 并 没有 马上 通知 那 位 大 侠 ， 
而 是 继续 在 想 有 没有 可 以 改进 的 地 方 。 他 想 ， 热 备 盘 平时 不 参与 组 阵 ， 那 就 不 能 称 作 阵 式 的 一 部 
分 ， 而 是 被 排斥 在 外 。 这 块 磁盘 平时 也 没有 IO, 起 不 到 作用 ， 这 样 就 等 于 浪费 了 一 块 磁盘 。 那 么 
是 不 是 考虑 也 让 它 参 与 到 阵 形 中 来 呢 》 如 果 要 参与 进来 ， 那 让 它 担 任 什么 角色 呢 ? 热 备 角 色 ? 如 
果 没有 人 受伤 ， 这 个 角色 在 阵 中 只 会 是 个 票 痪 。 怎 么 办 好 呢 ? 七 星 忽然 掠 过 一 丝 想法 ， 是 否 可 以 
让 阵 中 各 个 角色 担 待 一 下 ， 从 各 自 的 领地 保留 出 一 块 空间 ， 用 作 热 备 盘 的 角色 呢 ? 

这 样 把 热 备 盘 分 布 在 各 个 磁盘 上 ， 就 不 会 形成 累 追 ， 并 且 同 时 解决 了 热 备 盘 和 大 家 不 协调 的 
问题 。 说 干 就 干 ， 七 星 给 那 位 大 侠 写 了 一 封 信 ， 信 中 称 这 种 阵 式 为 RAID 5E。 七 星 继续 琢磨 
RAID 5E， 让 阵 中 每 个 人 都 保留 一 块 领地 ， 而 不 横 制 ， 虽 然 可 以 做 到 数据 的 及 时 备份 ， 但 是 这 块 
领地 总 显得 不 伦 不 类 。 七 星 突然 想到 被 撕 碎 的 纸 片 冉 然 落下 的 情景 忽然 计 上 心头 ! 既然 校 验 盘 
都 可 以 横 分 坚 割 的 融合 到 数据 盘 ， 为 什么 热 备 盘 不 能 呢 ? 一 样 可 以 ! 七 星 想到 这 里 ， 于 是 又 给 那 
位 侠客 去 了 一 封 信 ， 信 中 描述 这 种 新 的 阵 式 为 RAID 5EE。 

那 位 侠客 给 七 星 回 了 一 封 信 : 


七 星 转 ， 北 斗 移 ， 
英雄 无 谓 千 万 里 。 
待 到 再 次 相 见 时 ， 
白 发 营 ， 氢 知已 ! 
七 星 看 后 老 泪 纵横 ， 颇 为 感动 。 相 见 恨 晚 啊 ， 到 了 晚年 才 遇 到 人 生 知 己 ! 


4.1.7 RAID 6 阵 式 


如 今 ,七 星 已 经 从 一 个 壮 小 伙 变 成 了 个 孤苦 伶 休 的 老头 -回首 过 去 ,从 RAID 0 一 直到 RAID 5 
(E、EE ) 创立 了 6 种 阵 式 ， 各 种 阵 式 各 有 所 长 。 他 最 得 意 的 恐怕 就 是 中 庸 派 的 中 庸 之 道 。 可 就 是 
这 个 中 庸 之 道 ， 却 还 有 一 个 一 直 也 未 能 解决 的 问题 ， 那 就 是 其 中 任何 一 种 阵 式 ， 都 最 多 同时 允许 
损坏 一 块 磁盘 ， 如 果 同 时 损坏 多 块 ， 整 个 阵 不 攻 自 破 ! 七 星 想到 这 里 就 一 阵 酸楚 。 已 经 是 白 发 苍 
苍 的 七 星 老 侠 ， 决 定 要 用 晚年 最 后 一 点 精力 来 攻破 这 个 难题 。 

七 星 老 侠 一 生 精 研 阵 式 ， 有 很 多 宝贵 的 经 验 。 他 这 次 采用 了 逆向 思维 ， 假 设 这 个 模型 已 经 做 
好 ， 然 后 从 首 向 分 析 它 是 怎么 作用 的 。 先 描绘 出 多 种 模型 ， 然 后 一 个 一 个 地 去 攻破 ， 找 出 最 适合 
的 模型 。 

七 星 描绘 了 这 么 一 个 模型 , 假设 有 5 块 盘 组 成 一 个 RAID 阵列 ，4 块 数据 盘 ， 一块 校 验 盘 ， 那 
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么 同一 时 刻 突然 4 块 数据 盘 中 的 两 块 损坏 作废 , 只 剩 下 两 块 数据 盘 和 一 块 校 验 盘 。 假设 有 某 种 算法 ， 
可 以 恢复 这 两 块 丢 失 磁盘 上 的 数据 ， 那 么 怎么 从 这 个 模型 推断 出 ， 这 个 算法 是 怎么 把 丢失 的 两 块 盘 
数据 都 恢复 出 来 的 呢 ? 七 星 冥 思 苦 想 。 七 星 在 幼年 学 习 方 程 的 时 候 ， 知 道 要 求解 一 个 未 知 数 ， 只 需 
知道 只 包含 这 一 个 未 知 数 的 一 个 等 式 即 可 逆向 求解 。 就 像 布尔 的 逻辑 算式 用 在 RAID 3 阵 式 时 候 一 
样 ， 各 个 数据 盘 上 的 数据 互相 XOR 之 后 就 等 于 校 验 盘 上 的 校 验 数据 ， 这 就 是 一 个 等 式 : 


D1 XOR D2 XOR D3 = Parity 


如 果 此 时 D1 未 知 ， 而 其 他 3 个 值 都 已 知 ， 那 么 就 可 以 逆向 解 出 未 知 数 ， 而 这 也 是 RAID 3 
进行 校 验 恢复 的 时 候 所 做 的 。 那 么 此 时 如 果 D1 和 D2 都 未 知 ， 也 就 是 1 号 盘 和 2 号 盘 都 损坏 了 ， 
还 能 解 出 这 两 个 值 么 ? 数学 告诉 七 星 ， 这 是 不 可 能 的 ， 除 非 除了 这 个 等 式 还 额外 存在 一 个 和 这 个 
等 式 不 相关 的 另 一 个 等 式 ! 

要 求解 两 个 未 知 数 ， 只 要 知道 关于 这 两 个 未 知 数 的 不 相关 的 两 个 关系 方程 即 可 。 比 如 有 等 式 
为 D1 ? D2 ? D3=*， 联 立 以 上 两 个 等 式 ， 即 可 求 出 D1 和 D2。 七 星 开始 寻觅 这 个 等 式 , 这 
个 等 式 是 已 经 存在 ? 还 是 需要 自己 去 发 明 呢 ? 七 星 一 开始 打算 从 布尔 等 式 找寻 出 第 二 个 等 式 的 蛛 
丝 马 迹 ， 但 是 后 来 他 根据 因果 率 知 道 如 果 从 布尔 等 式 推出 其 他 某 些 等 式 ， 那 么 推出 的 等 式 和 布尔 
等 式 就 是 相关 的 。 互 相 相 关 的 两 个 等 式 ， 在 数学 上 是 等 价 的 ， 无 法 作为 第 二 个 等 式 。 七 星 有 所 察 
觉 了 ， 他 认为 要 想 得 出 第 二 个 等 式 ， 必 须 由 自己 发 明 一 套 算法 ， 一 套 和 布尔 等 式 不 相关 的 算法 ! 
他 开始 在 纸 上 演 义 算法 ， 首 先 他 开始 从 算术 的 加 减 方程 开始 着 手 ， 他 写 出 了 一 个 可 以 求解 两 个 未 
知 数 的 二 元 方程 ; 


X+Y=10 


2x+3y=20 
这 算是 最 简单 的 算术 方程 了 。 可 以 求 得 x=10，y=0。 
以 上 是 对 于 算术 运算 的 方程 ,那么 布尔 逻辑 运算 是 否 也 可 以 有 方程 呢 ? 七 星 写 下 如 下 的 式 


x XORy=1 

Ax XOR Bx = 0 

第 一 个 方程 已 经 存在 了 ， 也 就 是 用 在 RAID 3 上 的 校 验 方程 。 第 二 个 方程 是 七 星 模仿 加 减 方 
程 来 写 的 ， 也 就 是 给 x 和 y 两 个 值 分 别 加 上 了 一 个 系数 ， 而 这 两 个 系数 不 能 是 从 第 一 个 等 式 推 得 
的 ， 比 如 是 将 第 一 个 等 式 未 知 数 的 系数 同 乘 或 同 除 以 某 个 数 得 出 来 的 ， 这 样 就 是 相关 等 式 了 。 七 
星 立 即 找 来 布尔 逻辑 运算 方面 的 书 深入 学 习 ， 终 于 得 到 了 印证 ， 这 种 方程 确实 存在 ! 七 星 激动 得 
跳 了 起 来 ! 他 立即 投入 到 研发 中 。 过 了 两 个 月 ， 终 于 得 出 了 结果 ! 大 获 成 功 ! 

七 星 对 一 份 数据 使 用 两 套 算法 各 自 算出 一 个 等 式 , 1 号 等 式 右边 的 结果 写 入 校 验 盘 1、2 号 等 
式 右边 的 值 写 入 校 验 盘 2。 这 样 ， 只 要 使 用 中 有 两 个 值 发 生 丢失 ， 就 可 以 通过 这 两 个 等 式 联 立 ， 
解 出 丢失 的 两 个 值 。 不 管 这 两 个 值 是 等 式 左边 的 还 是 等 式 右边 的 ， 只 要 代入 这 两 个 等 式 中 ， 就 可 
以 求 出 解 。 

数学 的 力量 是 伟大 的 ， 任 何 东西 只 要 通过 了 数学 的 验证 ， 就 是 永恒 的 ! 

同样 ， 七 星 将 用 在 RAID 5 中 的 方法 ， 用 在 了 新 创立 的 阵 式 中 ， 将 校 验 盘 分 布 到 数据 盘 中 ， 
不 同 的 是 新 阵 式 的 校 验 盘 有 两 块 ， 在 每 块 磁盘 上 放置 两 个 等 式 需 要 的 校 验 值 。 
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七 星 给 这 种 阵 式 取 名 为 RAID 6。 
RAID 6 相对 其 他 各 种 中 庸 派 的 阵 式 安全 多 了 ， 但 同时 它 的 写 性 能 更 差 了 ， 因 为 它 要 多 读 出 
一 个 校 验 数据 ， 而 且 计 算 后 还 要 写 入 一 次 ， 这 就 比 RAID 5 每 次 写 耗费 多 了 两 个 操作 ， 变 成 了 6 
次 操作 ， 所 谓 的 “ 写 惩罚 ”更 大 了 。 确 实 是 鱼 与 能 掌 不 能 兼 得 啊 ! 正 可 谓 : 
寻 寻 轴 轴 终 冷清 ， 
七 星 北斗 伴 我 行 。 
世间 万 物 皆 规律 ， 
求 得 心 法 谋 太 平 ! 
七 星 在 创立 了 RAID 6 阵 式 之 后 ,已 经 老 态 龙 钟 ， 疾 病 缠身 ， 所 剩 时 日 不 多 。 而 江湖 上 可 是 
一 派 热 闹 ， 修 炼 的 修炼 ， 修 炼 好 的 就 立 门派 ， 开 设 数 据 库 、 网 站 等 服务 来 大 赚钱 财 。 而 打 着 七 星 
大 侠 旗 号 到 处 招摇 撞 骗 的 人 也 不 在 少数 。 张 真人 路 见 不 平 拔 刀 相助 ， 他 召开 武林 大 会 ,表彰 了 七 
星 的 功绩 ， 指 出 真正 的 七 星 现 在 早已 归隐 ， 那 些 招摇 撞 骗 的 人 也 就 没有 容 身 之 地 了 。 他 还 提议 将 
七 星 所 创立 的 7 种 阵 式 命名 为 “七 星 北斗 阵 ”， 以 纪念 他 和 七 星之 间 的 北斗 豪情 ! 
张 真人 亲自 到 深山 去 探望 已 经 下 不 了 床 的 七 星 ， 并 将 武林 中 发 生 的 事情 告诉 了 他 。 此 后 没 几 
天 ,七 星 无 憾 地 离开 了 人 世 ， 化 作 了 北斗 七 星 ， 在 天 上 酒 下 无 限 的 光芒 照 炊 世 间 ! 张 真人 给 老人 
办 了 后 事 ， 并 将 七 星 过 世 的 消息 宣布 了 出 去 。 没 想到 第 二 天 , 七星、 星 七 、 北 斗 、 斗 北 、 七 星 北 
斗 、 北 斗 七 星 、 星 七 北斗 、 星 七 斗 北 等 商标 就 被 抢 注 了 ! 大 批 的 商人 在 发 着 横财 。 正 可 谓 ; 
七 星 赞 
七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北斗 。 
不 知 天 上 七 星 侠 ， 
如 今 过 活 要 饭 否 ? 


4.2 七 种 RAID 技术 详解 


下 面 从 纯 技术 角度 , 深入 剖析 目前 存在 的 七 种 RAID 模式 的 组 成 原理 和 结构 ， 并 分 析 各 种 级 
别 相对 于 单 盘 IO 速率 的 变化 。 

首先 澄清 一 点 ， 所 谓 Stipe 完全 是 由 程序 在 内 存 中 虚拟 出 来 的 ， 说 白 了 就 是 一 个 map 公式 。 
即 仿佛 是 给 程序 戴 了 一 个 特殊 的 眼镜 ， 程 序 戴 上 这 个 眼镜 ， 就 能 看 到 “条 ”和 “ 带 ”， 就 会 知道 
将 数据 分 布 到 条 带 上 了 。 一 旦 摘 下 这 个 眼镜 ， 那 么 看 到 的 就 是 普通 的 物理 磁盘 扇 区 。 这 个 眼镜 就 
是 实现 RAID 的 程序 代码 。 物 理 磁盘 上 根本 不 存在 什么 “条 ”和 “ 带 ”， 只 有 扇 区 。 另 外 ,程序 
会 在 磁盘 特定 的 一 些 扇 区 中 写 入 自己 运行 时 需要 的 信息 ， 比 如 一 些 RAID 标签 信息 等 。 
图 4-7 为 一 个 RAID 0 系统 的 示意 图 。 
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Extent 0 Extent 1 Extent 2 Extent 4 
Stripe 0 4 Strip (0,0) Strip (1,0) Strip (2,0) Strip (3.0) Strip (4,0) 
Data Block 0 Data Block 4 Data Block 8 Data Block 12 Data Block 16 
Depth Data Block 1 Data Block 5 Data Block 9 Data Block 13 Data Block 17 
Data Block 2 Data Block 6 Data Block 10 Data Block 14 Data Block 18 
站 Data Block 3 Data Block 7 Data Block 11 Data Block 15 Data Block 19 
Extent Stripe Length: | 
stripe1 人 Strip (0,1) Strip (1,1) Strip (2,1) Strip (3,1) Strip (4,1) 
Data Block 20 Data Block 24 Data Block 28 Data Block 32 Data Block 36 
Depth Data Block 21 Data Block 25 Data Block 29 Data Block 33 Data Block 37 
Data Block 22 Data Block 26 Data Block 30 Data Block 34 Data Block 38 
y Data Block 23 Daa Block 27 Data Block 31 Data Block 35 Da Block 39 
Stipe 2 企 Strip (0,2) Strip (1,2) Strip (2,2) Strip (3,2) Strip (4,2) 
Data Block 40 Data Block 44 Data Block 48 Data Block 52 Data Block 56 
Depth Data Block 41 Data Block 45 Data Block 49 Data Block 53 Data Block 57 
Data Block 42 Data Block 46 Data Block 50 Data Block 54 Data Block 58 
Data Block 43 Da Block 47 Data Block 51 Data Block 55 Da Block 59 
. 
. 
. 
a 


图 4-7 一 个 典型 的 RAID 0 系统 
1. 扇 区 、 块 、 段 ( Segment ) 、 条 带 、 条 带 长 度 和 深度 


图 4-7 中 的 5 个 竖 条 ,分 别 代表 5 个 磁盘 。 然 后 在 磁盘 相同 偏 移 处 横向 逻辑 分 制 ,形成 Stripee。 
一 个 Stripee 横 跨 过 的 扇 区 或 块 的 个 数 或 字 节 容量 ,就 是 条 带 长 度 , 即 Stripee Length。 而 一 个 Stripee 
所 占用 的 单 块 磁盘 上 的 区 域 , 称 为 一 个 Segment。 一 个 Segment 中 所 包含 的 data Block 或 者 扇 区 的 
个 数 或 者 字 节 容量 ， 称 为 Stipee Depth。Data Block 可 以 是 N 倍 个 扇 区 大 小 的 容量 ， 应 该 可 调 ， 
或 者 不 可 调 ， 由 控制 器 而 定 。 

RAID 0 便 是 将 一 系列 连续 编号 的 Data Block 分 布 到 多 个 物理 磁盘 上 , 扩散 IO 提高 性 能 其 
分 布 的 方式 如 图 4-7 所 示 。 这 个 例子 中 ， 条 带 深 度 为 4,， 则 0、1、2、3 号 Data Block 被 放置 到 第 
一 个 条 带 的 第 一 个 Segment 中 , 然后 4、5、6、7 号 Block 放置 到 第 一 个 条 带 的 第 二 个 Segment 中 ， 
依 此 类 推 ， 条 带 1 放 满 后 ， 继 续 放 条 带 2。 这 种 特性 称 为 “局 部 连续 ”， 因 为 Block 只 有 在 一 个 
Segment 中 是 物理 连续 的 ， 逻 辑 连续 就 需要 跨 物 理 磁盘 了 。 


2. 关于 几 个 与 IO 相关 的 重要 概念 


IO 可 以 分 为 读 / 写 IO、 大 /小 块 IO、 连 续 / 随 机 IO、 顺 序 /并 发 IO、 稳 定 / 突 发 IO、 持 续 / 
间断 IO 和 实 / 虚 IO。 下 面 来 分 别 介绍 这 几 种 IO。 

(1) 读 / 写 10 

这 个 就 不 用 多 说 了 ， 读 IO 就 是 发 指令 从 磁盘 读 取 某 段 序号 连续 的 扇 区 的 内 容 。 指 令 一 般 是 
通知 磁盘 开始 扇 区 位 置 ， 然 后 给 出 需要 从 这 个 初始 扇 区 往 后 读 取 的 连续 扇 区 个 数 ， 同 时 给 出 动作 
是 读 还 是 写 。 磁 盘 收 到 这 条 指令 就 会 按照 指令 的 要 求 读 或 者 写 数据 。 控 制 器 发 出 这 种 指令 加 数据 
并 得 到 对 方 回执 的 过 程 就 是 一 次 IO 读 或 IO 写 。 
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注意 : 一 个 I0 所 要 提取 的 扇 区 段 一 定 是 连续 的 ， 如 果 想 提取 或 写 人 两 段 不 连续 的 鹿 区 

段 ， 只 能 将 它们 放 和 两 个 10 中 分 别 执行 , 这 也 就 是 为 何 随机 IO 对 设备 的 IOPS 指标 要 求 

较 高 的 原因 。 

(2) 大 /小 块 10 

指控 制 器 的 指令 中 给 出 的 连续 读 取 扇 区 数目 的 多 少 。 如 果 数 目 很 大 ， 如 128、64 等 ， 就 应 该 算 
是 大 块 IO; 如 果 很 小 ， 比 如 1、4、8 等 ， 就 应 该 算是 小 块 IO。 大 块 和 小 块 之 间 没 有 明确 的 界限 。 

(3) 连续 /随机 10 

连续 和 随机 是 指 本 次 IO 给 出 的 初始 扇 区 地 址 和 上 一 次 IO 的 结束 扇 区 地 址 是 不 是 完全 连续 的 
或 者 相隔 不 多 的 。 如 果 是 ， 则 本 次 IO 应 该 算是 一 个 连续 IO; 如 果 相 差 太 大 ， 则 算 一 次 随机 IO。 
连续 IO 因为 本 次 初始 扇 区 和 上 次 结束 扇 区 相隔 很 近 ， 则 磁头 几乎 不 用 换 道 或 换 道 时 间 极 短 。 如 
果 相 差 太 大 ， 则 磁头 需要 很 长 的 换 道 时 间 。 如 果 随 机 IO 很 多 ， 会 导致 磁头 不 停 换 道 ， 效 率 大 大 
降低 。 

(4) 顺序 /并 发 10 

意思 是 ， 磁 盘 控 制 器 如 果 可 以 同时 对 一 个 RAID 系统 中 的 多 块 磁盘 同时 发 送 IO 指令 ( 当然 
这 里 的 同时 是 宏观 的 概念 ， 如 果 所 有 磁盘 都 在 一 个 总 线 或 者 环 路 上 ， 则 这 里 的 同时 就 是 指向 一 块 
磁盘 发 送 一 条 指令 后 不 必 等 待 它 回应 ， 接 着 向 另 一 块 磁盘 发 送 IO 指令 ) ， 并 且 这 些 最 底层 的 IO 
数据 包含 了 文件 系统 级 下 发 的 多 个 IO 的 数据 ， 则 为 并 发 IO。 如 果 这 些 直接 发 向 磁盘 的 IO 只 包 
含 了 文件 系统 下 发 的 一 个 IO 的 数据 ， 则 此 时 为 顺序 IO， 即 控制 器 缓存 中 的 文件 系统 下 发 的 IO 
队列 ， 只 能 一 个 一 个 来 。 并 发 IO 模式 在 特定 的 条 件 下 可 以 很 大 程度 地 提高 效率 和 速度 。 

(5) 持续 /间断 10 

持续 不 断 地 发 送 或 者 接受 IO 请 求 数据 流 ， 这 种 情况 为 持续 IO; IO 数据 流 时 断 时 续 则 为 间 
断 IO。 

(6) 稳定 / 突 发 10 

某 存储 设备 或 者 某 程序 在 一 段 时 间 内 接收 或 者 发 送 的 IOPS 以 及 Throughput ( 吞吐 量 ) 保持 相 
对 稳定 和 恒定 ， 则 称 为 稳定 IO; 如 果 单 位 时 间 的 IOPS 或 者 Throughput 突然 猛 增 ， 则 为 突 发 IO。 

(7) 实 / 虚 10 

某 IO 请 求 中 包含 对 应 实际 数据 地 址 的 ， 比 如 磁盘 LBA 地 址 , 或 者 文件 偏 移 量 ， 请 求 读 或 者 
写实 际 文件 或 者 磁盘 扇 区 数据 的 , 称 为 实 IO; 而 应 用 程序 针对 文件 元 数据 操作 的 (在 文件 系统 层 
以 上 没有 文件 主体 数据 操作 ) , 或 者 针对 磁盘 发 送 的 非 实体 数据 IO 请 求 , 比如 Report LUN 、SCSI 
Sense Request 等 控制 性 IO ， 称 为 虚 IO。 

(8) 10 并 发 几率 

单 盘 ，IO 并 发 几率 为 0， 因为 一 块 磁盘 同时 只 可 以 进行 一 次 IO。 对 于 RAID 0, 在 2 块 盘 情 
襄 下 ， 条 带 深度 比较 大 的 时 候 ( 条 带 太 小 不 能 并 发 IO ) ， 并 发 两 个 IO 的 几率 为 1/2。 其 他 情况 
请 自行 运算 。 

(9) 10PS 

完成 一 次 IO 所 用 的 时 间 = 寻 道 时 间 + 旋 转 延 迟 时 间 + 数 据 传输 时 间 , IOPS=IO 并 发 系数 /( 寻 
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道 时 间 + 旋 转 延迟 时 间 + 数 据 传输 时 间 ) 。 由 于 寻 道 时 间 相对 于 传输 时 间 要 大 几 个 数量 级 ,所 以 影 
响 IOPS 的 关键 因素 就 是 降低 寻 道 时 间 。 在 连续 IO 的 情况 下 , 寻 道 时 间 很 短 , 仅 在 换 磁道 时 候 需 


要 寻 道 。 在 这 个 前 提 下 ， 传 输 时 间 越 少 ，IOPS 就 越 高 。 
(10) 每 秒 10 吞吐 量 


显然 , 每 秒 IO 吞吐 量 =IOPS x 平均 IO SIZE。IO SIZE 越 大 ,IOPS 越 高 , 每 秒 IO 吞吐 量 就 
越 高 。 设 磁头 每 秒 读 写 数据 速度 为 V，V 为 定 值 。 则 IOPS=IO 并 发 系数 / ( 寻 道 时 间 + 旋 转 延 迟 
时 间 +IO SIZE/V ) 。 代 入 得 每 秒 IO 吞吐 量 =IO 并 发 系数 xIO SIZE x V/ (Vx 寻 道 时 间 +Vx 旋 
转 延 迟 时 间 +IO SIZE ) 。 可 以 看 出 影响 每 秒 IO 吞吐 量 的 最 大 因素 就 是 IO SIZE 和 寻 道 时 间 以 及 
旋转 延迟 时 间 。IO SIZE 越 大 , 寻 道 时 间 越 小 , 吞吐 量 越 高 。 相 比 能 显著 影响 IOPS 的 因素 只 有 一 


个 ， 就 是 寻 道 时 间 。 
4.2.1 ”RAID 0 技术 详 析 


RAID 0 是 这 样 一 种 模式 : 我 们 拿 5 块 盘 的 RAID 0 为 例子 ， 
如 图 4-7 所 示 。 

对 外 来 说 ， 参 与 形成 RAID 0 的 各 个 物理 盘 会 组 成 一 个 逻辑 
上 连续 、 物 理 上 也 连续 的 虚拟 磁盘 。 一 级 磁盘 控制 器 ( 指使 用 这 
个 虚拟 磁盘 的 控制 器 ， 如 果 某 台 主机 使 用 适 配 卡 链接 外 部 盘 阵 ， 
则 指 的 就 是 主机 上 的 磁盘 控制 器 ) 对 这 个 虚拟 磁盘 发 出 的 指令 ， 
都 被 RAID 控制 器 收 到 并 分 析 处 理 ， 根 据 Block 映射 关系 算法 公 
式 转换 成 对 组 成 RAID 0 的 各 个 物理 盘 的 真实 物理 磁盘 IO 请 求 
指令 ， 收 集 或 写 入 数据 之 后 ， 再 提交 给 主机 磁盘 控制 器 。 
图 4-8 为 一 个 RAID 0 虚拟 磁盘 的 示意 图 。 
RAID 0 还 有 另 一 种 非 条 带 化 模式 ， 即 写 满 其 中 一 块 物 理 磁 
盘 之 后 ， 再 接着 写 另 一 块 ， 直 到 所 有 组 成 的 磁盘 全 部 写 满 。 这 种 
模式 对 IO 写 没有 任何 优化 ， 但 是 对 IO 读 能 提高 一 定 的 并 发 IO 
读 几率 。 

下 面 我 们 来 具体 分 析 一 个 从 上 到 下 访问 RAID 0 磁盘 的 过 


程 。 


假如 某 一 时 刻 , 主机 控制 器 发 出 指令 : 读 取 初始 扇 区 10000 
长 度 128。 

RAID 控制 器 接受 到 这 个 指令 之 后 ， 立 即 进行 计算 ， 根 据 对 
应 公式 ( 这 个 公式 是 RAID 控制 器 在 做 逻辑 条 带 化 的 时 候 制定 的 ) 
算出 10000 号 逻辑 扇 区 所 对 应 的 物理 磁盘 的 扇 区 号 。 

依次 计算 出 逻辑 上 连续 的 下 128 个 扇 区 所 在 物理 磁盘 的 扇 区 
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写 o 
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图 4-8 虚拟 磁盘 


分 别 向 对 应 这 些 扇 区 的 磁盘 再 次 发 出 指令 。 这 次 是 真实 的 读 取 数 据 了 ， 磁 盘 接受 到 指令 ， 各 


自 将 数据 提交 给 RAID 控制 器 ， 经 过 控制 器 在 Cache 中 的 组 合 ， 再 提交 给 主机 控制 器 。 
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分 析 以 上 过 程 ， 发 现 如 果 这 128 个 扇 区 都 落 在 同一 个 Segment 中 的 话 ， 也 就 是 说 条 带 深度 容 
量 大 于 128 个 扇 区 的 容量 ( 64KB ) ， 则 这 次 IO 就 只 能 真实 地 从 这 一 块 物理 盘 上 读 取 ， 性 能 和 单 
盘 相 比 会 减 慢 ， 因 为 没有 任何 优化 ,反而 还 增加 了 RAID 控制 器 额外 的 计算 开销 。 所 以 ,在 某 种 
竺 定 条 件 下 要 提升 性 能 ， 让 一 个 IO 尽量 扩散 到 多 块 物理 盘 上 ， 就 要 减 小 条 带 深度 。 在 磁盘 数量 
不 变 的 条 件 下 ,也 就 是 减 小 条 带 大 小 ( Stipe SIZE， 也 就 是 条 带 长 度 ) 。 让 这 个 IO 的 数据 被 控制 
器 分 割 ， 同 时 放 满 一 个 条 带 的 第 一 个 Segment、 第 二 个 Segment 等 ， 依 此 类 推 ， 这 样 就 能 极 大 地 
占用 多 块 物理 盘 。 

误区 : 总 是 以 为 控制 器 是 先 放 满 第 一 个 Segment， 再 放 满 第 二 个 Segment 

其 实 是 同时 进行 的 ， 因 为 控制 器 把 每 块 盘 要 写 入 或 者 读 取 的 数据 都 计算 好 了 。 如 果 这 些 目标 
磁盘 不 在 相同 的 总 线 中 ， 那 么 这 种 宏观 “同时 ”的 粒度 将 会 更 加 细 。 因 为 毕竟 计算 机 总 线 是 共享 
的 ， 一 个 时 刻 只 能 对 一 个 外 设 进行 IO。 

所 以 ， RAID 0 要 提升 性 能 ， 条 带 做 的 越 小 越 好 。 但 是 又 一 个 矛盾 出 现 了 ， 就 是 条 带 太 小 ， 
导致 并 发 IO 几率 降低 。 因 为 如 果 条 带 太 小 ， 则 每 次 IO 一 定 会 占用 大 部 分 物理 盘 ， 队 列 中 的 IO 
就 只 能 等 待 这 次 IO 结束 后 才能 使 用 物理 盘 。 而 条 带 太 大 ， 又 不 能 充分 提高 传输 速度 。 这 两 个 是 
一 对 矛盾 ， 要 根据 需求 来 采用 不 同 的 方式 。 如 果 随 机 小 块 IO 多 ， 则 适当 加 大 条 带 深度 ; 如 果 连 
续 大 块 IO 多 ， 则 适当 减 小 条 带 深度 。 

接着 分 析 RAID 0 相对 于 单 盘 的 性 能 变化 。 根 据 以 上 总 结 出 来 的 公式 ， 可 以 推出 表 4-1。 


表 4-1 RAID 0 系统 相对 于 单 盘 的 10 对比 


读 
#10 Mo 
随机 IO 连续 IO | 随机 IO | 连续 IO 


1 , 提升 了 | 提升 了 
SIZE/Stripe | 不 支持 不 支持 “| 提升 极 | jyx 系 不 支持 ”| 不 支持 升 极 | Nrx 系 
SIZE 较 大 数 倍 数 倍 


IO 提升 了 
SIZE/Stripe | (1+ 并 发 
SIZE 较 小 ”| 系数 ) 倍 


RAIDO 
IOPS 


提升 极 | 提升 了 
小 系数 倍 


注 : 并 发 IO 和 IO SIZE/Stripe SIZE 是 一 对 矛盾 ， 两 者 总 是 对 立 的 。N= 组 成 RAID 0 的 磁盘 数目 。 系 数 =IO SIZE/Stripe SIZE 
和 初始 LBA 地 址 所 处 的 Stripe 偏 移 综合 系数 ， 大 于 等 于 1。 并 发 系数 = 并 发 IO 的 数量 。 


4.2.2 RAID 1 技术 详 析 
RAID 1 是 这 样 一 种 模式 : 拿 两 块 盘 的 例子 来 进行 说 明 ， 如 图 4-9 所 示 。 
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CC 0 


Extent 0 Extent 1 Virtual Disk 
Data Block 0 Data Block 0 Data Block 0 
Data Block 1 | Data Block 1 Data Block 1 
Data Block 2 Data Block 2 Data Block 2 
Data Block 3 | Data Block 3 Data Block 3 
Data Block 4 Data Block 4 Data Block 4 
Data Block 5 Data Block 5 Data Block 5 
Data Block 6 | Data Block 6 Data Block 6 
Data Block 7 Data Block 7 Data Block 7 
Data Block 8 Data Block 8 Data Block 8 
Data Block 9 Data Block 9 Data Block 9 
Data Block 10 | Data Block 10 Data Block 10 
Data Block 11 Data Block 11 Data Block 11 
Data Block 12 | Data Block 12 Data Block 12 
Data Block 13 | Data Block 13 Data Block 13 
Data Block 14 | Data Block 14 Data Block 14 
Data Block 15 Data Block 15 Data Block 15 
. 
. 
. 
i 
图 4-9 RAID 1 系统 示意 图 
RAID 1 和 RAID 0 不 同 ，RAID 0 对 数据 没有 任何 保护 措施 ， 每 个 Block 都 没有 备份 或 者 校 
验 保护 措施 。RAID 1 对 虚拟 逻辑 盘 上 的 每 个 物理 Block， 都 在 物理 盘 上 有 一 份 镜像 备份 ， 也 就 是 


说 数据 有 两 份 。 对 于 RAID 1 的 写 IO ， 速 度 不 但 没有 提升 ， 而 且 有 所 下 降 ， 因 为 数据 要 同时 向 多 
块 物理 盘 写 , 时 间 以 最 慢 的 那个 为 准 ， 因 为 是 同步 的 。 而 对 于 RAID 1 的 读 IO 请 求 , 不 但 可 以 并 
发 ,而 且 就 算 顺 序 IO 的 时 候 , 控制 器 也 可 以 像 RAID 0 一 样 , 从 两 块 物 理 盘 上 同时 读数 据 , 提升 
速度 。RAID 1 可 以 没有 Stripe 的 概念 ， 当 然 也 可 以 有 ， 同 样 可 总 结 出 表 4-2。 


表 4-2 RAID 1 系统 相对 于 单 盘 的 10 对 比 


并 发 IO 


日 事务 性 IO 
与 单 盘 | 提升 V 倍 | 提升 N 售 | 提升 。 | 提升 了 可 覆 ， 
6 | 或 者 # 发 | 或 雪人 | 7 持 | sy 
系数 倍 。 | 系数 倍 “| 极 小 由 SE 


注 : NE 组 成 RAID 1 镜像 物理 盘 的 数目 。 

在 读 、 并 发 IO 的 模式 下 ， 由 于 可 以 并 发 N 个 IO, 每 个 IO 占用 一 个 物理 盘 ， 这 就 相当 于 提 
升 了 N 倍 的 IOPS。 由 于 每 个 IO 只 独占 了 一 个 物理 盘 ,所 以 数据 传输 速度 相对 于 单 盘 并 没有 改变 ， 
所 以 不 管 是 随机 还 是 顺序 IO ， 相 对 单 盘 都 不 变 。 

在 读 、 顺序 ID、 随机 IO 模式 下 ， 由 于 IO 不 能 并 发 ， 所 以 此 时 一 个 IO 可 以 同时 读 取 N 个 
盘 上 的 内 容 。 但 是 在 随机 IO 模式 下 ， 寻 道 时 间 影 响 很 大 ， 纵 使 同时 分 块 读 取 多 个 磁盘 的 内 容 ， 
也 架 不 住 寻 道 时 间 的 抵消 ， 所 以 性 能 提升 极 小 。 

在 读 、 顺 序 IO、 连 续 IO 模式 下 ， 寻 道 时 间 影 响 最 低 ， 此 时 传输 速率 为 主要 矛盾 ， 同 时 读 
多 块 磁盘 的 数据 ， 时 间 减 少 为 VHN， 所 以 性 能 提升 了 N 倍 。 
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写 IO 的 时 候 和 读 IO 情况 相同 , 就 不 做 分 析 了 。 写 IO 因为 要 同时 向 每 块 磁盘 写 入 备份 数据 ， 
所 以 不 能 并 发 IO, 也 不 能 分 块 并 行 。 但 是 如 果 控制 器 把 优化 算法 做 到 极致 的 话 , 还 是 可 以 并 发 IO 
的 ， 比 如 控制 器 从 IO 队列 中 提取 连续 的 多 个 IO， 可 以 将 这 些 IO 合并 ， 并 发 写 入 磁盘 ， 前 提 是 
这 几 个 IO 必须 是 事务 性 的 , 也 就 是 说 LBA 必须 连续 , 不 然 不 能 作为 一 个 大 的 合并 IO。 而 且 和 文 
件 系统 也 有 关系 ， 文 件 系统 碎片 越 少 ， 并 发 几率 越 高 。 


4.2.3 ”RAID 2 技术 详 析 


RAID 2 是 一 种 比较 特殊 的 RAID 模式 ， 它 是 一 种 专用 RAID， 现 在 早已 被 淘汰 。 它 的 基本 
思想 是 在 IO 到 来 之 后 , 控制 器 将 数据 按照 位 分 散 开 , 顺序 在 每 块 磁盘 中 存 取 1b。 这 里 有 个 疑问 ， 
磁盘 的 最 小 IO 单位 是 扇 区 ， 有 512B， 如 何 写 入 1b? 其 实 这 个 写 入 1b， 并 非 只 写 入 1b。 我们 知 
道上 层 IO 可 以 先 经 过 文件 系统 ， 然 后 才 通过 磁盘 控制 器 驱动 来 向 磁盘 发 出 IO。 最 终 的 IO 大 小 ， 
都 是 N 倍 的 扇 区 ， 也 就 是 Nx 512B，N 大 于 等 于 1， 不 可 能 发 生 N 小 于 1 的 情况 。 即 使 需要 的 
数据 只 有 几 个 字 节 ， 那 么 也 同样 要 读 出 或 写 入 整个 扇 区 ， 也 就 是 512B。 

明白 这 个 原则 之 后 ， 再 来 看 一 下 RAID 2 中 所 谓 的 “每 个 磁盘 写 lb” 是 个 什么 概念 。IO 最 
小 单位 为 肩 区 ( 512B ) ， 我 们 就 拿 一 个 4 块 数据 盘 和 3 块 校 验 盘 的 RAID 2 系统 为 例 给 大 家 说 明 
一 下 。 这 个 环境 中 ，RAID 2 的 一 个 条 带 大 小 是 4b (1b x 4 块 数 据 盘 ) ， 而 IO 最 小 单位 是 一 个 
扇 区 ， 那 么 如 果 分 别 向 每 块 盘 写 1b， 就 需要 分 别 向 每 块 盘 写 一 个 扇 区 ， 每 个 扇 区 只 包含 lb 有 效 
数据 ， 这 显然 是 不 可 能 的 ， 因 为 太 浪费 空间 ， 且 没有 意义 。 

下 面 以 IO 请 求 为 例 来 说 明 。 

写 入 “初始 扇 区 10000 长 度 1”, 这 个 IO 目的 是 要 向 LBA10000 写 入 一 个 扇 区 的 数据 ， 也 就 
是 512B。 

RAID 2 控制 器 接受 到 这 512B 的 数据 后 , 在 Cache 中 计算 需要 写 入 的 物理 磁盘 的 信息 , 比如 
定位 到 物理 扇 区 ， 分 割 数据 成 比特 。 

然后 一 次 性 写 入 物理 磁盘 扇 区 。 也 就 是 说 第 一 块 物理 盘 ， 控 制 器 会 写 入 本 次 IO 数据 的 第 1、 
5、9、13、17、21 等 位 ， 第 二 块 物理 盘 会 写 入 2、6、10、14、18、22 等 位 ， 其 他 两 块 物理 盘 同 
样 方式 写 入 。 

直到 这 样 将 数据 写 完 。 我 们 可 以 计算 出 来 ， 这 512B 的 数据 写 完 之 后 ， 此 时 每 块 物理 盘 只 包 
含 128B 的 数据 ， 也 就 是 一 个 扇 区 的 四 分 之 一 ， 那 么 这 个 扇 区 剩余 的 部 分 ， 就 是 空 的 。 

为 了 利用 起 这 部 分 空间 ， 等 下 次 IO 到 来 之 后 ， 控 制 器 会 对 数据 进行 比特 分 割 ， 将 数据 填 入 
这 些 空白 区 域 。 控 制 器 将 首先 读 出 原来 的 数据 ， 然 后 和 新 数据 合并 之 后 ， 一 并 再 写 回 这 个 扇 区 ， 
这 样 做 效率 和 速度 都 大 打折 扣 。 其 实 RAID 2 就 是 将 原本 连续 的 一 个 扇 区 的 数据 ， 以 位 为 单位 ， 
分 割 存 放 到 不 连续 的 多 块 物 理 盘 上 ， 因 为 这 样 可 以 在 任意 条 件 下 都 迫使 其 全 磁盘 组 并 行 读 写 ， 提 
高 性 能 ， 也 就 是 说 条 带 深度 为 1 位 。 这 种 极端 看 上 去 有 点 做 得 过 火 了 ， 这 也 是 导致 它 最 终 被 淘汰 
的 原因 之 一 。 

RAID 2 系统 中 每 个 物理 磁盘 扇 区 其 实 是 包含 了 N 个 扇 区 的 “ 残 体 ”。 

思考 : 那么 如 果 出 现 需要 更 新 这 4 个 扇 区 中 某 一 个 扇 区 的 情况 ， 怎 么 办 ? 


这 种 情况 下 ， 必 须 先 读 出 原来 的 数据 ， 和 新 数据 合并 ， 然 后 再 一 并 写 入 。 其 实 这 种 情况 出 现 
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的 非常 少 。 我 们 知道 上 层 IO 的 产生 , 一 般 是 需要 先 经 过 OS 的 文件 系统 , 然后 才 到 磁盘 控制 器 这 
一 层 的 。 所 以 磁盘 控制 器 产生 的 IO 一 般 都 是 事务 性 的 , 也 就 是 这 个 IO 中 的 所 有 扇 区 很 大 几率 上 
对 于 上 层 文 件 系统 来 说 是 一 个 完整 的 事务 ， 所 以 很 少 会 发 生 只 针对 这 个 事务 中 某 一 个 点 进行 读 写 
的 情况 。 

这 样 的 话 ， 每 次 IO 就 有 很 大 几率 都 会 包含 入 这 些 逻 辑 上 连续 的 扁 区 ， 所 以 不 必 担 心经 常会 
发 生 那 种 情况 。 即 便 发 生 了 ， 控 制 器 也 只 能 按照 那 种 低 效率 的 做 法 来 做 ， 不 过 总 体 影响 较 小 。 但 
是 如 果 随 机 IO 比较 多 ,那么 这 些 IO 初始 LBA, 很 有 可 能 就 会 命中 在 一 个 两 个 事务 交接 的 扇 区 处 。 
这 种 情况 就 会 导致 速度 和 效率 大 大 降低 。 连 续 IO 出 现 这 种 情况 的 几率 非常 小 了 。 

RAID 2 因为 每 次 读 写 都 需要 全 组 磁盘 联动 ， 所 以 为 了 最 大 化 其 性 能 ， 最 好 保证 每 块 磁盘 主 
轴 同 步 ， 使 同一 时 刻 每 块 磁盘 磁头 所 处 的 扇 区 逻辑 编号 都 一 致 ， 并 存 并 取 ， 达 到 最 佳 性 能 。 如 果 
不 能 同步 ， 则 会 产生 等 待 ， 影 响 速 度 。 

基于 RAID 2 并 存 并 取 的 特点 ，RAID 2 不 能 实现 并 发 IO， 因 为 每 次 IO 都 占用 了 每 块 物理 
磁盘 。 

RAID 2 的 校 验 盘 对 系统 不 产生 瓶 贷 ， 但 是 会 产生 延迟 ， 因 为 多 了 计算 校 验 的 动作 。 校 验 位 
和 数据 位 是 一 同 并 行 写 入 或 者 读 取 的 。RAID 2 采用 汉 明 码 来 校 验 数 据 ， 这 种 码 可 以 判断 修复 一 
位 错误 的 数据 ， 并 且 使 用 校 验 盘 的 数量 太 多 ，4 块 数据 盘 需 要 3 块 校 验 盘 。 但 是 随 着 数据 盘 数量 
的 增多 ， 校 验 盘 所 占 的 比例 会 显著 减 小 。 

RAID 2 和 RAID 0 有些 不 同 ， RAID 0 不 能 保证 每 次 IO 都 是 多 磁盘 并 行 ， 因 为 RAID 0 的 
条 带 深度 相对 于 RAID 2 以 位 为 单位 来 说 是 太 大 了 。 而 RAID 2 由 于 每 次 IO 都 保证 是 多 磁盘 并 行 ， 
所 以 其 数据 传输 率 是 单 盘 的 N 倍 。 为 了 最 好 地 利用 这 个 特性 , 就 需要 将 这 个 特性 的 主导 地 位 体现 
出 来 。 
而 根据 IOPS=IO 并 发 系数 / ( 寻 道 时 间 + 旋转 延迟 时 间 + 数 据 传输 时 间 ) , 寻 道 时 间 比 数据 传 
输 时 间 要 大 几 个 数量 级 。 所 以 为 了 体现 数据 传输 时 间 减 少 这 个 优点 , 就 必须 避免 寻 道 时间 的 影响 ， 
而 最 佳 做 法 就 是 尽量 产生 连续 IO 而 不 是 随机 IO。 所 以 ，RAID 2 最 适合 连续 IO 的 情况 。 另 外 ， 
根据 每 秒 IO 吞吐 量 =IO 并 发 系数 xIO SIZExV/(Vx 寻 道 时 间 xVx 旋 转 延迟 时 间 +IO SIZE ) ， 
如 果 将 IO SIZE 也 增 大 ， 则 每 秒 IO 吞吐 量 也 将 显著 提高 。 所 以 , RAID 2 最 适合 的 应 用 就 是 产生 
连续 IO、 大 块 IO 的 情况 。 不 言 而 喻 ， 视 频 流 服务 等 应 用 适合 RAID 2。 不 过 ，RAID 2 的 缺点 太 
多 ， 比 如 校 验 盘 数 量 多 、 算 法 复杂 等 ， 它 逐渐 被 RAID 3 符 代 了 。 表 4-3 比较 了 RAID 2 系统 与 
单 盘 的 性 能 。 


表 4-3 RAID 2 系统 相对 于 单 盘 的 10 对 比 


读 
顺序 IO 


写 
顺序 IO 


RAID 2 


IOPS 


IO 满足 公式 条 
件 


注 : 和 数据 盘 数 量 。RAID 2 不 能 并 发 IO。 
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4.2.4 ”RAID 3 技术 详 析 
图 4-10 所 示 为 一 个 RAID 3 系统 的 条 带 布局 图 。 


CC 下 -本 作 - 


Extent0 Extent 1 Extent 2 Extent 3 Extent 4 
Stripe 0 Strip (0,0) Strip (1,0) Strip (2,0) Strip (3,0) Strip (40) 
Parity (00.0) bock-porton(0,1.0) block_portion(1,2.0) [boc porton@.3.0) blcck_portion(3,4.0) 
Stripe 1 Strip (0,1) Strip (1,1) Strip (2,1) Strip (3,1) Strip (4,1) 
Parity (0,0,1) block_portion(0.1.1) block_portion(1.2,1) [block_porton(2,3,1) block_portion(3,4,1) 
Stripe 2 Strip (0,2) Strip (1,2) Strip (2,2) Strip (3,2) Strip (42) 
Parity (0,0,2) block_portion(0,1,2] block_portion(1,2,2) block_porton(2,3,2) block_portion[3,4,2) 
. . 
. ba 
A A 


图 4-10 RAID 3 系统 示意 图 

RAID 2 缺点 比较 多 ， 比 如 非 事 务 性 IO 对 它 的 影响 、 校 验 盘 数量 太 多 等 。RAID 2 的 劣势 就 
在 于 它 将 数据 以 比特 为 单位 进行 分 制 , 将 原本 物理 连续 的 扇 区 转变 成 物理 不 连续 , 而 逻辑 连续 的 。 
这 样 就 导致 了 它 对 非 事务 性 IO 的 效率 低下 。 为 了 从 根本 上 解决 这 个 问题 RAID 3 出 现 了 。 

既然 要 从 根本 上 解决 这 个 问题 ,首先 就 是 需要 抛弃 RAID 2 对 扇 区 进行 分 散 的 做 法 , RAID 3 
保留 了 扇 区 的 物理 连续 。RAID 2 将 数据 以 比特 为 单位 分 割 , 这 样 是 为 了 保证 每 次 IO 占用 全 部 磁 
盘 的 并 行 性 。 而 RAID 3 同样 也 保留 了 这 个 特点 ， 但 是 没有 以 比特 为 单位 来 分 散 数据 ， 而 是 以 一 
个 扇 区 或 者 几 个 扇 区 为 单位 来 分 散 数 据 。 RAID 3 还 采用 了 高 效 的 XOR 校 验算 法 , 但 是 这 种 算法 
只 能 判断 数据 是 否 有 误 , 不 能 判断 出 哪 一 位 有 误 ,， 更 不 能 修正 错误 。 XOR 校 验 使 得 RAID 3 可 以 
不 管 多 少 块 数据 盘 ， 只 需要 一 块 校 验 盘 就 足够 了 。 

RAID 3 的 每 一 个 条 带 ， 其 长 度 被 设计 为 一 个 文件 系统 块 的 大 小 ， 深 度 随 磁盘 数量 而 定 ， 但 
是 最 小 深度 为 1 个 扇 区 。 这样 的 话 , 每 个 Segment 的 大 小 一 般 就 是 1 个 扇 区 或 者 几 个 扇 区 的 容量 。 
以 图 4.10 的 例子 来 看 ,有 4 块 数 据 盘 和 1 块 校 验 盘 。 每 个 Segment 也 就 是 图 中 的 一 个 Block Portion， 
假如 为 两 个 扇 区 大 小 ， 就 是 1KB， 则 整个 条 带 的 数据 部 分 大 小 为 4KB。 如 果 一 个 Segment 大 小 为 
8 个 扇 区 ， 即 4KB， 则 整个 条 带 大 小 为 16KB。 


例 解 : RAID 3 的 作用 机 制 
还 是 用 一 个 例子 来 说 明 RAID 3 的 作用 机 制 。 一 个 4 块 数据 盘 和 !1 块 校 验 盘 的 RAID 3 系统 ， 


Segment SIZE 为 两 个 扇 区 大 小 ( 1KB ) ， 条 带 长 度 为 4KB。 


RAID 3 控制 器 接收 到 了 这 样 一 个 IO: “ 写 入 初始 扇 区 10000 ”长度 8”， 即 总 数据 量 为 8 
x512B=4KB。 


控制 器 先 定位 LBA10000 所 对 应 的 真实 物理 LBA， 假 如 LBA10000 恰好 在 第 一 个 条 带 的 第 一 
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个 Segment 的 第 一 个 扇 区 上 ， 那 么 控制 器 将 这 个 IO 数据 里 的 第 1、2 个 512B 写 入 这 个 扇 区 。 

同一 时 刻 , 第 3、4 个 512B 会 被 同时 写 入 这 个 条 带 的 第 二 个 Segment 中 的 两 个 扇 区 ， 其 后 的 
数据 同样 被 写 入 第 3、4 个 Segment 中 ， 此 时 恰好 是 4KB 的 数据 量 。 也 就 是 说 这 4KB 的 IO 数据 
同时 被 分 散 写 入 了 4 块 磁盘 ， 每 块 磁盘 写 入 了 两 个 扇 区 ， 也 就 是 一 个 Segment。 它 们 是 并 行 写 入 
的 ， 包 括 校 验 盘 也 是 并 行 写 入 的 ,所 以 RAID 3 的 校 验 盘 没 有 瓶颈 ， 但 是 有 延迟 ， 因 为 增加 了 计 
算 校 验 的 开销 。 

但 现代 控制 器 一 般 都 使 用 专用 的 XOR 硬件 电路 而 不 是 CPU 来 计算 XOR, 这 样 就 使 得 延迟 
降 到 最 低 。 上 面 那 种 情况 是 IO SIZE 刚好 等 于 一 个 条 带 大 小 的 时 候 ， 如 果 IO SIZE 小 于 一 个 条 带 
大 小 呢 ? 

还 是 刚才 那个 环境 ， 此 时 控制 器 接收 到 IO 大 小 为 2KB 的 写 入 请 求 ， 也 就 是 4 个 连续 扇 区 ， 
那么 控制 器 就 只 能 同时 写 入 两 个 磁盘 了 ， 因 为 每 个 盘 上 的 Segment 是 两 个 扇 区 ， 也 只 能 得 到 两 倍 
的 单 盘 传 输 速率 。 同 时 为 了 更 新 校 验 块 ， 写 惩罚 也 出 现 了 。 但 是 如 果 同 时 有 个 IO 需要 用 到 另外 
两 块 盘 ， 那 么 恰好 可 以 和 当前 的 IO 合并 起 来 ， 这 样 就 可 以 并 发 IO ， 这 种 相 邻 的 IO 一 般 都 是 事 
务 性 的 连续 IO。 

再 看 看 IO SIZE 大 于 条 带 长 度 的 情况 。 还 是 那个 环境 ， 控 制 器 收 到 的 IO SIZE 为 16KB。 则 
控制 器 一 次 所 能 并 行 写 入 的 是 4KB， 这 16KB 就 需要 分 4 批 来 写 入 4 个 条 带 。 其 实 这 里 的 分 4 批 
写 入 , 不 是 先后 写 入 ， 而 是 同时 写 入 ， 也 就 是 这 16KB 中 的 第 1、5、9、13KB 将 由 控制 器 连续 写 
入 磁盘 1， 第 2、6、10、14KB， 连 续 写 入 磁盘 2， 依 此 类 推 。 直 到 16KB 数据 全 部 写 完 ， 是 并 行 
一 次 写 完 。 这 样 校 验 盘 也 可 以 一 次 性 计算 校 验 值 并 且 和 数据 一 同 并 行 写 入 ， 而 不 是 “分 批 ”。 

通过 比较 ,我们 发 现 ， 与 其 使 IO SIZE 小 于 一 个 条 带 的 大 小 ， 从 而 空 闻 出 一 些 磁 盘 ， 不 如 使 
IO SIZE 大 于 或 者 等 于 条 带 大 小 ， 取 消 磁 盘 空 余 。 因 为 上 层 IO SIZE 是 不 受 控 的 ， 控 制 器 说 了 不 
算 , 但 是 条 带 大 小 是 控制 器 说 了 算 的 。 所 以 如 果 将 条 带 大 小 减 到 很 小 ,比如 两 个 扇 区 、 一 个 扇 区 ， 
则 每 次 上 层 IO 一 般 情况 下 都 会 占用 所 有 磁盘 进行 并 发 传输 。 这 样 就 可 以 提供 和 RAID 2 一 样 的 传 
输 速度 ， 并 避免 RAID 2 的 诸多 缺点 。RAID 3 和 RAID 2 一 样 不 能 并 发 IO， 因为 一 个 IO 要 占 
用 全 部 盘 ， 就 算 IO SIZE 小 于 Stipe SIZE， 因 为 校 验 盘 的 独 享 也 不 能 并 发 IO。 

思考 : 一 般 来 说 ，RAID3 的 条 带 长 度 = 文 件 系 统 块 大 小 。 这 样 ， 就 不 会 产生 条 带 不 对 齐 

的 现象 ， 从 而 避免 产生 碎片 。 

虽然 纯 RAID 3 系统 不 能 并 发 IO ， 但 是 可 以 通过 巧妙 的 设计 ， 形 成 RAID 30 系统 。 如 果 文 


件 系统 块 为 4KB， 则 使 用 8 块 数据 盘 +2 块 校 验 盘 做 成 的 RAID 30 系统 ， 便 可 以 并 发 2 个 IO 了 。 
表 4-4 比 较 了 RAID 3 系统 与 单 盘 的 性 能 。 
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表 4-4 RAID 3 系统 相对 于 单 盘 的 1O 对比 


RAID3 顺序 IO 
IOPS 
随机 IO | 连续 IO 
IO 大 提升 极 提升 极 | 提升 了 入 
于 Stripe 
小 小 信 
SIZE 
务 性 
IO SIZE 小 IO 可 并 MATN ee 
i x IO 
于 Stripe 发 , 提 SIZE/Sti SIZE/Stri 
SIZE 升 并 发 Pp szE 信 
系数 售 He | 


注 : 和 组 成 RAID 3 的 数据 磁盘 数量 。 和 RAID 2 相同 ， 事 务 性 连续 IO 可 能 并 发。 

和 RAID 2 一 样 , RAID 3 同样 也 是 最 适合 连续 大 块 IO 的 环境 , 但 是 它 比 RAID 2 成 本 更 低 ， 
更 容易 部 署 。 

不 管 任何 形式 的 RAID， 只 要 是 面 对 随 机 IO， 其 性 能 与 单 盘 比 都 没有 大 的 优势 ,因为 RAID 
所 做 的 只 是 提高 传输 速率 、 并 发 IO 和 容错 ,随机 IO 只 能 靠 降低 单个 物理 磁盘 的 寻 道 时 间 来 解决 。 
而 RAID 不 能 优化 寻 道 时 间 。 所 以 对 于 随机 IO，RAID 3 也 同样 没有 优势 。 

而 对 于 连续 IO ， 因 为 寻 道 时 间 的 影响 因素 可 以 忽略 ，RAID 3 最 拿手 了 。 因 为 像 RAID 2 一 
样 ，RAID 3 可 以 大 大 加 快 数据 传输 速率 ， 因 为 它 是 多 盘 并 发 读 写 。 所 以 理论 上 可 以 相当 于 单 盘 
提高 N 倍 的 速率 。 

但 是 RAID 3 最 怕 的 就 是 遇 到 随机 IO。 由 于 在 RAID 3 下 ,每 个 IO 都 需要 牵动 所 有 盘 来 为 
它 服务 ， 这 样 的 话 ， 如 果 向 RAID 3 组 发 送 随 机 IO ， 那 么 所 有 磁盘 均 会 频繁 寻 道 ， 此 时 ， 整 个 
RAID 组 所 表现 出 来 的 性 能 甚至 不 如 单 盘 , 因为 就 算 组 内 有 100 块 盘 , 由 于 随机 IO 的 到 来 , 所 有 
磁盘 均 忙 于 寻 道 ，100 块 盘 并 发 寻 道 所 耗费 的 时 间 与 一 块 盘 是 相同 的 。 


4.2.5 ”RAID 4 技术 详 析 


图 4-11 是 一 个 RAID 4 系统 的 条 带 布 局 图 。 
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Extent 0 Extent 1 Extent 2 Extent 3 Extent 4 
Stripe0 人 Strip (0.0) Strip (1,0) Strip (2,0) Strip (3,0) Strip (4,0) 
Parity (0.0.0) Data Block 0 Data Block 4 Data Block 8 Data Block 12 
Depth Parity (1,0,0) Data Block 1 Data Block 5 Data Block 9 Data Block 13 
[Panty (2.,0,0) Data Block 2 Dae Block 6 Data Block 10 Data Block 14 
站 Parity (3,0,0) Data Block 3 Data Block7 Data Block 11 Data Block 15 
Extent Stripe Lengtt | 
Stripe 1 人 Strip (0,1) Strip (1,1) Strip (2,1) Strip (3,1) Strip (4,1) 
Parity (0,0,1) Data Block 16 Data Block 20 Data Block 24 Data Block 28 
Depth Parity (1.0,1) Data Block 17 Data Block 21 Data Block 25 Data Block 29 
Parity (2.0,1) Data Block 18 Data Block 22 Data Block 26 Dats Block 30 
4 Parity (3.0,1) Data Block 19 Data Bloc 23 Data Block 27 Data Block 31 
Stripe 2 人 Strip (0,2) Strip (1,2) Strip (2,2) Strip (3,2) Strip (4,2) 
Parity (0,0,2) Data Block 32 Data Block 36 Data Block 40 Data Block 44 
Depth Panty (10.2) Data Block 33 Data Block 37 Data Block 41 Data Block 45 
Panty (2.0,2) Data Block 34 Data Block 38 Data Block 42 Data Block 46 
站 Panty 8.02) Data Block 35 Data Block 39 Data Bloc 43 Data Block 47 


图 4-11 RAID 4 系统 示意 图 

不 管 是 RAID 2 还 是 RAID 3， 它 们 都 是 为 了 大 大 提高 数据 传输 率 而 设计 ， 而 不 能 并 发 IO。 
诸如 数据 库 等 应 用 的 特点 就 是 高 频率 随机 IO 读 。 想 提高 这 种 环境 的 IOPS， 根 据 公 式 IOPS=IO 
并 发 系数 /( 寻 道 时 间 + 旋 转 延迟 时 间 + 数 据 传输 时 间 ) ， 随 机 读 导 致 寻 道 时 间 和 旋转 延迟 时 间 增 
大 ， 靠 提高 传输 速率 已 经 不 是 办 法 。 所 以 观察 这 个 公式 ， 想 在 随机 IO 频 发 的 环境 中 提高 IOPS， 
唯一 能 够 做 的 是 要 么 用 高 性 能 的 磁盘 ( 即 平均 寻 道 时 间 短 的 磁盘 ) ， 要 么 提高 IO 并 发 系数 。 不 
能 并 发 IO 的 ， 想 办 法 让 它 并 发 IJO。 并 发 系数 小 的 ， 想 办 法 提高 系数 。 

思考 : 在 RAID 3 的 基础 上 ，RAID 4 被 发 展 起 来 。 我 们 分 析 RAID 3 的 性 能 的 时 候 ， 

曾经 提 到 过 一 种 情况 ， 就 是 IO SIZE 小 于 Stripe SIZE 的 时 候 ， 此 时 有 磁盘 处 于 空闲 状态 。 

如 果 抓 住 这 个 现象 , 同时 让 队列 中 的 其 他 IO 来 利用 这 些 空闲 的 磁盘 ， 岂 不 是 正好 达到 并 

发 I0 的 效果 了 么 ”所 以 RAID 4 将 一 个 Segment 的 大 小 做 得 比较 大 ,以 至 于 平均 IO SIZE 

总 是 小 于 Stripe SIZE， 这 样 就 能 保证 每 个 I0 少 占用 磁盘 ， 甚 至 一 个 IO 只 占用 一 个 磁盘 。 


是 的 , 这 个 思想 对 于 读 IO 是 对 路 子 的 , 但 是 对 于 写 IO 的 话 ， 有 一 个 很 难 克 服 的 问题 ， 那 就 
是 校 验 盘 的 争 用。 考虑 一 下 这 样 一 种 情况 ， 在 4 块 数据 盘 和 1 块 校 验 盘 组 成 的 RAID 4 系统 中 ， 
某 时 刻 一 个 10 占用 了 前 两 块 盘 和 校 验 盘 , 此 时 虽然 后 两 块 是 空闲 的 ,可 以 同时 接受 新 的 IO 请 求 。 
但 是 接受 了 新 的 IO 请 求 , 则 新 IO 请 求 同 样 也 要 使 用 校 验 盘 。 由 于 一 块 物理 磁盘 不 能 同时 处 理 多 
个 IO, 所 以 新 IO 仍然 要 等 旧 IO 写 完 后 , 才能 写 入 校 验 。 这 样 就 和 顺序 IO 没 区 别 了 。 数据 盘 可 
并 发 而 校 验 盘 不 可 并 发 ， 这 样 不 能 实现 写 IO 并 发。 

如 果 仅 仅 根据 争 用 校 验 盘 来 下 结论 说 RAID 4 不 支持 并 发 IO, 也 是 片面 的 。 我们 可 以 设想 这 
样 一 种 情形 ， 某 时 刻 一 个 IO 只 占用 了 全 部 磁盘 的 几 块 盘 ， 令 一 些 磁盘 空闲 。 如 果 此 时 让 队列 中 
下 一 个 IO 等 待 的 话 ， 那 么 当然 不 可 能 实现 并 发 IO。 
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思考 : 如 果 队列 中 有 这 样 一 个 IO， 它 需要 更 新 的 LBA 目标 和 正在 进行 的 I0 恰好 在 同一 

条 带 上 , 并 且 处 于 空闲 磁盘 , 还 不 冲突 , 那么 此 时 我 们 就 可 以 让 这 个 I0 也 搭 一 下 正在 进 

行 的 I0 的 顺风 车 。 反 正 都 是 要 更 新 这 个 条 带 的 校 验 Segment， 与 其 两 个 IO 先后 更 新 , 不 

如 让 它们 同时 更 新 各 自 的 数据 Segment， 而 控制 器 负责 计算 本 条 带 的 校 验 块 。 这 样 就 完美 

的 达到 了 IO 并 发 。 

但 是 ， 遇 到 这 种 情况 的 几率 真是 小 之 又 小 。 即 便 如 此 ， 控 制 器 如 果 可 以 对 队列 中 的 IO 目标 
LBA 进行 扫描 ,将 目标 处 于 同一 条 带 的 IO ,让 其 并 发 写 入 ,这 就 多 少 类 似 NCQ 技术 了 。 但 是 如 
果 组 合 动作 在 上 层 就 已 经 算 好 了 ， 人 为 的 创造 并 发 条 件 ， 主 动 去 合并 可 以 并 发 的 ， 合 并 好 之 后 再 
下 发 给 下 层 ， 那 么 事务 并 发 IO 的 几率 将 大 大 增加 ， 而 不 是 靠 底层 碰 运 气 来 实现 ， 不 过 此 时 称 为 
“并 发 事务 ”更 为 合适 。 

所 谓 “ 上 层 ” 是 什么 呢 ? 上 层 就 是 一 级 磁盘 控制 器 驱动 程序 的 上 层 ， 也 就 是 文件 系统 层 。 
文件 系统 管理 着 底层 磁盘 ， 决 定数 据 写 往 磁盘 或 者 虚拟 卷 上 的 哪些 块 。 所 以 完全 可 以 在 文件 系 
统 这 个 层次 上 ， 将 两 个 不 同事 务 的 IO 写 操 作 ， 尽 量 放 到 相同 的 条 带 上 。 比 如 一 个 条 带 大 小 为 
16KB， 可 以 前 8KB 放 一 个 IO 的 数据 ， 后 8KB 放 另 一 个 IO 的 数据 ， 这 两 个 IO 在 经 过 文件 系 
统 的 计算 之 后 ， 经 由 磁盘 控制 器 驱动 程序 ， 向 磁盘 发 出 同时 写 入 整个 条 带 的 操作 ， 这 样 就 构成 
了 整 条 写 。 如 果实 在 不 能 占 满 整 条 ,那么 也 应 该 尽量 达成 重 构 写 模式 ， 这 样 不 但 并 发 了 IO, 还 
使 得 写 效率 增加 。 

提示 :这 种 在 文件 系统 专门 为 RAID 4 做 出 优化 的 方案 , 最 典型 的 就 是 NetApp 公司 著 

名 的 WAFL 文件 系统 。WAFL 文件 系统 的 设计 方式 确保 了 能 够 最 大 限度 地 实现 整 条 写 

操作 。 

图 4-12 对 比 显 示 了 WAFL 如 何 分 配 同样 的 数据 块 , 从 而 使 得 RAID 4 更 加 有 效 。 WAEFL 总 
是 把 可 以 合并 写 入 的 数据 块 尽量 同时 写 到 一 个 条 带 中 ， 以 消除 写 惩罚 ， 增 加 IO 并 发 系数 。 相 对 
于 WAFL， 左 边 的 FFS ( 普通 文件 系统 ) 由 于 对 RAID 4 没有 感知 ,产生 的 IO 不 适合 RAID 4 的 
机 制 ， 从 而 被 零散 地 分 配 到 了 6 个 独立 的 条 带 ， 因 此 致使 6 个 校 验 盘 块 需要 更 新 ， 而 只 能 顺序 的 
进行 ， 因 为 校 验 盘 不 可 并 发 。 而 右边 的 WAFL 仅仅 使 用 3 道 条 带 ， 只 有 3 个 校 验 块 需要 更 新 ， 从 
而 大 大 提高 了 性 能 。 表 4-5 比较 了 RAID 4 系统 与 单 盘 的 性 能 。 

RAID 4 with FFS RAID 4 with WAFL 


Pority DI Dz D3 Parity Di Dz D3 


图 4-12 普通 文件 系统 与 WAFL 文件 系统 的 对 比 
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表 4-5 RAID 4 系统 相对 于 单 盘 的 10 对 比 


号 
RAID 4 
ja 特别 优化 的 并 发 IO 特别 优化 的 并 发 IO 顺序 IO 
随机 IO 连续 IO | 随机 IO | 连续 IO 
IO 
MW- = 朋 子 |- 
SIZE/Stipe | 冲突 冲突 冲突 没有 提 是 升 了 
i 升 NN 倍 
SIZE 较 大 
了 是 升 并 
-i A 提升 并 发 | 提升 并 | 性 能 降 | 性 能 降 
SIZE/Stripe | 提升 极 小 | 发 系数 系数 倍 发 系数 低 低 
SIZE 较 小 xN 倍 Ed xNN 倍 


注 : N 为 RAID 4 数据 盘 数 量 。IO SIZE/Stripe SIZE 太 大 则 并 发 IO 几率 很 小 。 


注意 : 如 果 IO SIZE/Stripe SIZE 的 值 太 小 , 那么 顺序 I0 读 不 管 是 连续 还 是 随机 IO 几乎 都 


没有 提升 。 顺 序 I0 写 性 能 下 降 ， 是 因为 IO SIZE 很 小 ， 
性 能 会 降低 不 少 


所 以 ， 如 果 要 使 用 RAID 4, 不 进行 特别 优化 是 不 行 的 ， 


是 顺序 IO， 只 能 进行 读 改 写 ， 


至 少 要 让 它 可 以 进行 并 发 IO。 观 罕 


表 4-5 可 知 ， 并 发 IO 模式 下 性 能 都 有 所 提升 。 然 而 如 果 要 优化 到 并 发 几率 很 高 ， 实 在 不 容易 。 
目前 只 有 NetApp 的 WAEL 文件 系统 还 在 使 用 RAID 4, 其 他 产品 均 未 见 使 用 。RAID 4 面临 淘汰 ， 
取而代之 的 是 拥有 高 宦 并 发 几率 的 RAID 5 系统 。 所 谓 言 并 发 几率 ， 就 是 说 上 层 不 必 感 知 下 层 的 


结构 ， 即 可 增加 并 发 系数 。 
4.2.6 ”RAID 5 技术 详 析 
图 4-13 为 一 个 RAID 5 系统 的 条 带 布局 图 。 


== 


Be 


Extent 2 


Extent 3 Extent 4 


Stripe 0 Strip (0,0) Strip (2,0) Strip (3,0) Strip (4,0) 
Party (0.0.0) Data Block 0 Data Block 4 ata Block ata Block 12 
De Party (1.0.0) Data Block 1 Dat Block s Data Block 9 Data Block 13 
Panty (2,0.0) Data Block 2 Dot Block 6 Data Block 10- Data Block 14 
Panty (3.0.0) Dem Block 7 Dar Block 17 Dota Block 15 
Extent Stripe Lengt | 

Stripe 1 Strip (0,1) Strip (2,1) Strip (3,1) Strip (4,1) 
Deots Block 16 ata Block 24 Data Biock 28 

Depth Data Block 17 Data Block 25 Data Block 29 

Data Block 18 Party (2.1,1) Deta Block 26 Deta Block 30 


Da Block 19 Porty (3.1,1) 


Data Block 27 Data Block 31 


Stripe 2 Strip (0,2) Strip (1,2) Strip (2,2) Strip (3,2) Strip (4,2) 
Data Block 32 Porty (0.2.2) Data Block 40 Data Block 44 
Depth aa Block 33 器 Parity (1.2.2) Data BIock 41 Data Block 45 
Da Biock 34 ta Parity (2.2.2) Data Block 42 Data Block a 
Dats Block 35 a Fanty (3.2.2) Data Block 43 Data Block 47 
. . 
. . 
. . 


图 4-13 RAID 5 系统 示意 图 
先 介绍 几 个 概念 : 整 条 写 、 重 构 写 与 读 改写 。 
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(1) 整 条 写 (Ful1-Stripee Write) : 需要 修改 奇偶 校 验 群 组 中 所 有 的 条 带 单 元 ， 因 此 新 的 
XOR 校 验 值 可 以 根据 所 有 新 的 条 带 数 据 计算 得 到 ， 不 需要 额外 的 读 、 写 操作 。 因 此 ， 整 条 写 是 
最 有 效 的 写 类 型 。 整 条 写 的 例子 ， 如 RAID 2、RAID 3。 它 们 每 次 IO 总 是 几乎 能 保证 占用 所 有 
盘 ， 因 此 每 个 条 带 上 的 每 个 Segment 都 被 写 更 新 ， 所 以 控制 器 可 以 直接 利用 这 些 更 新 的 数据 计算 
出 校 验 数 据 之 后 ， 在 数据 被 写 入 数据 盘 的 同时 ， 将 计算 好 的 校 验 信息 写 入 校 验 盘 。 


(2) 重 构 写 (Reconstruct Write) : 如 果 要 写 入 的 磁盘 数目 超过 阵列 磁盘 数目 的 一 半 ， 可 
采取 重 构 写 方式 。 在 重 构 写 中 ， 从 这 个 条 带 中 不 需要 修改 的 Segment 中 读 取 原 来 的 数据 ， 再 和 本 
条 带 中 所 有 需要 修改 的 Segment 上 的 新 数据 一 起 计算 XOR 校 验 值 ， 并 将 新 的 Segment 数据 和 没 
有 更 改过 的 Segment 数据 以 及 新 的 XOR 校 验 值 一 并 写 入 。 显然 , 重 构 写 要 牵涉 更 多 的 1/O 操作 ， 
因此 效率 比 整 条 写 低 。 重 构 写 的 例子 , 比如 在 RAID 4 中 , 如 果 数 据 盘 为 8 块 , 某 时 刻 一 个 I1O 只 
更 新 了 一 个 条 带 的 6 个 Segment， 剩 余 两 个 没有 更 新 。 在 重 构 写 模式 下 ， 会 将 没有 被 更 新 的 两 个 
Segment 的 数据 读 出 ,和 需要 更 新 的 前 6 个 Segment 的 数据 计算 出 校 验 数据 ,然后 将 这 6 个 Segment 
连同 校 验 数 据 一 并 写 入 磁盘 。 可 以 看 出 ， 这 个 操作 只 是 多 出 了 读 两 个 Segment 中 数据 的 操作 和 写 
Parity 校 验 数据 的 操作 ， 但 是 写 的 时 候 几 乎 不 产生 延迟 开销 ， 因 为 是 宏观 同时 写 入 。 

(3) 读 改写 (Read-Modify Write) : 如 果 要 写 入 的 磁盘 数目 不 足 阵列 磁盘 数目 的 一 半 ， 可 
采取 读 改 写 方式 。 读 改写 过 程 是 : 先 从 需要 修改 的 Segment 上 读 取 旧 的 数据 ， 再 从 条 带 上 读 取 旧 
的 奇偶 校 验 值 ， 根据 旧 数 据 、 旧 校 验 值 和 需要 修改 的 Segment 上 的 新 数据 计算 出 这 个 条 带 上 的 新 
的 校 验 值 ， 最 后 写 入 新 的 数据 和 新 的 奇偶 校 验 值 。 这 个 过 程 中 包含 读 取 、 修 改 和 写 入 的 一 个 循环 
周期 ， 因 此 称 为 读 改 写 。 读 改写 计算 新 校 验 值 的 公式 为 : 新 数据 的 校 验 数据 = ( 老 数据 EOR 新 
数据 ) EOR 老 校 验 数据 。 如 果 待 更 新 的 Segment 已 经 超过 了 条 带 中 总 Segment 数量 的 一 半 ， 则 
Sa 用 读 改 号， 因为 读 改写 需要 读 出 这 些 Segment 中 的 数据 和 校 验 数据 。 而 如 果 采 用 重 构 

只 需要 读 取 剩余 不 准备 更 新 数据 的 Segment 中 的 数据 即 可 ， 而 后 者 数量 比 前 者 要 少 。 所 以 超 
和 于 用 重 构 写 ， 不 到 一 半 用 读 改写 ， 整 条 更 新 就 用 整 条 写 。 
写 效率 排列 为 : 整 条 写 > 重 构 写 > 读 改 写 。 
4-14 是 RAID 5 系统 的 三 种 写 模式 示意 图 。 


图 4-14 RAID 5 写 模式 示意 图 
为 了 解决 RAID 4 系统 不 能 并 发 IO 的 窘境 ，RAID 5 相应 而 出 。RAID 4 并 发 困难 是 因为 它 
的 校 验 盘 争 用 的 问题 , 如 果 能 找到 一 种 机 制 可 以 有 效 地 解决 这 个 问题 , 则 实现 并 发 就 会 非常 容易 。 
RAID 5 恰恰 解决 了 校 验 盘 争 用 这 个 问题 。RAID 5 采用 分 布 式 校 验 盘 的 做 法 ， 将 校 验 盘 打 散 在 
RAID 组 中 的 每 块 磁盘 上 。 如 图 4-13 所 示 , 每 个 条 带 都 有 一 个 校 验 Segment， 但 是 不 同 条 带 中 其 
位 置 不 同 ， 在 相 邻 条 带 之 间 循 环 分 布 。 为 了 保证 并 发 IJO，RAID 5 同样 将 条 带 大 小 做 得 较 大 ， 以 
保证 每 次 IO 数据 不 会 占 满 整 个 条 带 ， 造 成 队列 中 其 他 IO 的 等 待 。 所 以 ，RAID 5 要 保证 高 并 发 


率 , 一 旦 某 时 刻 没 有 成 功 进行 并 发 , 则 这 个 IO 几乎 就 是 读 改 写 模 式 , 所 以 RAID 5 拥有 较 高 的 写 
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惩罚 。 

但 是 在 随机 写 IO 频 发 的 环境 下 , 由 于 频 发 的 随机 IO 提高 了 潜在 的 并 发 几率 , 如 果 碰巧 并 发 
的 IO 同 处 一 个 条 带 ， 还 可 以 降低 写 惩罚 的 几率 。 这 样 ，RAID 5 系统 面 对 频 发 的 随机 写 IO, 其 
IOPS 下 降 趋势 比 其 他 RAID 类 型 要 平缓 一 些 。 

来 分 析 一 下 RAID 5 具体 的 作用 机 制 。 以 图 4-13 的 环境 为 例 , 条 带 大 小 80KB, 每 个 Segment 
大 小 16KB。 

某 一 时 刻 ， 上 层 产生 一 个 写 IO: 写 入 初始 扇 区 10000 长 度 8， 即 写 入 4KB 的 数据 。 控 制 器 
收 到 这 个 IO 之 后 ， 首 先 定位 真实 LBA 地 址 ， 假 设 定位 到 了 第 1 个 条 带 的 第 2 个 Segment ( 位 于 
图 中 的 磁盘 2 ) 的 第 1 个 扇 区 (仅仅 是 假设 ) ， 则 控制 器 首先 对 这 个 Segment 所 在 的 磁盘 发 起 IO 
写 请 求 ， 读 取 这 8 个 扇 区 中 原来 的 数据 到 Cache。 

与 此 同时 , 控制 器 也 向 这 个 条 带 的 校 验 Segment 所 在 的 磁盘 ( 即 图 中 的 磁盘 1 ) 发 起 IO 读 请 
求 ， 读 出 对 应 的 校 验 扇 区 数据 并 保存 到 Cache。 

利用 XOR 校 验 电路 来 计算 新 的 校 验 数据 ， 公 式 为 : 新 数据 的 校 验 数据 = ( 老 数据 EOR 新 
数据 ) EOR 老 校 验 数据 。 现 在 Cache 中 存在 : 老 数据 、 新 数据 、 老 校 验 数 据 和 新 校 验 数 据 。 

控制 器 立即 再 次 向 相应 的 磁盘 同时 发 起 IO 写 请 求 , 将 新 数据 写 入 数据 Segment, 将 新 校 验 数 
据 写 入 校 验 Segment， 并 删除 老 数 据 和 老 校 验 数据 。 

在 上 述 过 程 中 ,这 个 IO 占用 的 始终 只 有 1、2 两 块 盘 ， 因 为 所 要 更 新 的 数据 Segment 对 应 的 
校 验 Segment 位 于 1 盘 ， 自 始 至 终 都 没有 用 到 其 他 任何 磁盘 。 如 果 此 时 队列 中 有 这 么 一 个 IO, 它 
的 LBA 初始 目标 假如 位 于 图 4-13 中 下 面 方 框 所 示 的 数据 Segment 中 ( 磁盘 4 ) ，IO 长 度 也 不 超 
过 Segment 的 大 小 。 而 这 个 条 带 对 应 的 校 验 Segment 位 于 磁盘 3 上 。 这 两 块 盘 未 被 其 他 任何 IO 占 
用 ， 所 以 此 时 控制 器 就 可 以 并 发 的 处 理 这 个 IO 和 上 方 红 框 所 示 的 IO ， 达 到 并 发 。 

RAID 5 相对 于 经 过 特别 优化 的 RAID 4 来 说 , 在 底层 就 实现 了 并 发 , 可 以 脱离 文件 系统 的 干 
预 。 任 何 文件 系统 的 IO 都 可 以 实现 较 高 的 并 发 几率 ， 又 称 为 言 并 发 。 而 不 像 基于 WAFL 文件 系 
统 的 RAID 4， 需 要 在 文件 系统 上 规划 计算 出 并 发 环境 。 然 而 就 效率 来 说 ， 仍 然 是 WAEFL 拥有 更 
高 的 并 发 系数 ， 因 为 毕竟 WAEL 是 靠 主动 创造 并 发 ， 而 RAID 5 却 是 做 好 了 陷阱 等 人 往 里 跳 ， 抓 


着 一 个 是 一 个 。 


RAID 5 磁盘 数量 越 多 ， 可 并 发 的 几率 就 越 大 。 表 4-6 比较 了 RAID 5 与 单 盘 的 性 能 。 


表 4-6 ”RAID 5 系统 相对 于 单 盘 的 10 对 比 


提升 极 | 提升 了 
似 Stipe 提升 了 N 倍 | 不 支持 | 不 支持 让 认 入 
SIZE 
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续 表 
IOSZE 大 | 提升 并 | 提升 并 提升 7IO | 提升 并 | 提升 并 

el lent 几 } 能 下 

于 Segment | 发 系数 | 发 系数 SIZE/ segment | 发 系 数 | 发 系数 

倍 xN 倍 SIZE 倍 倍 倍 

IO SIZE 小 | 提升 并 | 提升 并 提升 并 | 提升 并 

:4 升 能 下 | 性 能 
ne 发 系数 | 发 系数 pa 没有 提升 发 系数 | 发 系数 ag a 
或 号 2 倍 xN 倍 倍 xN 倍 
改 与 


注 : RAID 5 最 适合 小 块 IJO。 并 发 IO 的 情况 下 ， 性 能 都 较 单 盘 有 所 提升 。 


图 4-15 为 一 个 RAID 5E 系统 的 条 带 布局 图 。 


Strip (4,0) 
TD 


Parity (34.0) 


| 


Strip (4,1) 


Stip (3,.W) 


区 


图 4-15 RAID 5E 系统 示意 图 ( HS 代表 HotSpare ) 
4-16 则 为 一 个 RAID 5EE 系统 的 条 带 布局 图 。 
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COC CC OC DD 


Extent 0 Extent 1 Extent 2 Extent 3 Extent 4 
Stripe 0 4 Strip (0,0) Strip (1,0) Strip (2,0) Strip (3,0) Strip (4,0) 
Parity (0.0.0) HS Block 0 Data Block 0 Data Block 4 Data Block 8 
Depth Parity (1,0,0) HS Block 1 Data Block 1 Data Block 5 Data Block 9 
Parity (2.0.0) HS Block2 Data Block 2 Data Block 6 Data Block 10 
中 Parity (3.0,0) HS Block 3 Data Block 3 Data Block 7 Data Block 11 
+ | :xtent Stripe Lengi 各 | 

Stripe 1 4 Strip (0,1) Strip (1,1) Strip (2,1) Strip (3,1) Strip (4,1) 
Data Block 12 Parity (0.1.T) HS Biock4 Data Block 16 Data Block20 
Depth Data Block 13 Parity (11.1) HS Block 5 Data Block 17 Data Block 21 
Data Block 14 Parity (2,1,71) HS Block 6 Data Block 18 Data Block 22 
站 Data Block 15 Panity (3,1,1) HS Block 7 Data Block 19 Data Block 23 
Strpe2 作 Strip (0.2) Strip (1,2) Strip (2,2) Strip (3,2) Strip (42) 
Data Block 24 aa Biock 28 Pony (OZ Hs Block ® Da iock 32 

Depth Data Block 25 Data Block 29 Pariy (1.22) HS Block © 

Data Block 26 Data Block 30 Parity (2.2.2) HS Block 10 
站 Data Block 27 Data Block 31 Parity (3.2.2) HS Block11 Data Block 35 

. . 
. 
A Ne 


图 4-16 RAID SEE 系统 示意 图 
4.2.7 ”RAID 6 技术 详 析 
图 4-17 为 一 个 RAID 6 系统 的 条 带 布局 图 。 
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图 4-17 RAID6 系统 示意 图 


RAID 6 之 前 的 任何 RAID 级 别 ， 最 多 能 保障 在 坏 掉 一 块 盘 的 时 候 ， 数 据 仍 然 可 以 访问 。 如 
果 同 时 坏 掉 两 块 盘 , 则 数据 将 会 丢失 。 为 了 增加 RAID 5 的 保险 系数 , RAID 6 被 创立 了 。RAID6 
比 RAID 5 多 增加 了 一 块 校 验 盘 ， 也 是 分 布 打 散在 每 块 盘 上 ， 只 不 过 是 用 另 一 个 方程 式 来 计算 新 
的 校 验 数据 。 这 样 ，RAID 6 同时 在 一 个 条 带 上 保存 了 两 份 数 学 上 不 相关 的 校 验 数 据 ， 这 样 能 够 
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保证 同时 坏 两 块 盘 的 情况 下 ， 数 据 依 然 可 以 通过 联 立 这 两 个 数学 关系 等 式 来 求 出 丢失 的 数据 。 
RAID 6 与 RAID 5 相 比 , 在 写 的 时 候 会 同时 读 取 或 者 写 入 额外 的 一 份 校 验 数据 。 不 过 由 于 是 并 行 


同时 操作 ， 所 以 不 比 RAID 5 慢 多 少 。 其 他 特性 则 和 RAID 5 类 似 。 
比较 了 RAID 6 与 单 盘 的 性 能 。 


表 4-6 


表 4-7 RAID 6 系统 相对 于 单 盘 的 1O 对 比 


写 
RAID6 并 发 IO 并 发 IO 顺序 IO 
IOPS 连续 4 连续 

随机 IO | 连续 IO 随机 10 | 连续 ”| 随机 | 连续 

IO IO IO 
IO SIZE 
近 从 是 升 升 是 升 
近似 不 支持 | 不 支持 | 提 入 极 | 提 天 了 N 倍 | 不 支持 | 不 支持 | 提 极 | 提升 了 
Stripe 小 小 N 倍 
SIZE 
IO SIZE 
大 于 提升 并 “| 提升 并 提升 了 IO 提升 并 ”| 提升 并 
几乎 没 性 能 下 | 提升 极 

Segment 发 系数 发 系数 i SIZE/ Segment | 发 系数 发 系数 
SIZE 重 构 | 倍 xNN 倍 SIZE 倍 说 xN 倍 | 
写 
IO SIZE 
小 于 提升 并 “| 提升 并 提升 并 ”| 提升 并 
Segment | 发 系数 | 发 系数 a 1 极 | 没有 提升 发 系数 。 | 发 系数 a a 
SIZE 读 改 | 倍 倍 倍 倍 
写 
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”磁盘 阵列 
» SCSI 
” LUN 
"前端 /后 端 


两 三 块 磁盘 做 RAID 0 或 1, 四 五 块 磁盘 做 个 RAID 3、 
4、5 是 小 事 一 桩 ， 不 过 太 没 魄力 。 要 玩 就 弄 个 几 十 块 盘 ， 
那 才 过 首 。 这 不 ， 有 人 发 明了 专门 装 这 些 磁 盘 的 大 柜子 ， 
看 这 柜子 是 怎么 回 事 儿 吧 
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退隐 江湖 一 一 太 累 了 ， 该 歇 软 了 


自从 张 真人 创立 了 降 龙 三 掌 之 后 ,江湖 各 门 各 派 争 相 修炼 ， 商 人 不 断 推出 基于 降 龙 掌 的 新 商 
品 。 江 湖上 浮躁 之 气 青 次 袭 来 ， 很 少 有 人 去 钻研 底层 功夫 了 ， 都 是 拿 来 就 用 ,不 思 进 取 。 几 十 年 
过 去 了 ,， 张 老道 已 经 成 了 头发 苍白 的 老人 。 
这 天 晚上 ， 人 少 星 稀 。 唯 独 天 上 的 北斗 七 星 ， 光 芒 还 是 那么 灿烂 ,仿佛 已 逝去 百年 的 七 星 大 
侠 ， 还 在 天 上 苦 苦 钻研 。 
张 真 人 如 今 也 已 经 是 白 发 苍苍 ,可 是 知己 已 不 在 。 一 百年 来 , 江湖 上 为 了 利益 你 争 我 抢 ， 反 
目 成 仇 ， 打 打 杀 杀 。 鸣 呼 哉 ! ! ! 难道 这 个 江湖 真 要 从 此 衰败 么 ? 张 老道 失望 至 极 。 
闻 道 
尘世 浮华 迷人 眼 ， 
梦 中 情境 亦 非 真 。 
朝 若 闻 道 夕 死 可 ， 
世间 何 处 有 高 人 ? 
第 二 天 , 张 真人 对 外 宣布 ， 他 从 此 退隐 江湖 ， 不 再 参与 江湖 事 。 瞬 时 间 ， 整 个 江湖 就 像 地 震 
了 一 样 ， 人 们 没有 了 主心骨 ， 都 不 知道 该 二 什么 好 了 。 打 打 杀 杀 的 也 不 打 了 ， 商 人 也 没 得 吹 了 。 
很 多 商人 纷纷 上 武当 来 游说 张 真人 ， 让 他 出 山 ， 包 荣华 富贵 ， 都 被 张 真人 一 一 回绝 了 。 江 湖 又 恢 
复 了 以 往 的 平静 ， 只 是 这 平静 似乎 预示 着 一 场 更 加 猛烈 的 暴风 十 即将 来 临 。 


前 仆 后 继 一 一 后 来 者 居 上 


话说 有 位 少年 ， 自 幼 好 钻研 和 寻根 问 底 ， 被 人 称 作 “ 隔 一 路 ”。 此 人 不 善于 口头 表达 ,不 会 包 
悠 ， 但 是 如 果 世 界 只 剩 下 他 一 个 人 ， 那 么 他 便 会 爆发 出 神奇 的 力量 。 由 于 内 向 的 性 格 ， 他 吃 了 不 少 
亏 ， 但 他 依然 我 行 我 素 ， 并 不 在 乎 别人 的 议论 和 猜忌 甚至 是 旗 毁 。 这 位 少年 名 为 无 辟 。 他 实际 上 也 
确实 是 无 所 畏 忌 ， 明 知 山 有 虎 ， 偏 向 虎 山行 ， 用 天 真 和 执著 去 挑战 世俗 ， 跌 倒 了 大 不 了 重 来 。 

既然 选择 了 这 条 路 , 就 要 把 它 走 完 。 孤独 和 压迫 给 了 他 巨大 的 动力 , 每 天 晚上 都 在 刻 若 学习 。 
他 学 习 IO 大 法 和 磁盘 大 挪移 ， 学 习 七 星 北斗 阵 和 降 龙 大 法 。 虽 然 他 并 没有 实践 过 这 些 知 识 , 但 
是 依然 有 一 股 力量 促使 他 不 断 地 学 习 钻研 。 


6.1 “ 初 露 端倪 一 一 外 置 磁盘 柜 应 用 探索 


无 号 已 经 充分 掌握 了 前 人 留 下 的 心 法 口诀 。 在 不 知道 该 做 点 什么 的 时 候 ， 他 突然 有 了 一 个 想 
法 。 昌 然 按 照 七 星 大 侠 的 RAID 方式 ， 可 以 将 多 块 磁盘 做 成 逻辑 盘 ， 但 是 普通 的 服务 器 或 者 PC 
机 箱 里 面 ， 也 就 安装 两 三 块 磁盘 ， 空 间 就 满 了 。 如 果 做 很 多 块 盘 的 RAID ， 把 磁盘 都 放 到 机 箱 里 
面 肯 定 不 行 ， 得 想 个 办 法 来 让 机 器 可 以 带 多 块 磁盘 。 

“ 拿 出 来 ， 拿 出 来 ,全 部 都 掏 出 来 ! ”他 找 来 一 台 机 器 ， 装 了 一 块 Ultra 320 SCSI 卡 ， 这 个 卡 
只 有 一 个 通道 ， 可 以 连接 15 块 磁盘 。 但 是 15 块 盘 怎 么 放 入 一 个 机 箱 呢 ? 太 困 难 了 ， 所 以 必须 把 
这 些 盘 放 到 机 箱 外 面 。 但 是 连 线 和 电源 问题 又 不 好 办 。 他 索性 找 来 一 个 箱子 ， 把 所 有 磁盘 都 放 在 
这 个 箱子 里 。 箱 子 有 独立 电源 和 散热 系统 ， 保 障 磁盘 的 稳定 运行 。 接 口 方面 ， 内 部 其 实 就 是 一 条 
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SCSI 线 缆 ， 只 不 过 将 它 做 到 了 电路 板 上 ， 然 后 在 外 面 放 一 个 接口 ， 这 个 接口 是 用 来 连接 主机 上 的 
SCSI 卡 的 。 如 果 主 机 上 装 的 是 不 带 RAID 功能 的 SCSI 卡 ， 那 么 加 电 之 后 ， 主 机 会 识别 到 磁盘 箱 
中 的 所 有 磁盘 。 箱 子 中 有 多 少 磁盘 ， 在 OS 磁盘 管理 器 中 就 会 显示 多 少 块 磁盘 。 如 果 主机 上 安装 
的 是 带 RAID 功能 的 SCSI 卡 , 那么 可 以 用 这 个 RAID 卡 先 来 对 认 到 的 多 块 磁盘 做 一 下 RAID, 划 
分 出 逻辑 盘 ， 这 时 OS 识别 到 的 就 是 逻辑 磁盘 ， 而 不 会 认 到 箱子 中 的 物理 磁盘 。 

这 种 简单 的 磁盘 箱 如 图 6-1 所 示 , 无 忌 给 它 取 了 个 学 名 , 叫做 “JBOD”, 也 就 是 Just a Bound 
OfDisks，“ 只 是 一 串 磁盘 ”， 这 个 描述 非常 形象 。 无 忌 立 即将 这 个 做 法 公布 了 出 去 ， 没 想到 大 受 
欢迎 ， 一 时 间 各 个 厂家 争 相生 产 这 种 磁盘 柜 ， 在 市 场 上 卖 得 很 火 。 


Scsi 总 线 ， 线 缆 


图 6-1 JB0D 磁盘 阵列 示意 图 
6.2 “精益求精 一 一 结合 RAID 卡 实现 外 置 磁盘 阵列 


思考 :能 和 否 把 RAID 功能 做 到 磁盘 箱 中 , 因为 如 果 要 调整 RAID 的 话 , 还 需要 重启 主机 等 ， 

会 影响 主机 应 用 。 如 果 做 到 了 磁盘 箱 中 ,那么 在 主机 上 就 不 需要 做 什么 ， 只 要 在 磁盘 箱 

中 做 完 之 后 连接 到 主机 ， 主 机 重启 之 后 或 者 不 用 重启 就 能 认 到 新 逻辑 盘 了 。 

经 过 多 次 实验 ,终于 做 成 了 一 个 设备 。 少 年 把 这 种 自 带 RAID 控制 器 的 磁盘 箱 叫 做 “磁盘 阵 
列 ”。 自 此 在 江湖 上 有 了 一 个 不 成 文 的 规定 ， 凡 是 JBOD 都 叫做 磁盘 柜 ， 凡 是 自 带 RAID 控制 器 
的 盘 柜 就 叫做 磁盘 阵列 或 者 盘 阵 。 盘 柜 和 盘 阵 ， 前 者 只 是 一 串 外 置 的 磁盘 ， 而 后 者 自 带 RAID 控 
制 器 。 图 6-2 为 JBOD 磁盘 柜 实物 图 。 


盘 阵 是 在 盘 柜 的 基础 上 , 将 内 部 的 磁盘 经 过 其 自 带 的 RAID 控制 器 的 分 分 合 合 ,虚拟 化 成 逻 
辑 磁盘 ， 然 后 经 过 外 部 SCSI 接口 连接 到 主机 上 端的 SCSI 接口 。 此 时 ， 整个 可 阵 对 于 主机 来 说 , 
就 是 主机 SCSI 总 线 上 的 一 个 或 者 多 个 设备 , 具有 一 个 或 者 多 个 SCSI ID。 所 有 届 辑 磁盘 都 以 LUN 
的 形式 呈现 给 主机 。 
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如 图 6-3 所 示 ， 盘 阵 中 的 SCSI 控制 器 在 逻辑 上 有 两 个 部 分 ， 右 边 的 S2 控制 器 连接 了 一 条 
SCSI 总 线 ， 上面 有 若干 磁盘 。 左 边 的 S1 控制 器 同样 也 连接 了 一 条 SCSI 总线, 但 是 上 面 只 有 两 个 
设备 : 一 个 就 是 主机 SCSI 控制 器 ， 另 一 个 就 是 它 自 己 。 


scsi 接 [ -~ 


图 6-2 JB0D 磁盘 柜 实物 图 图 6-3 带 RAID 控制 器 的 磁 僵 阵列 示意 图 
毫 无 疑问 ， 在 左边 的 SCSI 总 线 上 ， 盘 阵 SCSI 控制 器 是 作为 Target 模式 ,被 主机 SCSI 控制 
器 操控 ， 处 于 被 动 地 位 ; 在 右边 的 SCSI 总 线 上 ， 盘 阵 的 S2 控制 器 成 了 Initiator 模式 ， 它 在 右边 
总 线 上 占据 主动 权 ， 拥 有 最 高 优先 级 ， 而 各 个 磁盘 均 为 SCSI Target， 受 控 于 Initiator。 当 然 S1 和 
S2 不 一 定 就 是 两 块 物理 上 分 开 的 芯片 , 很 有 可 能 就 是 一 块 单独 的 芯片 逻辑 地 分 成 两 个 部 分 。 甚 至 
有 可 能 将 RAID 芯片 和 SCSI 控制 器 芯片 全 部 集成 到 一 个 大 芯片 中 。 


图 6-4 所 示 的 是 一 个 SATA 盘 阵 控制 器 的 主板 示意 图 。 


人 
ki 
产 
起 
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图 6-5 所 示 的 是 一 个 小 型 盘 阵 控制 器 的 内 部 实物 


图 6-5 ”一 个 小 型 控制 器 实物 图 
图 6-6 所 示 的 是 一 台 盘 阵 的 磁盘 插 槽 实物 图 。 
图 6-7 所 示 的 为 这 台 盘 阵 的 电源 模块 插 模 。 


图 6-6 磁盘 插 模 、 背 板 图 6-7 电源 模块 插 术 


6.3 ”独立 宣言 一 一 独立 的 外 部 磁盘 阵列 


主机 由 于 肚 量 太 小 容 不 下 想法 太 多 的 磁盘 ! 终于 磁盘 从 主机 内 部 跑 出 来 了 ， 磁 盘 们 在 外 置 的 
大 箱子 里 ， 在 RAID 控制 器 的 带领 下 ， 欣 欣 向 荣 ， 勇 往 直 前 ! 

磁盘 和 控制 器 发 布 了 独立 宣言 ， 彻 底 摆脱 了 主机 的 束缚 ,成 为 与 主机 对 峙 的 一 个 独立 的 外 部 
设备 。 从 此 以 后 ， 存 储 技术 才 真 正 的 成 为 一 个 独立 的 庞大 学 科 ， 并 不 断 发 展 壮 大 。 本 书后 面 的 章 
节 会 介绍 更 多 的 存储 技术 ， 包 括 存储 网 络 和 网 络 存储 。 


1. 前 端 和 后 端 


对 于 盘 阵 来 说 , 图 6-3 中 RAID 控制 器 的 左边 就 称 为 “前 端 ”,， 右边 则 称 为 “后 端 ”。 面 向 
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主机 对 外 提供 服务 的 就 叫 前 端 ， 面 向 自己 管理 的 磁盘 用 于 内 部 管理 而 外 部 不 需要 了 解 的 部 分 就 叫 
做 后 端 。 同 样 ， 对 于 主机 来 说 ， 它 的 SCSI 适配器 反而 成 了 后 端 ， 而 以 太 网 卡 可 能 变 成 了 前 端 。 
因为 对 于 主机 来 说 ， 直 接 面 对 外 部 客户 机 的 是 以 太 网 ， 而 管理 磁盘 的 工作 不 必 对 客户 说 明 ， 所 以 
变 成 了 后 端 。 


2. 内 部 接口 和 外 部 接口 


对 于 盘 阵 来 说 , 还 有 一 个 内 部 接口 和 外 部 接口 的 概念 。 内 部 接口 是 指 盘 阵 RAID 控制 器 连接 
其 内 部 磁盘 时 用 的 接口 ， 比 如 可 以 连接 IDE 磁盘 、SCSI 磁盘 、SATA 磁盘 和 FC 磁盘 等 。 外 部 接 
口 是 指 盘 阵 控制 器 对 于 主机 端 ， 也 就 是 前 端 ， 提 供 的 是 什么 接口 ， 比 如 SCSI 接口 、FC 接口 等 。 
内 部 接口 可 以 和 外 部 接口 相同 ， 比 如 内 部 用 SCSI 磁盘 ， 外 部 也 用 SCSI 接口 连接 主机 ， 这 种 情况 
也 就 是 图 6-3 中 所 示 的 情况 。 

内 外 接口 也 可 以 不 同 , 比如 内 部 连接 IDE 磁盘 ,外 部 却 用 SCSI 接口 连接 主机 ( 仅 限于 盘 阵 ， 
盘 柜 必须 内 外 接口 一 致 ) 。 盘 阵 控制 器 是 一 个 虚拟 化 引擎 ， 它 的 前 端 和 后 端 可 以 不 一 致 ， 它 可 以 
向 主机 报告 其 有 多 少 LUN， 尽 管内 部 的 磁盘 是 IDE 的 。 


3. 多 外 部 接口 


同时 ， 我 们 也 不 要 被 盘 阵 上 为 什么 可 以 有 多 个 外 部 SCSI 接 口 而 感到 困惑 。 有 多 个 接口 是 为 了 
连接 多 台 主 机 用 的 。 每 个 由 盘 阵 RAID 控制 器 生成 的 逻辑 磁盘 , 可 以 通过 设置 只 分 配 ( Assign/Map ) 
到 其 中 一 个 口 ， 比 如 LUN1 被 分 配 到 了 1 号 口 ， 那 么 连接 到 2 号 口 的 主机 就 不 会 看 到 这 个 LUN。 
也 可 以 把 一 个 LUN 同时 分 配 (或 叫做 Map， 映 射 ) 到 两 个 口 ， 那 么 两 台 主机 能 同时 识别 出 这 个 
LUN。 让 两 台 主 机 同时 对 一 个 LUN 写 数据 ， 底 层 是 允许 的 ， 但 是 很 容易 造成 数据 的 不 一 致 ， 除 
非 使 用 集群 文件 系统 ， 或 者 高 可 用 性 系统 软件 的 参与 。 


4. 关于 LUN 


LUN 是 SCSI 协议 中 的 名 词 , 我 们 前 面 也 描述 过 。LUN 是 SCSI ID 的 更 细 一 级 的 地 址 号 , 每 
个 SCSIID (Target ID ) 下 面 还 可 以 有 更 多 的 LUN ID ( 视 ID 字段 的 长 度 而 定 ) 。 对 于 大 型 磁盘 
阵列 来 说 ， 可 以 生成 几 百 甚至 几 千 个 虚拟 磁盘 ， 为 每 个 虚拟 磁盘 分 配 一 个 SCSI ID 是 远 远 不 够 用 
的 。 因 为 每 个 SCSI 总 线 最 多 允许 16 个 设备 接 入 ( 目前 32 位 SCSI 标准 最 大 允许 32 个 设备 ) 。 
要 在 一 条 总 线 上 放置 多 于 16 个 物理 设备 也 是 不 可 能 的 ，LUN 就 是 这 样 一 个 次 级 寻 址 ID。 磁 盘 阵 
列 可 以 在 一 个 SCSIID 下 虚拟 多 个 LUN 地 址 , 每 个 LUN 地 址 对 应 一 个 虚拟 磁盘 ， 这 样 就 可 以 在 
一 条 总 线 上 生成 众多 虚拟 磁盘 ， 以 满足 需求 。 

后 来 ， 人 们 把 硬件 层次 生成 的 虚拟 磁盘 ， 统 一 称 为 “LUN”,， 不 管 是 不 是 在 SCSI 环境 下 ， 
虽然 LUN 最 初 只 是 SCSI 体系 里 面 的 一 个 概念 。 而 由 软件 生成 的 虚拟 磁盘 ,统一 称 为 “ 卷 ”, 比 
如 各 种 卷 管理 软件 、 软 RAID 软件 等 所 生成 的 虚拟 磁盘 。 

有 些 盘 阵 配 有 液晶 操控 面板 , 如 图 6-8 所 示 。 而 有 些 低 端的 盘 阵 更 是 在 液晶 面板 周围 加 上 了 
按钮 ， 用 来 对 盘 阵 进行 简单 快速 的 配置 ， 比 如 查看 磁盘 状态 、 设 置 RAID、 划 分 逻辑 磁盘 等 。 这 
种 方式 极其 简化 了 配置 操作 ， 一 般 用 户 通 过 阅读 说 明 书 就 可 以 完成 配置 。 不 过 液晶 屏幕 比较 小 ， 
能 完成 的 功能 不 多 ， 操 作 相 比 用 鼠标 要 麻烦 。 所 以 一 些 盘 阵 提供 了 COM 口 或 者 以 太 网 接口 ， 可 
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以 用 PC 连接 这 些 接口 与 盘 阵 通 信 ， 通 过 仿真 终端 或 Web 界面 就 可 以 对 盘 阵 进行 配置 。 


图 6-8 一 个 带 液 晶 面 板 的 盘 阵 前 视图 
提示 : 用 户 用 PC 与 盘 阵 的 COM 口 或 专用 于 配置 的 以 太 网 接口 连接 ， 完 全 是 为 了 配置 磁 
盘 阵 列 的 各 种 参数 ， 而 不 是 通过 这 些 配 置 专用 接口 从 磁盘 阵列 的 磁盘 上 读 写 数据 


6.4 ”双龙 戏 珠 一 一 双 控制 器 的 高 安全 性 磁盘 阵列 


如 果盘 阵 内 部 只 有 一 个 控制 器 模块 ， 那 么 会 是 一 个 SPOF ( Single Point Of Failure ) ， 即 单 点 
故障 点 。 所 以 一 些 高 端的 盘 阵 内 部 都 有 两 个 控制 器 ， 互 为 元 余 。 分 配给 其 中 一 个 控制 器 的 LUN 
逻辑 卷 ， 可 以 在 这 个 控制 器 因 故 障 失 效 的 时 候 ， 自 动 被 另 一 个 工作 正常 的 控制 器 接管 ， 继 续 处 理 
针对 这 个 LUN 的 读 写 请 求 。 两 个 控制 器 平时 都 管理 各 自 的 LUN， 一 旦 发 现 对 方 故 障 ， 那 么 就 会 
自动 将 所 有 LUN 都 接管 过 来 。 

因为 如 此 ， 两 个 控制 器 之 间 需 要 相互 通信 ， 通 告 对 方 自己 的 状态 以 及 交互 一 些 其 他 的 信息 。 
两 个 控制 器 之 间 可 以 用 PCI 总 线 连 接 ， 也 可 以 用 厂商 自己 设计 的 总 线 来 连接 ， 没 有 统一 标准 。 至 
于 交互 信息 的 逻辑 和 内 容 ， 更 是 因 品 牌 而 不 同 ， 而 没有 标准 来 统一 它们 。 

为 了 避免 单 点 故障 , 给 盘 阵 安装 一 个 额外 的 控制 器 ， 这 个 控制 器 和 原来 的 控制 器 在 它们 后 端 
共享 一 条 或 者 多 条 磁盘 总 线 。 两 个 控制 器 可 以 使 用 Active-Standby 方式 , 也 可 以 使 用 Dual-Active 
的 互 备 方式 连接 。 


1. Active-Standby 

这 种 方式 又 称 HA ( High Availability 方式 ， 高 可 用 性 ) ， 即 两 个 控制 器 中 同一 时 刻 只 有 一 个 
在 工作 ， 另 外 一 个 处 于 等 待 、 同 步 和 监控 状态 。 一 旦 主 控制 器 发 生 故障 ， 则 备份 控制 器 立即 接管 
其 工作 。 


对 于 内 部 为 SCSI 总 线 的 双 控制 器 盘 阵 , 在 机 头 内 部 的 一 条 SCSI 总 线 中 ,两 个 控制 器 可 以 分 
别 占 用 一 个 ID， 这 样 剩 余 14 个 ID 给 磁盘 使 用 。 平 时 只 有 主 控制 器 这 个 ID 作为 Initiator 向 除了 
备份 控制 器 ID 之 外 总 线 上 的 其 他 ID (也 就 是 所 有 磁盘 的 ID ) 来 发 送 指 令 从 而 读 写 数据 。 

同时 备份 控制 器 与 主 控制 器 之 间 保 持 通信 和 缓存 同步 ， 一 旦 主 控制 器 与 备份 控制 器 失去 联 
系 ， 那 么 备份 控制 器 立即 接管 主 控制 器 。 同 时 为 了 预防 脑 分 裂 ( 见 下 文 ) ， 备 份 控制 器 在 接管 之 
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前 需要 通过 某 种 机 制 将 主 控 制 器 断 电 或 者 重启 ， 释 放 其 总 线 使 用 权 ， 然 后 自己 接管 后 端 总 线 和 前 
提示 : 主机 端 必须 用 两 个 SCSI 适配器 分 别 连接 到 盘 阵 的 两 个 控制 器 上 , 才能 达到 宛 余 的 
目的 , 但 是 这 样 做 主机 端 必须 通过 某 种 方式 感知 到 这 种 HA 策略 并 在 故障 发 生 时 切换 。 
目前 ,由 于 SCSI 盘 阵 本 身 比较 低 端 ， 可 接 入 容量 不 大 ， 所 以 没有 双 控 制 器 的 设计 ， 以 上 
文字 只 是 对 HA 机 制 的 一 种 描述 。 但 是 对 于 本 书后 面 要 讲述 的 FC 盘 阵 来 说 , 使 用 双 控 制 
器 以 及 在 主机 端 使 用 双 FC 适 配 卡 是 非常 普遍 的 


2. Dual-Active 


顾名思义 ， 这 种 双 控 制 器 的 实现 方式 是 两 个 控制 器 同时 在 工作 ,每 个 控制 器 都 对 所 有 后 端的 
总 线 有 通路 ， 但 是 每 个 总 线 平 时 只 被 其 中 一 个 控制 器 管理 ， 另 一 个 控制 器 不 去 触动 。 可 以 将 后 端 
一 半数 量 的 总 线 交 由 一 个 控制 器 管理 , 另 一 半 交 由 另外 一 个 控制 器 管理 。 一 旦 其 中 一 个 控制 损坏 ， 
则 另外 一 个 控制 器 接管 所 有 总 线 。 这 各 方式 比 Active-Standby 方式 高 效 很 多 。 


3. 脑 分 裂 ( Split Brain ) 


这 个 词 明显 有 点 恐怖 。 设 想 一 下 ， 如 果 某 时 刻 连接 两 个 控制 器 之 问 的 通路 出 现 了 问题 ， 而 不 
是 其 中 某 个 控制 器 死机 , 此 时 两 个 控制 器 其 实 都 是 工作 正常 的 , 但 是 两 者 都 检测 不 到 对 方 的 存在 ， 
所 以 两 者 都 尝试 接管 所 有 总 线 ， 这 时 候 就 是 所 谓 的 “ 脑 分 裂 ”， 即 同时 有 两 个 活动 控制 器 来 操控 
所 有 后 端 设备 。 这 种 情况 是 可 怕 的 ， 类 似 精 神 分 裂 症 。 

如 何 预防 这 种 情况 呢 ? 通常 做 法 是 利用 一 个 仲裁 者 来 选择 到 底 使 用 哪 一 个 控制 器 接管 所 有 
总 线 ， 比 如 用 一 两 个 控制 器 都 能 访问 到 的 磁盘 ， 控 制 器 向 其 上 写 入 自己 的 仲裁 信息 。 一 旦 发 生 脑 
分 裂 ， 二 者 就 参考 这 个 磁盘 ， 谁 最 后 写 入 了 信息 就 把 控制 权 给 谁 。 或 者 用 一 种 电源 控制 器 ， 一旦 
其 中 某 个 控制 器 要 接管 ， 那 么 不 管 对 方 是 确实 发 生 故 障 了 还 是 正常 的 ， 这 个 控制 器 都 会 向 电源 控 
制 器 发 送信 号 ， 让 对 方 重启 并 进入 Standby 状态 ， 这 样 就 成 功 地 预防 了 脑 分 裂 。 

接管 了 总 线 的 控制 器 一 般 都 会 对 总 线 上 所 有 磁盘 进行 SCSI Reserve 操作 , 即 预订 操作 。 总 线 
上 所 有 目标 设备 一 旦 被 预订 ,它们 便 不 再 接受 其 他 控制 器 的 IO 请 求 。SCSI2 标 准 中 的 SCSI Reserve 
不 允许 其 他 控制 器 读 写 被 原 有 控制 器 预订 的 设备 ,但 是 SCSI 3 中 的 Reserve 策略 有 了 一 些 灵活 性 ， 
可 以 允许 其 他 控制 器 对 已 经 被 预订 的 目标 设备 进行 读 1O， 而 写 IO 则 被 拒绝 。 

图 6-9 所 示 的 是 一 双 控制 器 盘 阵 机 头 示意 图 。 


scsi 接 | ~ 


| am amen 


图 6-9 双 控 制 器 磁盘 阵列 示意 图 


第 6 章 阵列 之 行 一 一 大 话 磁盘 阵列 @ 
提示 : 实际 中 ， 由 于 SCSI 盘 阵 比较 低 端 ， 一 般 没 有 这 种 设计 模式 的 产 相 


6.5 ”龙头 凤 尾 一 一 连接 多 个 扩展 柜 


一 条 SCSI 总 线 最 多 可 以 连接 15 块 磁盘 ,为 了 这 15 块 磁盘 ,大 动 干戈 地 赋予 两 个 昂贵 的 RAID 
控制 器 ， 有 点 不 值 。 为 了 把 这 两 个 控制 器 充分 利用 起 来 ,榨取 最 后 一 滴 性 能 ，15 块 磁盘 不 够 , 那 
就 再 加 。 前 面 说 过 ， 一 个 控制 器 上 可 以 有 多 个 通道 ， 一 个 通道 下 面 就 是 一 条 SCSI 总 线 ， 那 么 将 
盘 阵 的 每 个 控制 器 上 再 多 接 一 个 或 者 两 个 通道 ， 来 充分 发 挥 它 的 能 力 ， 这 样 就 比较 实惠 了 。 如 图 
6-10 所 示 ， 这 台 i Ek 肖 磁 盘 柜 接口 。 


灾 口 
人 


图 6-10 带 有 一 个 扩展 外 部 磁盘 通道 接口 的 控制 器 示意 图 
通道 建 好 之 后 ， 下 一 步 就 是 要 扩充 磁盘 数量 了 。 当 然 , JBOD 就 成 了 最 佳 选择 。 
图 6-11 所 示 的 盘 阵 的 每 个 控制 器 上 多 出 一 个 额外 的 磁盘 通道 接口 , 这 个 接口 露 在 机 箱 外 面 ， 
用 线 缆 连 接 了 一 个 JBOD 扩展 柜 。 


JBOD 扩 展柜 


机 头 


以 太 口 


图 6-11 外 接 一 个 JB0D 扩展 柜 的 磁盘 阵列 
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经 过 这 样 的 改造 ， 可 连接 的 磁盘 数量 成 倍增 长 。 图 中 所 示 的 是 每 个 控制 器 增加 了 一 个 磁盘 通 
道 , 还 可 以 增加 到 两 个 或 者 多 个 通道 。 理论 上 ， 只 要 RAID 控制 器 处 理 速 度 够 强 ， 总 线 带宽 和 面 
板 上 空间 够 大 ， 多 增加 几 个 通道 都 没 问题 。 

JBOD 盘 柜 以 前 只 有 一 个 外 部 接口 ， 为 了 配合 双 控 制 器 ，JBOD 在 其 外 部 也 增加 了 一 个 接口 

用 来 连接 元 余 的 控制 器 。 这 样 ， 扩 展柜 上 也 有 两 个 外 部 接口 了 。 
把 带 有 控制 器 的 磁盘 柜 称 作 “机 头 ”， 因 为 它 就 像 火车 头 一 样 ， 是 提供 动力 的 。 机 头 里 可 以 
有 磁盘 ， 也 可 以 根本 不 含 磁盘 。 把 用 于 扩展 容量 用 的 JBOD 叫做 “扩展 柜 ”， 它 就 像 一 节 节 火 车 
车 厢 ， 本 身 没 有 动力 ， 全 靠 车 头 带 ， 但 是 基本 的 供电 和 冷却 系统 还 是 要 有 的 。 图 6-12 所 示 的 是 
IBM 的 DS400 盘 阵 机 头 后 视图 , 每 控制 器 提供 3 个 通道 ,机 头 内 部 的 磁盘 占用 一 个 ， 然 后 另外 两 
个 提供 扩展 , 在 后 面板 上 给 出 两 个 SCSI 接口 。 图 中 Expansion ports 所 示 的 就 是 这 两 个 SCSI 接 口 。 
右边 空白 的 地 方 是 用 来 接 入 另外 一 个 控制 器 的 ， 这 个 控制 器 是 可 选 组 件 。 


Management Host Ports Expansion Ports 
Connector (1 and2) (1 and 2) RAID controller 
filler panel 


(Side B) 
图 6-12 DS400 人 盘 阵 的 机 头 后 视图 
图 6-13 是 用 于 连接 DS400 机 头 的 扩展 柜 EXP400。 可 以 看 到 它 的 左右 各 有 一 个 接口 模块 ， 
每 个 模块 上 有 一 个 SCSI 接口 用 来 连接 机 头 。 


SSSICSornmector 2 SCSISornector 1 
ESM 8 Esm 名 


图 6-13 EXP400 扩 展柜 的 后 视图 


6.6 ”锦上添花 一 一 完整 功能 的 模块 化 磁盘 阵列 


再 后 来 ， 机 头 做 的 都 比较 漂亮 ， 而 且 感觉 很 厚实 。 但 是 卫 OD 就 是 一 推 磁盘 ， 显 得 和 机 头 有 
些 不 搭配 。 所 以 也 给 扩展 柜 增加 了 所 谓 的 模块 ， 不 仔细 看 的 话 ， 外 观 和 机 头 没 多 大 区 别 。 只 不 过 
扩展 柜 的 模块 上 ,没有 RAID 控制 器 的 功能 ， 但 是 会 加 上 一 些 其 他 功能 ， 如 探测 磁盘 温度 等 二 线 
辅助 功能 。 这 个 模块 将 接口 、 功 能 芯片 、 电 路 等 都 集成 在 一 个 板子 上 ， 所 以 外 观 和 机 头 差不多 。 
图 6-14 所 示 的 ESM 模块 ， 就 是 实现 这 些 功能 的 插 板 。 图 6-15 中 所 示 的 是 一 个 磁盘 扩展 柜 
的 实物 后 视图 ， 可 以 看 到 上 下 两 个 模块 ， 这 两 个 模块 不 但 负责 链 路 通信 ， 还 负责 收集 设备 各 处 的 
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传感器 发 来 的 信息 。 

图 6-14 为 一 台 盘 阵 的 前 视图 。 图 6-15 是 一 台 FC 接口 的 扩展 柜 后 视图 ， 可 以 看 到 上 下 两 个 
ESH ( Electrical Switch Hub ) 模块 。 这 些 磁 盘 扩 展柜 上 的 模块 中 主要 包含 单片机 或 者 DSP 芯片 、 
FC-AL 半 交 换 逻 辑 处 理 以 及 其 他 功能 的 FPGA/ASIC/CPLD 芯片 、SFP 适配器 编码 芯片 、ROM 
或 者 Flash 芯片 (存放 Firmware ) 、RAM 缓存 芯片 (用 于 存放 芯片 执行 程序 时 所 需 的 数据 ) 等 ， 
视 设计 不 同 而 定 。 如 果 有 新 的 Firmware 被 开发 出 来 , 可 以 将 程序 逻辑 写 入 Flash 或 ROM 芯片 中 ， 
这 个 过 程 就 是 固件 升级 。FPGA/CPLD 等 芯片 需要 用 外 置 的 编程 器 写 入 新 的 电路 逻辑 。ASIC 芯片 
不 可 升级 ， 是 固定 逻辑 的 芯片 ， 适 用 于 成 熟 的 、 量 产 的 芯片 ， 比 如 SFP 编码 芯片 等 。 


图 6-14 一 个 扩展 柜 的 前 视图 图 6-15 一 个 磁盘 扩展 柜 的 后 视图 
图 6-16 为 扩展 柜上 的 一 个 ESH2 模块 的 内 部 实物 图 。 


图 6-16 ESH2 模块 实物 图 


6.7 ”一脉相承 一 一 主机 和 磁盘 阵列 本 是 一 家 


1. 盘 阵 ( 磁盘 阵列 ) 控制 器 的 主机 化 
随 着 人 们 需求 的 不 断 提 高 ， 一 个 存储 系统 拥有 几 TB 甚至 几 十 几 百 TB 的 容量 已 经 不 是 什么 


惊人 的 事情 了 。 面 对 如 此 大 的 容量 和 如 此 多 的 磁盘 ， 小 小 的 控制 器 已 经 不 能 满足 要 求 了 。 因 此 大 
的 主机 系统 蔡 代 了 短小 精 悍 的 控制 器 。 
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思考 : 可 能 有 人 已 经 不 知 所 措 了 ,用 主机 系统 替代 盘 阵 控制 器 ， 这 不 矛盾 么 ? 盘 阵 是 给 


了 


主机 服务 的 ， 主 机 替代 了 盘 阵 控制 器 ， 岂 不 是 乱 了 辈分 了 ? 


实 并 非 如 此 。 众 所 周知 ， 主 机 系统 的 经 典 架构 就 是 CPU、 内 存 、 总 线 、 各 种 IO 设备 和 


CPU 
内 存 、 


器 就 是 一 个 简单 的 主机 系统 。 
既然 这 样 ， 完 全 可 以 用 一 台 主 机 服务 器 来 充当 存储 系统 的 控制 器 。 比 如 , 在 这 台 主机 上 插入 


几 张 SCSI 卡 作为 前 端 接口 卡 ， 再 插入 若干 SCSI 卡 作为 后 端 连 接 磁 盘 箱 的 接口 卡 ， 然 后 设计 软件 
从 /向 后 端 读 写 数 据 ， 经 过 处 理 或 者 虚拟 化 之 后 ， 再 传送 给 前 端的 主机 服务 器 。 


执行 的 代码 〈 软件 ) ， 而 观察 一 下 盘 阵 控制 器 的 基本 架构 ， 如 了 AID 控制 器 芯片 (CPU ) 、 
总 线 、IO 接口 (SCSI 接 口 等 ) 和 RAID 芯片 执行 的 代码 (软件 ) ， 就 可 以 发 现 盘 阵 控制 


前 有 两 种 趋势 : 一 种 是 趋向 使 用 现成 的 主机 来 充当 控制 器 的 载体 ， 另 一 种 是 趋向 使 用 高 集 


成 度 的 芯片 作为 控制 器 的 核心 。 两 种 趋势 各 有 利弊。 


到 6-17 所 示 的 是 一 台 主 机 化 的 磁盘 阵列 实物 图 。 


图 6-17 主机 化 的 盘 阵 控制 器 


2. 盘 阵 的 类 型 
按照 前 端 和 后 端 接口 来 分 ， 有 SCSI-EFC 盘 阵 、FC-EFC 盘 阵 、SATA-EFC 盘 阵 、SCSI-SCSI 


盘 阵 等 类 型 。 SCSI-FC 类 型 表示 后 端 接口 为 SCSI 接口 ,前端 用 于 连接 主机 的 为 FC 接口 , 也 就 是 


后 端 为 SCSI 磁盘 ， 前 端 为 FC 接口 的 盘 阵 。 


我 们 在 后 面 会 讲 到 FC-FC 盘 阵 , 这 也 是 目前 最 高 端的 盘 阵 所 采用 的 架构 。 图 6-18 所 示 的 就 


是 一 台大 型 FC 磁盘 阵列 的 透视 图 ， 图 示 中 一 共 5 个 机 柜 ， 中 间 的 机 柜 整 柜 都 为 控制 器 ， 上 方 可 
见 一 排 IO 插 卡 ， 揪 卡 上 方 为 9 个 风扇 。 其 余 机 柜 中 均 为 磁盘 扩展 柜 。 
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人 


图 6-18 EMC DMX 系列 盘 阵 透 视图 


6.8 天罗地网 一 一 SAN 


存储 区 域 网 络 

大 家 来 看 最 后 一 张 图 片 ， 如 图 6-19 所 示 。 我 们 一 开始 描绘 的 那 张 “网 中 有 网 ”的 图 片 ， 现 
在 大 家 应 该 能 更 深刻 地 理解 了 。 网 络 ， 不 仅仅 指 以 太 网 、TCP/IP 网 ， 可 以 是 SCSI 网 、PCI 总 线 
网 、USB 网 等 。RAID 控制 器 ， 就 相当 于 一 个 路 由 器 ， 也 就 是 协议 转换 器 。 
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主机 


SCSI HuB | 


磁盘 阵列 机 头 


磁盘 阵列 扩展 柜 


图 6-19 网 中 有 网 
将 磁盘 放 到 了 主机 外 部 ， 存 储 设备 和 主机 之 问 ， 就 形成 了 又 一 个 独立 的 网 络 : 存储 区 域 网 络 
( Storage Area Network，SAN ) 。 


数据 就 是 在 这 种 网 络 中 来 回 穿梭 ， 格 式 不 断 被 转换 和 还 原 。 
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第 DD 章 


降 龙 传说 一 一 
RAID、 虚 拟 磁盘 、 卷 和 文件 系统 实战 


"RAID 卡 
"” 软 RAID 
”虚拟 磁盘 
"， 卷 
”文件 系统 


七 星 大 侠 将 七 星 北 斗 阵 式 永 传 于 世 , 虽然 其 思想 博大 
精深 , 但 是 并 没有 给 出 如 何 去 具 体 地 实现 这 七 种 阵 式 。 但 
没有 关系 , 有 了 正确 的 思想 才能 更 好 地 指导 实践 。 人 们 根 
据 七 星 北斗 的 思想 ， 发 明了 各 种 各 样 的 RAID 实现 方式 。 

然而 ,实现 了 各 种 RAID， 许 多 问题 也 随 之 而 来 ， 且 
看 人 们 是 怎么 运用 各 种 手段 来 解决 这 些 问题 的 。 
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5.1 操作 系统 中 RAID 的 实现 和 配置 


有 人 直接 在 主机 上 编写 程序 ， 运 行 于 操作 系统 底层 ， 将 从 主机 SCSI 或 者 IDE 控制 器 提交 上 
来 的 物理 磁盘 , 运用 七 星 北斗 的 思想 , 虚拟 成 各 种 模式 的 虚拟 磁盘 , 然后 再 提交 给 上 层 程序 接口 ， 
如 卷 管 理 程序 。 这 些 软件 通过 一 个 配置 工具 ， 让 使 用 者 自行 选择 将 哪些 磁盘 组 合 起 来 并 形成 哪 种 
类 型 的 RAID。 

比如 ， 某 台 机 器 上 安装 了 两 块 IDE 磁盘 和 4 块 SCSI 磁盘 ，IDE 硬盘 直接 连接 到 主板 集成 的 
IDE 接口 上 , SCSI 磁盘 则 是 连接 到 一 块 PCI 接口 的 SCSI 卡 上 。 在 没有 RAID 程序 参与 的 条 件 下 ， 
系统 可 以 识别 到 6 块 磁盘 ， 并 且 经 过 文件 系统 格式 化 之 后 ， 挂 载 到 某 个 盘 符 或 者 目录 下 ， 供 应 用 

安装 了 RAID 程序 之 后 ， 用 户 通 过 配置 界面 ， 先 将 两 块 IDE 磁盘 做 成 了 一 个 RAID 0 系统 。 
如 果 原 来 每 块 IDE 磁盘 是 80GB 容量 ,做 成 RAID 0 之 后 就 变 成 了 一 块 160GB 容量 的 “虚拟 ” 磁 
盘 。 然 后 用 户 又 将 4 块 SCSI 盘 做 了 一 个 RAID 5 系统 ， 如 果 原 来 每 块 SCSI 磁盘 是 73GB 容量 ,4 
块 盘 做 成 RAID 5 之 后 虚拟 磁盘 的 容量 将 约 为 3 块 盘 的 容量 ， 即 216GB。 

当然 , 因为 RAID 程序 需要 使 用 磁盘 上 的 部 分 空间 来 存放 一 些 RAID 信息 , 所 以 实际 容量 将 
会 变 小 。 经 过 RAID 程序 的 处 理 之 后 ， 这 6 块 磁盘 最 终 变 成 了 两 块 虚拟 磁盘 。 如 果 是 在 Windows 
系统 中 , 打开 磁盘 管理 器 只 能 看 到 两 块 硬盘 , 一 块 容量 为 160GB ( 硬盘 1 ) , 另 一 块 容量 为 219GB 
(硬盘 2) 。 之 后 ， 可 以 对 这 两 块 盘 进 行 格式 化 ， 比 如 格式 化 为 NTFS 文件 系统 。 格 式 化 程序 丝毫 
不 会 感觉 到 有 多 块 物理 硬盘 正在 写 入 数据 。 

比如 ， 格 式 化 程序 某 时 刻 发 出 命令 ， 向 硬盘 1 ( 由 两 块 IDE 磁盘 组 成 的 RAID 0 虚拟 盘 ) 的 
LBA 起 始 地 址 10000, 长 度 128， 写 入 内 存 起 始 地 址 某 某 的 数据 。RAID 程序 会 截获 这 个 命令 并 做 
分 析 ， 硬 盘 1 是 一 个 RAID 0 系统 ， 那 么 这 块 从 LBA10000 开始 算 起 的 128 个 扇 区 的 数据 ,会 被 
RAID 引擎 计算 , 将 逻辑 LBA 对 应 成 物理 磁盘 的 物理 LBA， 将 对 应 的 数据 写 入 物理 磁盘 。 写 入 之 
后 , 格式 化 程序 会 收 到 成 功 写 入 的 信号 ， 然 后 接着 做 下 一 次 IO。 经 过 这 样 的 处 理 ， 上 层 程序 完全 
不 会 知道 底层 物理 磁盘 的 细节 。 其 他 RAID 形式 也 都 是 相同 的 道理 ， 只 不 过 算法 更 加 复杂 而 已 。 
但 是 即使 再 复杂 的 算法 ， 经 过 CPU 运算 ,也 要 比 磁盘 读 写 速度 快 几 干 几 万 倍 。 

提示 : 为 了 保证 性 能 ， 同 一 个 磁盘 组 只 能 用 相同 类 型 的 磁盘 ， 虽然 也 可 以 设计 成 将 IDE 

磁盘 和 SCSI 磁盘 组 合成 虚拟 磁盘 ， 不 过 除非 特殊 需要 ， 否 则 没有 这 样 设计 的 。 


5.1.1 Windows Server 2003 高 级 磁盘 管理 


下 面 以 Windows Server 2003 企业 版 操作 系统 为 例 ， 示 例 一 下 Windows 是 如 何在 操作 系统 上 
用 软件 来 实现 RAID 功能 的 。 
每 个 例子 的 环境 都 是 一 个 具有 5 块 物理 磁盘 的 PC， 每 块 磁盘 容量 为 100MB。 


1. 磁盘 初始 化 和 转换 


(1 ) 新 磁盘 插入 机 箱 并 启动 操作 系统 之 后 ,打开 磁盘 管理 器 ，Windows 会 自动 弹出 一 个 配置 
新 磁盘 的 向 导 ， 如 图 5-1 所 示 。 


第 5 章 降 龙 传说 一 RAID、 虚 拟 磁盘 、 卷 和 文件 系统 实战 @ 


击 “ 下 一 步 ”按钮 ， 


磁 怠 初始 化 和 特 换 向 导 


出 现 图 


x 
欢迎 使 用 三 盘 初始 化 和 转换 向 导 


me ， 并 格 空 的 芝 本 磁 矢 转换 


SE 
eS 这 而 和 的 郑 上 使 用 


要 继续 ， 请 单 击 “ 下 一 步 ”。 


将 磁盘 转换 为 动态 后 ， 
Windows 2000 


Seo ww | 


5-2 所 示 的 对 话 框 。 


磁 委 初始 化 和 转换 向 导 


和 连 择 要 初始 化 的 磁盘 
磁盘 必须 经 过 初始 化 ， 远 辑 磁 盘 管理 器 才能 访问 


《上 - 步 叫 [下 一步 如 引 。 职 消 


5-1 初始 界面 
(3 ) 单 击 


图 5-2 选择 要 初始 化 的 磁 人 盘 


“下 一 步 ”按钮 ， 初 始 化 所 有 新 磁盘 ， 如 图 5-3 所 示 。 


(4) 单 击 “ 下 一 步 ”按钮 ， 将 所 有 磁盘 转换 为 动态 磁盘 ， 如 图 5-4 所 示 。 所 谓 的 动态 磁盘 就 
是 可 以 用 来 做 RAID 以 及 卷 管理 的 磁盘 。 
辐 EEEzzzpza 国 
过 拉 要 特 执 的 谤 盘 人 正在 完成 磁盘 初始 化 和 转换 向 导 
被 转换 成 动态 磁盘 。 人 y 
您 已 成 功 地 完成 了 磺 盘 初始 化 和 转 扫 向导。 


mcd J) se ZE Wi 
图 5-3 选择 要 转换 的 磁盘 


您 已 这 择 下 列 设置 
EET 1 


要 关闭 这 个 向 导 ， 请 单 击 “ 完 成 


| 
图 5-4 初始 化 磁盘 


(5 ) 单 击 “ 完 成 ” 按钮。 查看 磁盘 管理 关中 一 一 站 
的 状态 ， 如 图 5-5 所 示 。 = ee 
我 们 从 图 5-5 中 可 以 看 到 ,磁盘 0 为 基本 这 wm 
磁盘 ， 同 时 也 是 系统 所 在 的 磁盘 以 及 启动 磁盘 。 中 ls | 
这 个 磁盘 不 能 对 其 进行 软 RAID 或 卷 管理 操作 。 局 
2. 新 建 卷 ed Bs | 
机 攻 人” 上 直击 ， 丰 的 让 | 
选择 “新 建 卷 ”命令 , 如 图 5-6 所 示 ,系统 弹出 后。 ed 
“新 建 卷 向 导 ” het 以 选择 要 创建 的 卷 的 类 区。 8 | = 
型 ， 如 图 5-7 所 示 。 sels 


图 5-5 磁盘 状态 
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= EE 


有 五 个 交 措 的 郑 。 芥 车 、 跨越， 天 区 、 策 尖 和 BAID-5。 1 


图 5-6 选择 “新 建 卷 命令 
这 里 有 5 个 选项 ， 下 面 分 别 介绍 。 
， ”简单 卷 : 指 卷 将 按照 磁盘 的 顺序 依次 分 配 空间 。 简 单 卷 与 磁盘 分 区 功能 类 似 ， 卷 空间 只 
能 在 一 块 磁盘 上 分 配 ， 并 且 不 能 交叉 或 者 乱 序 。 
。 ” 跨 区 卷 : 跨 区 卷 在 简单 卷 的 基础 上 ,可 以 让 一 个 卷 的 空间 跨越 多 块 物理 磁盘 。 相 当 于 不 
做 条 带 化 的 RAID 0 系统 。 
，。 ” 带 区 卷 : 带 区 卷 相当 于 条 带 化 的 RAID 0 系统 。 
" ”镜像 卷 : 镜像 卷 相当 于 RAID 1 系统 。 
" ”RAID-5 卷 : 毫 无 疑问 ， 这 种 方式 就 是 实现 一 个 RAID 5 卷 。 
图 5-8 做 的 是 一 个 大 小 为 101MB 的 简单 卷 ， 也 就 是 将 物理 磁盘 1 全 部 容量 划分 给 这 个 卷 。 
可 以 发 现 ， 简 单 卷 只 能 在 一 块 物理 磁盘 上 划分 ， 图 中 “添加 ”按钮 是 灰色 的 ， 证 明 不 能 跨越 多 块 
磁盘 。 


图 5-7 选择 卷 类 型 


我 们 再 来 看 看 跨 区 卷 ， 如 图 5-9 所 示 。 


图 5-8 划分 大 小 
跨 区 卷 允许 卷 容量 来 自 多 个 硬盘 , 并 且 可 以 在 每 个 硬盘 上 选择 部 分 容量 而 不 一 定 非 要 选择 全 
部 容量 。 在 此 ， 我 们 将 全 部 容量 划分 给 这 个 卷 ， 卷 总 容量 为 200MB， 如 图 5-10 所 示 。 


建 好 的 跨 区 卷 ,将 用 紫色 来 表示 。 此 外 , 还 可 以 灵活 地 扩展 这 个 卷 的 容量 ， 如 图 5-11 所 示 。 


图 5-9 跨 区 卷 
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图 5-10 跨 区 卷 状态 图 5-11 扩展 容量 
向 这 个 卷 中 再 添加 一 块 磁盘 “磁盘 3”， 如 图 5-12 所 示 。 
加 完 之 后 这 个 卷 的 容量 就 被 扩充 到 了 300MB， 如 图 5-13 所 示 。 


扩展 卷 向 导 


选择 磁盘 
炮 可 以 用 至 少 一 个 动态 碍 茹 上 的 空间 采 扩 展 卷 。 


图 5-12 增加 一 块 物理 磁盘 图 5-13 扩容 后 的 卷 
3. 删除 卷 
如 图 5-14 所 示 ， 可 以 任意 删除 卷 。 
下 面 用 磁盘 1 的 前 50MB 的 容量 和 磁盘 2 的 全 部 容量 来 做 一 个 跨 区 卷 ， 如 图 5-15 所 示 。 


EGE 


二 sg ma | 
图 5-14 删除 卷 图 5-15 灵活 地 划分 尺寸 


做 好 后 的 卷 如 图 5-16 所 示 。 此 外 ,磁盘 1 剩余 的 51MB 容量 还 可 以 再 新 建 卷 ， 如 图 5-16 
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图 5-16 剩余 空间 可 以 新 建 卷 
4. 带 区 卷 


下 面 我 们 来 做 一 个 带 区 卷 ， 即 条 带 化 的 RAID 0 卷 ， 选 择 用 磁盘 1 和 磁盘 2 中 各 30MB 的 容 
量 来 做 一 个 60MB 的 卷 ， 如 图 5-17 和 图 5-18 所 示 。 


外。 
导演 
1 
di 
图 5-17 带 区 郑 图 5-18 带 区 大 的 状态 
做 好 之 后 的 带 区 卷 会 用 绿色 标识 。 


5. 镜像 郑 


我 们 再 来 做 一 个 镜像 卷 ， 即 RAID 1 卷 ， 选 择 用 磁盘 1 和 磁盘 2 中 各 40MB 的 容量 来 做 一 个 
40MB 的 卷 ， 如 图 5-19 和 图 5-20 所 示 。 


做 好 后 的 镜像 卷 会 用 棕色 标识 。 


图 5-19 镜像 卷 图 5-20 镜像 卷 的 状态 
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6. RAID 5 类 型 的 卷 


最 后 , 我 们 来 做 一 个 RAID 5 类 型 的 卷 , 可 将 所 有 磁盘 的 各 50MB 空间 做 一 个 卷 , 如 图 


1 
[i 
> 


所 示 ; 然后 再 用 所 有 硬盘 的 20MB 空间 做 一 个 卷 ， 形 成 两 个 RAID 5 卷 。 
做 好 后 的 RAID 5 卷 会 用 亮 绿色 标识 ， 如 图 5-22 所 示 。 


选择 磁盘 
您 可 以 选择 悦 盘 并 为 此 卷 设置 磁 生 大小. 汉 时 i 
人 Fh 
渤 择 要 使 用 的 动态 帮 盘 ,外 后 单 击 “ 添 加， Se 
可 用 四 ; Ei 8): [os 


最 大 可 用 空间 量 mp); = 
选择 空间 量 Wp) EE); 后 El 


| 
图 5-21 创建 RAID 5 卷 
提示 : 做 好 的 任何 卷 均 可 随意 被 删除 ， 如 
图 5-23 所 示 


说 明 : Windows 的 动态 磁盘 管 上 应 
该 算是 一 个 带 有 RAID 功 能 的 关 软件 ， 
而 不 仅仅 是 RAID 软件 。 卷 管理 的 概念 我 


们 在 下 文 会 解释 
5.1.2 ”Linux 下 软 RAID 配置 示例 


下 面 在 一 台 装 有 8 块 物理 磁盘 的 机 器 上 安装 
RedHat Enterprise Linux Server 4 Update 5 操作 系 
统 ， 具 体操 作 过 程 如 下 
(1 ) 选择 手动 配置 磁盘 界面 ， 如 图 5-24 所 
示 。 

(2 ) 可 以 看 到 系统 识别 到 了 8 块 物 理 磁盘 ， 
如 图 5-25 所 示 。 

(3 ) 必须 划分 一 个 /boot 分 区 用 来 启动 基本 
的 操作 系统 内 核 。 用 第 一 块 磁盘 sda 的 
前 100MB 容量 来 创建 这 个 分 区 ， 如 图 
5-26 所 示 。 


本 me1 
3 
各 邮 
Ba 
EN 
础 
3 辐 
Ba 
司 me 3 
Rl 
0 邮 
了 
Me 
es Fa Ea 
wm ne 
I a a | 
es 
a FE pa 
Ee] om a 
2 SR sR | | 


图 5-22 RAID 5 卷 的 状态 


计 [ 9 号 二 

加 本 
| 

a 


图 5-23 删除 了 一 个 RAID 5 卷 


Disk Partitioning 
Setup 


图 5-24 选择 手动 配置 
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Drive dev/sda (1020 MB) (Modek VMware, VMware Virtual S) | [Drve (1020 tk VMware, VMware Virtual S) 各 
= 
下 | Ee 
Drive /dev/sdb (1020 MB) (Modek: VMware, VMware Virtual S) | Drive /dev/sdb (1020 MB) (Modet VMware, VMware Virtual S) 门 
we | Ne 
Drive /dev/sdc (1020 MB) (Modek VMware, VMware Virtual S) (Drive /dev/sdc (1020 
Fe ree HL 
ll024 MB 2 区 MB Mount Point /boot ” I 
New | Em | Daee | Rese [ Rao | wm Ney | § FiesystemIype [ems | Wm 
Mount Point/ Size 和 Drive: sda 习 
Device |RADNoume| TYPe |Foma| ve) | Ser|sd De | szewal i107 电 
- 
HadDives | SanCyinder [1 自 
™ Jdev/sda ¥ Jdev/sda 
Free Free space 1024 1 131 Free ge 
™ Jdev/sdb devsdb | D Forceto be a piman parition U 
Free Free space 1024 1 B31 Free 11 
了 /dev/sde ™ /dev/sde ce | 
Free Free space 1024 1 131 Free ree space soer—1 131 
Jdev/sdd Jdev/sdd 
Free Free space lo4 131 届 Free Free space 1024 111 此 


口 Hide RAID device/LVM Volume Group members 


梧 Back 
识别 到 的 磁盘 列表 


5-25 


software RAID 类 型 ， 如 


到 


5-27 所 示 。 


DD Hide RAID device/LVM Volume Group members 


图 5-26 创建 /boot 分 区 
(4) 在 创建 /boot 分 区 之 后 ,将 SDA 磁盘 剩余 的 分 区 以 及 所 有 剩余 的 物理 磁盘 ， 均 配置 为 


(5 ) 在 将 所 有 磁盘 都 配置 成 software RAID 类 型 之 后 , 单 击 Next 按钮 , 会 打开 RAID Options 
对 话 框 询问 想 要 进行 什么 样 的 操作 ， 如 图 5-28 所 示 。 


Drive 


[dal 
156 Me 


(1020 MB) 上 VMware,VMware Virtual S) 


Drive dev/sdb (1020 MB) (Model: VMware, VMware Virtual S) 


Mount Point: 


ext2 
File System Type: ext3 


What do you wart to do now? | 
New Ed 9| 
Drive: physical volume (LVM) 辣 | OCreate ascfiwae RAID parition 
Device 区 en 门 RAID LM 
¥ Hard Drives ns es San| End 
jdevlsda End Cylinder DO Clone a dive to create a RAID device [default=/devimdOl. 
/dev/sdal /boot| D] Forceto bea all 
Free | | 157 1 2 
™ Jdev/sdb 其 Canca || Sok Taewsaaz sorWare KRU 86 21 130 
Free 了 /devisdb 
Jdev/sde Vdewsdbl sofiware RAID 1020 1 130 
™ /devlsde 
Fee Foe spece 104 i 1 /dew/sdcl sofiware RAID 1020 1 130 图 
™ /dev/sdd | | 
区 | 
口 Hide RAID device/LVM Volume Group members | 口 Hice RAID deviceLVM Vaume Group members 
本 _Back BD Next 梧 Back BP Next 


图 5-27 配置 磁盘 类 型 


Software RAID alows you to combine several dsks into a 
larger RAID device. A RAID device can be configured to 
provide acditional speed and reliability compared to using an 
individual dive For more information on using RAID devices 
please consult the Red H Enterprise Linux AS 
documentation _ 


You cumently have 8 software RAID partition(s) free to use. 


图 5-28 设置 为 RAID 设备 
(6 ) 选中 Create a RAID device [default=/dev/’ md0] 单 选 按 钮 后 单 击 OK 按钮， 系统 弹出 Make 
RAID Device 对 话 框 。 在 对 话 框 的 RAID Device 下 拉 列 表 框 中 ， 可 以 选择 相应 的 RAID 
组 在 操作 系统 中 对 应 的 设备 名 。 在 RAID Level 下 拉 列 表 框 中 ， 可 以 选择 需要 配置 的 
RAID 类 型 。 在 RAID Members 列表 框 中 ， 可 以 选择 RAID 组 中 包含 的 物理 磁盘 。 用 相 
同 的 方法 可 以 做 多 个 不 同类 型 的 RAID 组 ， 如 图 5-29 所 示 。 
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Drive dev/sda (1020 M8) (Model: VMware ,VMware Virtual S) S| 
[aa- az 
lssome lssz me 
Mount Point | ~ 
File System Type: | ext3 bd 
RAID Device | md0 ~ 
[ wm 
RAID Level: RAIDO 国 司 
回 sdaz 863MB 同 加 em| 
RAID Members: sdbl 1020MB 
sdcl 1020MB 
RN 1 20 
Number of spares: 0 于 jj3 2 130 
WW Cancel Sok 
po 110 
™ fevlsde 
/dewsdcl sofware RAID 1020 1130 局 
[I I>] 
口 Hide RAID devicellVM Volume Group members 
梧 Back 区 Next 


图 5-29 创建 对 应 的 Mount 点 
5.2 RAID 卡 


思考 : 软件 RAID 有 三 个 缺点 : @ 占 用 内 存 空 间 ; @ 占 用 CPU 资源 ; @ 软 件 RAID 程序 

无 法 将 安装 有 操作 系统 的 那个 磁盘 分 区 做 成 RAID 模式 ,因为 RAID 程序 是 运行 在 操作 系 

统 之 上 的 ， 所 以 在 启动 操作 系统 之 前 ， 是 无 法 实现 RAID 功能 的 。 也 就 是 说 ， 如 果 操 作 

系统 损坏 了 , RAID 程序 也 就 无 法 运行 , 磁盘 上 的 数据 就 成 了 一 堆 无 用 的 东西 。 因 为 RAID 

磁盘 上 的 数据 只 有 实现 相应 RAID 算法 的 程序 才能 识别 并 且 正 确 读 写 。 如 果 没 有 相应 的 

RAID 程序 ， 则 物理 磁盘 上 的 数据 仅仅 是 一 些 碎片 而 已 ,只 有 RAID 程序 才能 组 合 这 些 碎 

片 。 幸好， 目前 大 多 数 的 RAID 程序 都 会 在 磁盘 上 存储 自己 的 算法 信息 ,一旦 操作 系统 

出 现 了 问题 ,或 者 主机 硬件 出 现 了 问题 ， 就 可 以 将 这 些 磁盘 连接 到 其 他 机 器 上 ， 青 安装 

相同 的 RAID 软件 。RAID 软件 读 取 了 存储 在 硬盘 上 固定 区 域 的 RAID 信息 后 ， 便 可 以 继 

续 使 用 。 

软件 RAID 的 缺点 如 此 之 多 , 使 人 们 不 断 地 思考 更 多 实现 RAID 的 方法 ,既然 软件 缺点 太 多 ， 
那么 用 硬件 实现 如 何 呢 ? 

RAID 卡 就 是 一 种 利用 独立 硬件 来 实现 RAID 功能 的 方法 。 要 在 硬件 上 实现 RAID 功能 ， 必 
须 找 一 个 物理 硬件 作为 载体 ，SCSI 卡 或 者 主板 上 的 南 桥 无 疑 就 是 这 个 载体 了 。 人 们 在 SCSI 卡 上 
增加 了 额外 的 芯片 用 于 实现 RAID 功能 。 这 些 芯 片 是 专门 用 来 执行 RAID 算法 的 ， 可 以 是 ASIC 
这 样 的 高 成 本 高 速度 运算 芯片 , 也 可 以 是 通用 指令 CPU 这 样 的 通用 代码 执行 芯片 , 可 以 从 ROM 
中 加 载 代码 直接 执行 ， 也 可 以 先 载 入 RAM 后 执行 ， 从 而 实现 RAID 功能 。 

实现 了 RAID 功能 的 板 卡 ( SCSI 卡 或 者 IDE 扩展 卡 ) 就 叫做 RAID 卡 。 同样 ， 在 主板 南 桥 
芯片 上 也 可 实现 RAID 功能 。 由 于 南 桥 中 的 芯片 不 能 靠 CPU 来 完成 它们 的 功能 ， 所 以 这 些 芯 片 
完全 靠 电 路 逻辑 来 自己 运算 ,尽管 速度 很 快 , 但 是 功能 相对 插 卡 式 的 RAID 卡 要 弱 。 从 某 些 主板 
的 宣传 广告 中 就 可 以 看 到 ， 如 所 谓 “ 板 载 ”RAID 芯片 就 是 指南 桥 中 有 实现 RAID 功能 的 芯片 。 
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这 样 ， 操 作 系统 不 需要 作 任 何 改动 , 除了 RAID 卡 驱动 程序 之 外 不 用 安装 任何 额外 的 软件 ， 
就 可 以 直接 识别 到 已 经 过 RAID 处 理 而 生成 的 虚拟 磁盘 。 

对 于 软件 RAID， 至 少 操作 系统 最 底层 还 是 能 感知 到 实际 物理 磁盘 的 ， 但 是 对 于 硬件 RAID 
来 说 ,操作 系统 根本 无 法 感知 底层 的 物理 磁盘 ， 而 只 能 通过 厂家 提供 的 RAID 卡 的 管理 软件 来 查 
看 卡 上 所 连接 的 物理 磁盘 。 而 且 ， 配置 RAID 卡 的 时 候 ， 也 不 能 在 操作 系统 下 完成 ， 而 必须 进入 
这 个 硬件 来 完成 (或 者 在 操作 系统 下 通过 RAID 卡 配置 工具 来 设置 ) 。 一 般 的 RAID 卡 都 是 在 开 
机 自 检 的 时 候 ， 进 入 它 的 ROM 配置 程序 来 配置 各 种 RAID 功能 。 

RAID 卡 克服 了 软件 RAID 的 缺点 ,使 操作 系统 本 身 可 以 安装 在 RAID 虚拟 磁盘 之 上 ， 而 这 
是 软件 RAID 所 做 不 到 的 。 


1. RAID 卡 的 结构 


带 CPU 的 RAID 卡 全 然 就 是 一 个 小 的 计算 机 系统 ， 有 自己 的 CPU、 内 存 、ROM、 总 线 和 
IO 接口 ， 只 不 过 这 个 小 计算 机 是 为 大 计算 机 服务 的 。 
图 5-30 为 一 个 RAID 卡 的 架构 示意 图 。 


PC 总线 


Hs 


SCS| 总 线 直 
图 5-30 RAID 卡 结构 示意 图 
SCSI RAID 卡 上 一 定 要 包含 SCSI 控制 器 , 因为 其 后 端 连接 的 依然 是 SCSI 物理 磁盘 。 其 前 端 
连接 到 主机 的 PCI 总 线 上 , 所 以 一 定 要 有 一 个 PCI 总 线 控制 器 来 维护 PCI 总 线 的 仲裁 、 数 据 发 送 
接收 等 功能 。 还 需要 有 一 个 ROM, 一 般 都 是 用 Flash 芯片 作为 ROM， 其 中 存放 着 初始 化 RAID 
卡 必须 的 代码 以 及 实现 RAID 功能 所 需 的 代码 。 
RAM 的 作用 , 首先 是 作为 数据 缓存 , 提高 性 能 ; 其 次 作为 RAID 卡 上 的 CPU 执行 RAID 运 
算 所 需要 的 内 存 空 间 。 XOR 芯片 是 专门 用 来 做 RAID 3、5、6 等 这 类 校 验 型 RAID 的 校 验 数 据 计 
算 用 的 。 如 果 让 CPU 来 做 校 验 计算 ， 需 要 执行 代码 ， 将 耗费 很 多 周期 。 而 如 果 直 接 使 用 专用 的 
数字 电路 ,一 进 一 出 就 立即 得 到 结果 。 所 以 为 了 解脱 CPU， 增 加 了 这 块 专门 用 于 XOR 运算 的 电 
路 模块 ， 大 大 增加 了 数据 校 验 计算 的 速度 。 
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RAID 卡 与 SCSI 卡 的 区 别 就 在 于 RAID 功能 ， 其 他 没有 太 大 区 别 。 如 果 RAID 卡 上 有 多 个 
SCSI 通道 , 那么 就 称 为 多 通道 RAID 卡 。 目 前 SCSI RAID 卡 最 高 有 4 通道 的 , 其 后 端 可 以 接 入 4 
条 SCSI 总 线 ， 所 以 最 多 可 连接 64 个 SCSI 设备 (16 位 总 线 ) 。 

增加 了 RAID 功能 之 后 ,SCSI 控制 器 就 成 了 RAID 程序 代码 的 倪 偶 , RAID 让 它 干什么 , 它 
就 干什么 。SCSI 控制 器 对 它 下 面 掌管 的 磁盘 情况 完全 明了 ， 它 和 RAID 程序 代码 之 间 进 行 通信 。 
RAID 程序 代码 知道 SCSI 控制 器 掌管 的 磁盘 情况 之 后 ,就 按照 RROM 中 所 设置 的 选项 ,比如 RAID 
类 型 、 条 带 大 小 等 , 对 RAID 程序 代码 做 相应 的 调整 , 操控 它 的 倪 偶 SCSI 控制 器 向 主机 报告 “ 虚 
拟 ” 的 逻辑 盘 ， 而 不 是 所 有 物理 磁盘 了 。 


提示 : RAID 思想 中 有 个 条 带 化 的 概念 。 所谓 的 条 带 化 , 并 不 是 真正 的 像 低级 格式 化 一 样 
将 磁盘 划分 成 条 和 带 。 这 个 条 带 化 完全 就 是 在 “心中 ”， 也 就 是 体现 在 程序 代码 上 。 因 
为 条 带 的 位 置 、 大 小 一 旦 设置 之 后 ， 就 是 固定 的 。 一 个 虚拟 盘 上 的 某 个 LBA 地 址 块 ， 就 
对 应 了 真正 物理 磁盘 上 的 一 个 或 者 多 个 LBA 块 ， 这 些 映 射 关系 都 是 预先 通过 配置 界面 设 
定好 的 。 而 且 某 种 RAID 算法 往往 体现 为 一 些 复杂 公式 ， 而 不 是 去 用 一 张 表 来 记录 每 个 
虚拟 磁盘 LBA 和 物理 磁盘 LBA 的 对 应 ,这 样 效率 会 很 差 。 因 为 每 个 10 到 来 之 后 ，RAID 
都 要 查询 这 个 表 来 获取 对 应 物理 磁盘 的 LBA， 而 查询 速度 是 非常 慢 的 ， 更 何况 面 对 如 此 
大 的 一 张 表 。 如果 用 一 个 逻辑 LBA 与 物理 LBA 之 间 的 函数 关系 公式 来 做 运算 , 则 速度 是 
非常 快 的 。 


正 是 因为 映射 完全 通过 公式 来 进行 ,所 以 物理 磁盘 上 根本 不 用 写 入 什么 标志 ， 以 标注 所 谓 的 
条 带 。 条 带 的 概念 只 是 逻辑 上 的 ， 物 理 上 并 不 存在 。 所 以 ， 条 带 等 概念 只 需 “ 记 忆 ” 在 RAID 程 
序 代码 之 中 就 可 以 了 ， 要 改变 也 是 改变 程序 代码 即 可 。 唯 一 要 向 磁盘 上 写 入 的 就 是 一 些 RAID 信 
息 ， 这 样 即使 将 这 些 磁盘 拿 下 来 ， 放 到 同型 号 的 另 一 块 RAID 卡 上 ， 也 能 无 误 地 认 出 以 前 做 好 的 
RAID 信息 。SNIA 协会 定义 了 一 种 DDF RAID 信息 标准 格式 ,要求 所 有 RAID 卡 厂家 都 按照 这 
个 标准 来 存放 RRAID 人 信息， 这样， 所 有 RAID 卡 就 都 通用 了 。 

条 带 化 之 后 , RAID 程序 代码 就 操控 SCSI 控制 器 向 OS 层 驱 动 程序 代码 提交 一 个 虚拟 化 之 后 
的 所 谓 “ 虚 拟 盘 ”或 者 “逻辑 盘 ”， 也 有 人 干脆 称 为 LUN。 


2. RAID 卡 的 初始 化 和 配置 过 程 


所 谓 初始 化 就 是 说 在 系统 加 电 之 后 , CPU 执行 系统 总 线 特定 地 址 上 的 第 一 句 指令 , 这 个 地 址 
便 是 主板 BIOS 芯片 的 地 址 。BIOS 芯片 中 包含 着 让 CPU 执行 的 第 一 条 指令 ，CPU 将 逐条 执行 这 
些 指 令 ， 执 行 到 一 定 阶 段 的 时 候 ， 有 一 条 指令 会 让 CPU 寻 址 总 线 上 其 他 设备 的 ROM 地 址 (如 
果 有 ) 。 也 就 是 说 ， 系 统 加 电 之 后 ，CPU 总 会 执行 SCSI 卡 这 个 设备 上 ROM 中 的 程序 代码 来 初 
始 化 这 块 卡 。 初 始 化 的 内 容 包 括 检测 卡 型 号 、 生 产 商 以 及 扫描 卡 上 的 所 有 SCSI 总 线 以 找 出 每 个 
设备 并 显示 在 显示 器 上 。 在 初始 化 的 过 程 中 ， 可 以 像 进入 主板 BIOS 一 样 ， 进 入 SCSI 卡 自身 的 
BIOS 中 进行 设置 , 设置 内 容 包括 查看 各 个 连接 到 SCSI 总线 上 的 设备 的 容量 、 生 产 商 、 状 态 、SCSI 
ID 和 LUN ID 等 。 


3. 0 通道 RAID 卡 
0 通道 RAID 卡 又 称 为 RAID 子 卡 , 0 通道 的 意思 是 说 这 块 卡 的 后 端 没 有 SCSI 通道 。 将 这 块 
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子 卡 插入 主机 的 PCI 插 槽 之 后 , 它 就 可 以 利用 主板 上 已 经 集成 的 或 者 已 经 插 在 PCI 上 的 SCSI 卡 ， 
来 操控 它们 的 通道 ， 从 而 实现 RAID。 这 个 0 通道 子 卡 ， 也 是 插 到 PCI 上 的 一 块 卡 ， 只 不 过 它 需 
要 利用 主板 上 为 0 通道 子 卡 专门 设计 的 逻辑 电路 ， 对 外 和 SCSI 控制 器 组 成 一 块 RAID 卡 来 用 ， 
只 不 过 这 块 卡 在 物理 上 被 分 割 到 了 两 个 PCI 插 槽 中 而 已 。 

图 5-31 展示 了 0 通道 RAID 子 卡 的 架构 。 在 主板 的 一 个 特定 PCI 插 模 上， 有 一 个 ICR 逻辑 
电路 ， 用 来 截获 CPU 发 送 的 地 址 信号 和 发 给 CPU 
的 中 断 信号 。CPU 发 送 到 这 里 原本 用 来 操控 SCSI 控 
制 器 的 地 址 信号 ， 现 在 全 部 被 这 个 ICR 电路 重 定向 
到 了 RAID 子 卡 处 ,包括 主板 BIOS 初始 载 入 ROM， 
也 不 是 载 入 SCSI 卡 的 ROM 了 ， 而 是 载 入 了 RAID 
子 卡 的 ROM。RAID 卡 完全 接替 了 SCSI 卡 来 面 对 
主机 系统 。RAID 卡 和 SCSI 控制 器 的 通信 ， 包 括 地 
址 信息 和 数据 信息 ， 需 要 占用 PCI 总 线 ， 这 造成 了 
一 定 的 性 能 损失 。 RAID 子 卡 和 SCSI 卡 之 间 的 通信 ， 
不 会 被 ICR 电路 重 定向 。 


4. 无 驱 RAID 卡 


PhotoFast 所 设计 的 一 款 RAID 卡 可 谓 是 比较 创新 ,传统 的 RAID 卡 都 是 使 用 PCIX 或 者 PCIE 
总 线 来 连接 到 计算 机 上 的 ， 但 是 PhotoFast 这 款 RAID 卡 却 是 使 用 SATA 接口 来 连接 到 计算 机 的 ， 
也 就 是 说 ， 这 块 RAID 卡 将 其 上 连接 的 多 块 物理 磁盘 虚拟 成 若干 的 虚拟 磁盘 ， 并 将 这 些 磁盘 通过 
SATA 接口 连接 到 计算 机 ， 计 算 机 就 认为 它 自身 所 连接 的 是 多 块 SATA 物理 磁盘 。 这 样 的 话 ， 这 
块 Raid 卡 就 不 需要 任何 驱动 程序 便 可 被 大 多 数 操作 系统 使 用 ( 多 数 操作 系统 都 自 带 SATA 控制 器 
驱动 程序 ) 。 


5. RAID On Chip (ROC ) 技术 


图 5-31 0 通道 RAID 子 卡 示意 图 


ROC 技术 是 由 Adaptec 公司 推出 的 一 种 廉价 RAID 技术 ， 它 利用 SCSI 卡 上 的 CPU 处 理 芯 
片 ， 通过 在 SCSI 卡 的 ROM 中 加 入 RAID 代码 而 实现 。 

2001 年 ，Adaptec 展示 了 它 的 记 OC 技术 ,在 2003 年 这 一 技术 以 HOStRAID 的 形象 推出 。 
记 OC 也 就 是 RAID on Chip， 实 质 上 就 是 利用 SCSI 控制 芯片 内 部 的 RISC 处 理 器 完成 一 些 简单 
的 RAID 类 型 (RAID 0、1、0+1) 。 由 于 RAID 0、1 和 0+1 需要 的 运算 量 不 大 ， 利 用 SCSI 控 
制 器 内 部 的 RISC 处 理 器 也 能 够 实现 。 在 ROM 代码 的 配合 下 , 通过 座 OC 实现 的 RAID 0、1 或 
0+1 具备 引导 能 力 ， 并 且 可 以 支持 热 备 盘 。 

在 入 门 级 塔 式 服务 器 和 1U 高 度 的 机 架 式 服务 器 中 , 主板 上 通常 会 集成 SCSI 控制 芯片 , 但 不 
标 配 独立 的 RAID 卡 。 认 OC 的 出 发 点 就 是 让 这 些 系统 具有 基本 的 硬件 数据 保护 ， 当 需要 更 为 复 
杂 的 RAID 5 时 再 购买 独立 的 RAID 卡 。 认 OC 的 出 现 给 低 端 服务 器 产品 的 数据 保护 方案 增加 了 
一 个 简易 的 选择 。 认 OC 或 HOSRAID 的 主要 缺点 是 操作 系统 兼容 性 和 性 能 差 , 由 于 没有 专门 的 
RAID 计算 处 理 器 ， 因 此 使 用 这 种 配置 的 RAID 会 在 一 定 程度 上 降低 服务 器 系统 的 性 能 ， 而 且 它 
只 支持 RAID 0、1、0+1， 只 能 支持 几 块 SCSI 盘 做 RAID, 相 比 IDE RAID 0、1、0+1 来 说 特性 
相近 而 成 本 上 却 高 了 很 多 , 此 外 , HOStRAID 技术 在 低 端 还 必然 要 面 对 更 新 、 性 能 更 好 的 S-ATA 
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RAID 的 竞争 。 
6. RAID 卡 上 的 内 存 


RAID 卡 上 的 内 存 ， 有 数据 缓存 和 代码 执行 内 存 两 种 作用 。 

RAID 卡 上 的 CPU 执行 代码 ,当然 需要 RAM 的 参与 了 。 如 果 直 接 从 ROM 中 读 取 代码 , 速 
度 会 受到 很 大 影响 。 所 以 RAID 卡 的 RAM 中 有 固定 的 地 址 段 用 于 存放 CPU 执行 的 代码 。 而 大 
部 分 空间 都 是 用 作 了 下 文 介绍 的 数据 缓存 。 

缓存 ， 也 就 是 缓冲 内 存 ， 只 要 在 通信 的 双方 之 间 能 起 到 缓冲 作用 就 可 以 了 。 我 们 知道 CPU 
和 内 存 之 间 是 L2 Cache， 它 比 内存 RAM 速度 还 要 高 , 但 是 没有 CPU 速度 高 。 同 样 ，RAID 控制 
器 和 磁盘 通道 控制 器 之 间 也 要 有 一 个 缓存 来 适 配 ， 因 为 RAID 控制 器 的 处 理 速度 远 远 快 于 通道 控 
制 器 收集 通道 上 所 连接 的 磁盘 传 出 的 数据 速度 。 这 个 缓存 没有 必要 用 L2 Cache 那样 高 速 的 电路 ， 
而 用 RAM 足 侨 。 因 为 RAM 的 速度 就 足够 适 配 二 者 了 。 

缓存 RAM 除了 适 配 不 同 速率 的 芯片 通信 之 外 , 还 有 一 个 作用 就 是 缓冲 数据 IO。 比如 上 层 发 
起 一 个 IO 请求 , RAID 控制 器 可 以 先 将 这 个 请 求 放 到 缓存 中 排队 ,然后 一 条 一 条 地 执行 , 或 者 优 
化 这 些 IO， 能 合并 的 合并 ， 能 并 发 的 并 发 。 


7. 缓存 的 两 种 写 模式 


对 于 上 层 的 写 IO，RAID 控制 器 有 两 种 手段 来 处 理 ， 内 容 如 下 。 

(1) WriteBack 模式 ， 上层 发 过 来 的 数据 ，RAID 控制 器 将 其 保存 到 缓存 中 之 后 ， 立 即 通知 
主机 IO 已 经 完成 , 从 而 主机 可 以 不 加 等 待 地 执行 下 一 个 IO , 而 此 时 数据 正在 RAID 卡 的 缓存 中 ， 
而 没有 真正 写 入 磁盘 ， 起 到 了 一 个 缓冲 作用 。RAID 控制 器 等 待 空闲 时 ， 或 者 一 条 一 条 地 写 入 磁 
盘 ,或 者 批量 写 入 磁盘 ,或 者 对 这 些 IO 进行 排队 ( 类似 磁盘 上 的 队列 技术 ) 等 一 些 优化 算法 ， 
以 便 高 效 写 入 磁盘 。 由 于 写 盘 速度 比较 慢 ， 所 以 这 种 情况 下 RAID 控制 器 欺骗 了 主机 ,但 是 获得 
了 高 速度 ， 这 就 是 “把 简单 留 给 上 层 ， 把 麻烦 留 给 自己 ”。 这 样 做 有 一 个 致命 缺点 ， 就 是 一 旦 意 
外 掉 电 , RAID 卡 上 缓存 中 的 数据 将 全 部 丢失 , 而 此 时 主机 认为 IO 已 经 完成 , 这 样 上 下 层 就 产生 
了 不 一 致 ， 后 果 将 非常 严重 。 所 以 一 些 关键 应 用 ( 比如 数据 库 ) 都 有 自己 的 检测 一 致 性 的 措施 。 
也 正 因为 如 此 ， 中 高 端的 RAID 卡 都 需要 用 电池 来 保护 缓存 ， 从 而 在 意外 掉 电 的 情况 下 ， 电 池 可 
以 持续 对 缓存 进行 供电 ， 保 证 数据 不 丢失 。 再 次 加 电 的 时 候 ，RAID 卡 会 首先 将 缓存 中 的 未 完成 
的 IO 写 入 磁盘 。 

(2) WriteThrough 模式 : 也 就 是 写 透 模式 ， 即 上 层 的 IO。 只 有 数据 切切 实 实 被 RAID 控制 

写 入 磁盘 之 后 ， 才 会 通知 主机 IO 完成 ， 这 样 做 保证 了 高 可 靠 性 。 此 时 ， 缓 存 的 提速 作用 就 没 
有 优势 了 ， 但 是 其 缓冲 作用 依然 有 效 。 

除了 作为 写 缓存 之 外 ， 读 缓存 也 是 非常 重要 的 。 缓 存 算法 是 门 很 复杂 的 学 问 ， 有 一 套 复 杂 的 
机 制 ， 其 中 一 种 算法 叫做 PreFetch， 即 预 取 ， 也 就 是 对 磁盘 上 接 下 来 “有 可 能 ”被 主机 访问 到 的 
数据 ， 在 主机 还 没有 发 出 读 IO 请 求 的 时 候 ， 就 “擅自 ” 先 读 入 到 缓存 。 这 个 “有 可 能 ”是 怎么 
来 算 的 呢 ? 

其 实 就 是 认为 主机 下 一 次 IO， 有 很 大 几率 会 读 取 到 这 一 次 所 读 取 的 数据 所 在 磁盘 位 置 相 邻 
位 置 的 数据 。 这 个 假设 , 对 于 连续 IO 顺序 读 取 情 况 非 常 适用 ， 比 如 读 取 逻 辑 上 连续 存放 的 数据 ， 


127 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


128 


这 种 应 用 如 FTP 大 文件 传输 服务 、 视 频 点 播 服 务 等 ， 都 是 读 大 文件 的 应 用 。 而 如 果 很 多 碎 小 文件 
也 是 被 连续 存放 在 磁盘 上 相 邻 位 置 的 , 缓存 会 大 大 提升 性 能 ,因为 读 取 小 文件 需要 的 IOPS 很 高 ， 
如 果 没 有 缓存 ， 全 靠 磁头 寻 道 来 完成 每 次 IO， 耗 费时 间 是 比较 长 的 。 

还 有 一 种 缓存 算法 ， 它 的 思想 不 是 预 取 了 ， 它 是 假设 : 主机 下 一 次 IO， 可 能 还 会 读 取 上 一 
次 或 者 上 几 次 (最 近 ) 读 取 过 的 数据 。 这 种 假设 和 预 取 完全 不 一 样 了 ，RAID 控制 器 读 取出 一 段 
数据 到 缓存 之 后 ， 如 果 这 些 数 据 被 主机 的 写 IO 更 改 了 ， 控 制 器 不 会 立即 将 它们 写 入 磁盘 保存 ， 
而 是 继续 留 在 缓存 中 ， 因 为 它 假设 主机 最 近 可 能 还 要 读 取 这 些 数据 ， 既 然 假设 这 样 ， 那 么 就 没有 
必要 写 入 磁盘 并 删除 缓存 ， 然 后 等 主机 读 取 的 时 候 ， 再 从 磁盘 读 出 来 到 缓存 ， 还 不 如 以 静 制 动 ， 
干脆 就 留 在 缓存 中 ， 等 主机 “折腾 ”的 频率 不 高 了 ， 再 写 入 磁盘 。 


提示 : 中 高 端的 RAID 卡 一 般 具 有 256MB 以 上 的 RAM 作为 缓存 。 


8. RAID 配置 完 后 的 初始 化 过 程 


对 于 校 验 型 RAID, 在 RAID 卡 上 设置 完 RAID 参数 并 且 应 用 RAID 设置 之 后 ，RAID 阵列 
中 的 所 有 磁盘 需要 进行 一 个 初始 化 过 程 ， 所 需要 的 时 间 与 磁盘 数量 、 大 小 有 关 。 磁 盘 越 大 ， 数 量 
越 多 ， 需 要 的 时 间 就 越 长 。 


思考 : RAID 卡 都 向 磁盘 上 写 了 什么 东西 呢 ? 大 家 可 以 想 一 下 ， 一 块 刚刚 出 厂 的 新 磁盘 ， 
上 面 有 没有 数据 ? 


有 。 具 体 什么 数据 呢 ? 要 么 全 是 0， 要么 全 是 1。 这 里 所 说 的 全 0 是 指 实际 数据 部 分 ， 扇 区 
0 因为 磁盘 上 的 磁性 区 域 就 有 两 种 状态 , 不 是 N 极 ， 就 是 S 极 。 那 么 也 
就 是 说 不 是 ， 而 不 可 能 有 第 三 种 状态 。 那 么 这 些 0 或 者 1， 算 不 算数 据 呢 ? 当然 要 算 了 ， 
ee 0 和 1 之 间 的 混沌 状态 。 如 果 此 时 用 几 块 磁盘 做 了 RAID 5， 但 磁盘 
上 任何 数据 都 不 做 改动 ,我 们 看 一 下 此 时 会 处 于 一 种 什么 状态 ,比如 5 块 磁盘 ，4 块 数据 盘 空 间 ， 
1 块 校 验 盘 空 间 ， 同 一 个 条 带 上 ，4 块 数据 块 ，!1 块 校 验 块 ， 所 有 块 上 的 数据 都 是 全 0， 那么 此 时 
如 果 按 照 RAID 5 来 算 ， 是 正确 的 ， 因 为 0XOR 0 XOR 0XOR 0XOR 0 = 0， 对。 

如 果 一 开始 磁盘 全 是 1， 那 么 同样 地 1 XOR 1 XOR 1 XOR 1 XOR 1 = 1， 也 对 。 但 是 如 果 
用 6 块 盘 做 RAID 5, 而 且 初始 全 为 1, 情况 就 矛盾 了 。1 XOR 1 XOR 1XOR 1 XOR 1 XOR 1= 
0， 此 时 正确 结果 应 该 是 校 验 块 为 0， 但 是 初始 磁盘 全 部 为 1， 校 验 块 的 数据 也 为 1， 这 就 和 计算 
结果 相 了 矛盾 了 。 

如 果 初 始 化 过 程 不 对 磁盘 数据 进行 任何 更 改 ， 直 接 拿 来 写 数据 ， 比 如 此 时 就 向 第 二 个 extend 
上 写 了 一 块 数据 ， 将 1 变 为 0， 然 后 控制 器 根据 公式 : 新 数据 的 校 验 数据 = ( 老 数 据 EOR 新 数 
据 ) EOR 来 校 验 数据 。 ( 1EOR 0) EOR 1 = 0， 新 校 验 数据 为 0， 所 以 最 终 数 据 变 成 了 这 样 : 
1XOR 0XOR 1 XOR 1 XOR 1 XOR 1。 我 们 算出 它 的 正确 数据 应 该 等 于 1, 而 由 RAID 控制 器 
算 的 却 成 了 0， 所 以 就 矛盾 了 。 

为 什么 会 犯 这 个 错误 呢 ? 那 是 因为 一 开始 RAID 控制 器 就 没有 从 一 个 正确 的 数据 关系 开始 
算 , 校 验 块 的 校 验 数据 一 开始 就 与 数据 块 不 一 致 ,导致 越 算 越 错 。 所 以 RAID 控制 器 在 做 完 设置 ， 
并 启用 之 后 , 在 初始 化 的 过 程 中 需要 将 磁盘 每 个 扇 区 都 写成 0 或 者 1, 然后 计算 出 正确 的 校 验 位 ， 
或 者 不 更 改 数据 块 的 数据 ， 直 接 用 这 些 已 经 存在 的 数据 ， 重 新 计算 所 有 条 带 的 校 验 块 数据 。 在 这 
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个 基础 上 ， 新 到 来 的 数据 才 不 会 被 以 认 传 论 。 
思考 : NetApp 等 产品 ， 其 RAID 组 做 好 之 后 不 需要 初始 化 ,立即 可 用 。 甚 至 向 已 经 有 数 
据 的 RAID 组 中 添加 磁盘 ， 也 不 会 造成 任何 额外 的 ID。 因 为 其 会 将 所 有 Spare 磁盘 清 零 
也 就 是 向 磁盘 发 送 一 个 Zero Unit 的 SCSI 指令 ， 磁 盘 会 自动 执行 清 零 。 用 这 些 磁盘 做 


的 


RAID 组 , 不 需要 校 验 纠正 ,所 以 也 不 需要 初始 化 过 程 , 或 者 说 初始 化 过 程 就 磁盘 
清 零 的 过 程 

关于 Raid 初始 化 过 程 的 更 详细 的 分 析 可 参考 本 书 附录 1 中 的 问 与 答 。 

9. 几 款 RAID 卡 介 绍 


bh Mylex AcceleRAID 352 

双 通道 160M 部 门 级 , 性 能 强悍 ， BIOS 选项 极为 人 性 化 , 在 BIOS 内 可 以 检测 SCSI 硬盘 的 
出 厂 坏 道 及 成 长 坏 道 ,而 不 需 借助 软件 .并 且 人 允许 手动 打开 /关闭 硬盘 设备 自身 的 Read cache/Write 
cache。 还 带 有 电池 。 

详细 信息 如 下 。 

支持 RAID 级 别 : RAID 0、1、0+1、3、5、10、30、50、JBOD. 

" 处理 芯片 : Intel i960RN。 

" ”总 线 类 型 PCI 64b， 兼容 32b。 

s 外 置 接口 : Ultra 160 SCSI。 

， ”数据 传输 速率 ; 最 高 160MB/s。 

， ”外接 设备 数 : 最 多 30 个 SCSI 外 设 。 

， ”内 部 接口 : 双 68 针 六 

"外 部 接口 : 双 68 针 超 高 密 。 

" ”适用 的 操作 系统 : Windows NT 4.0; Windows 2K; NetWare 4.2、5.1; SCO OpenServer 

5.05、 5.0.6; SCO UnixWare 7.1; DOS 6.x and above; Solaris 7 (x86) ; Linux 2.2 kernel 
distributions。 

六 包括 软件 : Storager Manager 、Storager Manager Pro 和 CLI (命令 分 界面 ) 。 

" ”主要 RAID 特性 : 在 线 扩容 、 瞬 时 阵列 可 用 性 (后台 初始 化 ) 、 支 持 SM.A.R.T、 支 持 

SES/SAP~TE。 
图 5-32 和 图 5-33 为 Mylex AcceleRAID 352 卡 实物 图 。 


KA =- 
图 5-33 Mylex AcceleRAID 352 卡 (2) 


图 5-32 Mylex AcceleRAID 352 卡 (1) 
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2 ) LSI MegaRAID Enterprise 1600 (AMI 471) 


4 通道 160MB 企业 /部 门 级 ，160MB 最 为 顶级 豪华 的 SCSI RAID， 强 大 的 BIOS 选项 ( LSI 
独 有 的 Web BIOS ) 。 卡 上 系统 缓存 可 详细 调节 ( 除 大 部 分 SCSI RAID 可 以 调节 的 主要 功能 Write 
back ( 回 写 外 ) ， 增 加 Read ahead ( 预 读 ) ，Cache 1/O 等 可 调 选项 ， 满 足 RAID 的 用 途 需 要 , 体 
现 各 种 RAID 的 最 高 性 能 ， 带 电池 。 

详细 信息 如 下 。 

" ”支持 RAID 级 别 : RAID 0、1、0+1、3、5、10、30、50、JBOD。 

"处理 芯片 : Intel i960RN。 

， ， 插 槽 类 型 : PCI 64b、 兼 容 32b。 

" 总线 速度 : 66MHz。 

”总 线 宽度 : 64b。 

= 外 置 接口 : Ultra 160 SCSI。 

， ”数据 传输 率 : 160MB/s。 

" ”最 多 连接 设备 :32。 

内 部 接口 : 双 68 针 高密 。 

= 外 部 接口 : 四 68 针 超 高 密 。 

= 系统 平台 : Windows 95/98/Me/4.0/2000/XP，Linux ( Red Hat、SuSE、Turbo 、Caldera 

和 FreeBSD ) 。 

图 5-34 为 LSI MegaRAID Enterprise 1600 
卡 实物 图 。 

可 以 看 到 RAID 卡 使 用 的 内 存 就 是 台式 机 
的 SDRAM 内 存 ， 有 些 使 用 DDR SDRAM 内 
存 。 


10. 用 Rocket RAID 卡 做 各 种 RAID 


在 一 张 Rocket RAID 卡 上 ,安装 了 8 块 
IDE 磁盘 。 开 机 之 后 ， 在 启动 界面 按照 相应 提 图 5-34 LSI MegaRAID Enterprise 1600 卡 
示 进 入 RAID 卡 的 设置 界面 , 如 图 5-35 所 示 。 


Cecate? pslsts2 


图 5-35 磁 瞪 列表 
可 以 看 到 , 这 8 块 硬盘 有 着 不 同 的 品牌 、 容 量 以 及 参数 , 但 它们 都 是 IDE 接口 的 ATA 硬盘 。 
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1) RAID 0 组 的 创建 过 程 
(1) 选择 RAID 0: Striping， 如 图 5-36 所 示 。 
(2) 给 新 RAID 0 组 起 名 为 “RAID 0”， 如 图 5-37 所 示 。 


图 5-36 选择 RAID 0 模式 5-37 起 名“RAID 0” 


(3 ) 在 Select Devices 菜单 下 ， 选 择 RAID 0 组 所 包含 的 磁盘 ， 如 图 5-38 和 图 5-39 所 示 。 


图 5-38 选择 磁盘 (1) 

(4 ) 接 下 来 , 在 Block Size 菜单 下 可 以 为 
这 个 RAID 0 组 选择 条 块 大 小 ， 如 图 
5-40 所 示 。 至 于 Block Size 参数 是 指 
整个 条 带 的 大 小 ， 还 是 指 条 带 
Segment 的 大 小 ， 要 看 厂家 自己 的 定 
区 

(5 ) 选择 Start Creation， 确 定 创建 RAID 
组 ， 如 图 5-41 所 示 。 

E 界 面 中 即 显示 出 RAID 信 


图 5-40 设置 Block Size 


(6 ) 创建 完毕 后 ， 


mn 


如 图 5-42 所 示 。 


TRUE 
ATAABG 
TIRZ33 


图 5-41 开始 创建 RAID 组 图 5-42 RAID 组 的 信息 
接 下 来 我 们 继续 用 以 上 方法 创建 其 他 类 型 的 RAID 组 。 
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2) RAID 1 组 的 创建 过 程 
图 5-43 所 示 是 RAID 1 组 的 创建 过 程 ， 
可 以 发 现 Start Creation 中 有 一 个 Duplication 
选项 ,这 个 选项 的 作用 是 将 源 盘 数 据 复制 到 镜 
像 盘 ， 而 不 破坏 源 盘 数 据 。 如 果 选 择 了 Create 
Only， 则 会 破坏 源 盘 的 数据 ， 重 新 创建 干净 
的 RAID 1 组 。 
3 ) 创建 一 个 3 块 盘 组 成 的 RAID 5 组 
提示 : 在 Start Creation 菜单 中 有 两 个 选 
项 ,一 个 为 Zero Build, 另 一 个 为 No Build， 
如 图 5-44 所 示 。Zero Build 指 将 所 有 数 
据 作废 ， 从 零 开始 生成 数据 的 校 验 值 。 
No Build 指 不 计算 数据 校 验 值 , 如 果 用 户 
能 保证 RAID 5 组 中 的 磁盘 原来 是 处 于 一 
致 性 状态 的 ， 则 可 以 用 这 个 选项 来 节约 
时 间 ， 否 则 不 要 选择 这 个 选项 。 


如 果 选 择 No Build 选项 ， 则 会 显示 向 告 信息 ， 如 图 5-45 所 示 。 
按 Y 刍 即 可 完成 RAID 5 组 的 创建 。 
至 此 ,我 们 创建 了 RAID 0、RAID 1 和 RAID 5 三 个 RAID 组 ， 如 图 5-46 所 示 。 


图 5-44 ”两 个 选项 


Esc:gudt 


图 5-45 警告 信息 图 5-46 三 个 RAID 组 的 信息 
4) 删除 RAID 组 
如 果 对 创建 的 RAID 组 不 满意 ， 可 以 删除 重建 ， 具 体操 作 如 图 5-47 和 图 5-48 所 示 。 


Delete a 
人 


图 5-47 删除 RAID 组 图 5-48 ”确认 信息 
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5 ) 添加 全 局 热 备 磁盘 

此 外 , 还 可 以 添加 全 局 热 备 磁盘 。 切 换 到 
Add/Remove Spare 菜单 ， 如 图 5-49 所 示 。 

由 于 当前 系统 中 只 有 一 块 空闲 磁盘 , 所 以 
我 们 就 将 这 块 磁盘 作为 全 局 热 备 磁盘 , 操作 如 
图 5-50 和 图 5-51 所 示 。 如 果 任何 RAID 组 中 
有 磁盘 损坏 的 话 ，RAID 卡 将 利用 这 块 热 备 磁 
盘 来 顶替 损坏 的 磁盘 , 将 数据 重新 同步 到 这 块 
磁盘 上 。 


图 5-50 确认 信息 图 5-51 磁盘 状态 
6) 设置 启动 标志 
由 于 系统 要 从 安装 有 操作 系统 的 磁盘 上 启动 , 所 以 必须 让 RAID 卡 知道 哪个 逻辑 磁盘 是 启动 
磁盘 。 具 体 设置 如 图 5-52~ 图 5-54 所 示 。 


图 5-52 设置 启动 盘 (1) 
在 将 RAID 1 组 形成 的 逻辑 磁盘 作为 启 
动 磁盘 后 ， 可 以 看 见 右 边 的 “BOOT” 标 志 。 


no tksc: 


图 5-53 设置 启动 盘 (2) 


7) 设置 访问 各 个 磁盘 的 模式 参数 图 5-54 设置 启动 盘 (3) 
在 Device Mode 菜单 下 ， 可 以 设置 访问 各 个 磁盘 的 模式 参数 ， 如 图 5-55 和 图 5-56 所 示 。 
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图 5-55 设置 磁盘 参数 (1) 图 5-56 设置 磁盘 参数 (2) 


8) 查看 所 有 设备 

在 View 菜单 下 ， 可 以 查看 所 有 设备 、 所 有 RAID 组 和 所 有 人 逻辑 磁盘 ( 由 于 这 块 卡 不 具有 
在 RAID 组 中 再 次 划分 逻辑 磁盘 的 功能 ， 所 以 每 个 逻辑 组 只 能 作为 一 个 逻辑 磁盘 ) ， 如 图 5-57 
和 图 5-58 所 示 。 


Em 


图 5-57 RAID 组 状态 (1) 图 5-58 RAID 组 状态 (2) 


5.3 ”磁盘 阵列 


RAID 卡 的 出 现 着 实 让 存储 领域 变 得 红火 起 来 ， 几 乎 每 台 服务 器 都 标 配 RAID 卡 或 者 集成 的 
RAID 芯片 。 一 直到 现在 ， 虽 然 磁盘 阵列 技术 高 度 发 展 ， 各 种 盘 阵 产品 层出不穷 , 但 RAID 卡 依 
然 是 服务 器 不 可 缺少 的 一 个 部 件 。 

然 布 ，RAID 卡 所 能 接 入 的 通道 毕竟 有 限 ， 因 此 人 们 迫切 希望 创造 一 种 可 以 接 入 众多 磁盘 、 
可 以 实现 RAID 功能 并 且 可 以 作为 集中 存储 的 大 规模 独立 设备 。 最 终 ， 磁 盘 阵 列 在 这 种 需求 中 诞 
生 了 。 

磁盘 阵列 的 出 现 是 存储 领域 的 一 个 里 程 碑 。 关 于 磁盘 阵列 的 描述 ， 我 们 将 在 本 书 第 6 章 中 详 
细 介 绍 。 

在 7 种 RAID 形式 的 基础 上 ， 还 可 以 进行 扩展 ， 以 实现 更 高 级 的 RAID。 由 于 RAID 0 无疑 
是 所 有 RAID 系统 中 最 快 的 , 所 以 将 其 他 RAID 形式 与 RAID 0 杂交 , 将 会 生成 更 多 新 奇 的 品种 。 
将 RAID 0 与 RAID 1 结合 , 生成 了 RAID 10; 将 RAID 3 与 RAID 0 结合 , 生成 了 RAID 30; 将 
RAID 5 与 RAID 0 结合， 生成 了 RAID 50。 


5.3.1 RAID 50 


图 5-59 是 一 个 RAID 50 的 模型 ，RAID 30 与 其 类 似 。 控 制 器 接收 到 主机 发 来 的 数据 之 后 ， 
按照 RAID 0 的 映射 关系 将 数据 分 块 ， 一 部 分 存放 于 左边 的 RAID 5 系统 ， 另 一 部 分 存放 在 右边 
的 RAID 5 系统 。 左边 的 RAID 5 系统 再 次 按照 RAID 5 的 映射 关系 将 这 一 部 分 数据 存放 于 5 块 磁 
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盘 中 的 若干 块 ， 另 一 边 也 进行 相同 的 过 程 。 


RAID5 RAID5 


图 5-59 RAID 50 模型 
实际 中 ， 控 制 器 不 可 能 物理 地 进行 两 次 运算 和 写 IO， 这 样 效率 很 低 。 控 制 嚣 可 以 将 RAID 0 
和 有 AID 5 的 映射 关系 方程 组 合成 一 个 函数 关系 方程 ， 这 样 直接 代入 逻辑 盘 的 LBA， 便 可 得 出 整 
个 RAID 50 系统 中 所 有 物理 磁盘 将 要 写 入 或 者 读 取 的 相应 LBA 地 址 , 然后 统一 向 磁盘 发 送 指令 。 
左边 的 RAID 5 系统 和 右边 的 RAID 5 系统 分 别 允 许 损坏 一 块 磁盘 而 不 影响 数据 。 但 是 如 果 在 任 
何 一 边 的 RAID 系统 同时 或 者 先后 损坏 了 两 块 或 者 更 多 的 盘 ， 则 整个 系统 的 数据 将 无 法 使 用 。 


5.3.2 RAID 10 和 RAID 01 


RAID 10 和 RAID 01 看 起 来 差不多 , 但 是 本 质 上 有 一 定 区 别 。 图 5-60 是 一 个 RAID 10 的 模型 。 

如 果 某 时 刻 , 左边 的 RAID 1 系统 中 有 一 块 磁盘 损坏 , 此 时 允许 再 次 损坏 的 磁盘 就 剩 下 两 块 ， 
也 就 是 右边 的 RAID 1 系统 中 还 可 以 再 损坏 任意 一 块 磁盘 ， 而 整体 数据 仍然 是 可 用 的 。 我 们 暂且 
说 这 个 系统 的 元 余 度 变 成 了 2。 

图 5-61 是 一 个 RAID 01 的 模型 。 


RAIDO RAID1 
一 一 一 一 一 ~ J 
RAID1 RAID1 RAR RAIBO 
| | | - | 
图 5-60 RAID 10 模型 图 5-61 RAID 01 模型 


如 果 某 时 刻 ， 左 边 的 RAID 0 系统 中 有 一 块 磁盘 损坏 ， 此 时 左边 的 RAID 0 系统 便 没 有 丝毫 
作用 了 。 所 有 的 IO 均 转向 右边 的 RAID 0 系统 。 而 此 时 ,仅仅 允许 左边 剩余 的 那 块 磁盘 损坏 。 如 
果 右 边 任何 一 块 磁盘 损坏 ， 则 整体 数据 将 不 可 用 。 所 以 这 个 系统 的 元 余 度 变 成 了 1， 即 只 人 允许 损 
坏 特定 的 一 块 磁盘 ( 左边 RAID 0 系统 剩余 的 磁盘 ) 。 


综 上 所 述 ，RAID 10 系统 要 比 RAID 01 系统 见 余 度 高 ， 安 全 性 高 。 
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话说 张 真人 送 走 了 七 星 大 侠 之 后 ， 面 对 江湖 上 的 浮躁 ， 有 苦难 言 。 这 江湖 还 能 出 一 个 像 七 星 
这 样 的 豪侠 吗 ? 难 啊 ! 七 星 北 斗 阵 ， 多 么 完美 的 一 个 阵 式 ! 七 星 老 前 辈 用 尽 毕生 心血 ， 创 立 了 7 
种 阵 式 ， 将 单个 磁盘 组 成 盘 阵 ， 提 高 整体 性 能 ! 可 是 很 少 有 人 能 体会 到 这 个 阵 式 的 精髓 ， 包 括 创 
建 他 的 七 星 ， 都 不 一 定 。 张 真人 自从 七 星 走 后 ， 一 直 处 于 深度 悲痛 之 中 ,悔恨 当初 为 什么 没有 抽 
时 间 向 七 星 拜师 学 艺 ! 如 今 只 能 守 着 一 本 老 侠 留 下 来 的 《七 星 北斗 阵 式 》 天 天 仔细 研读 ， 以 求 找 
到 什么 灵感 ， 来 继续 发 扬 老 侠 的 这 门 绝技 。 


就 这 样 过 去 了 20 年 。 张 真人 已 经 由 年 轻 小 伙 变 成 了 稳重 善 思 的 中 年 人 。 他 凭借 优秀 的 武艺 
和 才华 ， 来 到 武当 山 创 立 了 道观 ， 并 收 下 了 7 位 徒弟 ， 以 纪念 七 星 北斗 之 豪情 ! 张 真人 每 晚 休息 
之 前 ,都 要 对 着 七 星 北斗 拜 三 拜 。20 多 年 过 去 了 ， 北 斗 的 光芒 依然 是 那么 蜀 良 ， 依 然 看 着 世间 纷 
和 争 ， 屋 夜 交 蔡 。 

这 20 年 是 科技 飞速 发 展 的 20 年 。 铁 匠 们 的 技艺 提高 很 快 , 新 技术 不 断 被 创造 出 来 。 大 容量 、 
高 速度 的 磁盘 在 地 排 卖 10 文 钱 一 斤 。 

某 天 张 老道 下 山 溜达 ， 发 现 地 摊 上 的 磁盘 品质 还 不 错 ， 比 20 年 前 的 货 强 太 多 了 ， 顺 手 就 买 
了 50 斤 回去 。 点 了 点 ， 足 足 50 块 。 他 让 他 的 7 位 徒弟 ， 分 别 按照 七 星 阵 摆 上 各 种 阵 形 ， 来 的 喜 
这 50 块 硬盘 。7 位 徒弟 早 就 对 七 星 阵 烂 熟 于 心 ， 把 这 50 块 磁盘 捣 鼓 得 非常 顺 。 张 老道 频频 点 头 ， 
心里 想 着 : “ 咽 ， 真 应 了 那 句 话 啊 。 长 江 后 浪 推 莘 浪 ， 一 代 新 人 换 旧 人 ! ”摆弄 了 一 阵 之 后 , 徒 
弟 们 都 累 了 。 这 次 格外 地 累 ， 不 禁 都 坐 在 地 上 休息 。 老 道 把 眼 一 习 ，“ 咽 忒 ! ! ! 年 轻 人 ,不 好 
好 练功 ! 不 准 偷懒 ! ”徒弟 们 上 前 道 : “师父 ， 不 是 我 们 偷懒 ,这 次 您 买 的 磁盘 和 以 前 的 不 一 样 。 
我 们 在 出 招 的 时 候 ， 就 是 在 “化 龙 ， 这 一 招 的 时 候 特别 吃力 。 这 条 龙 大 大， 不 好 操控 。” 老 道 一 
看 ,果然 ， 这 50 块 磁盘 每 块 足 有 1TB 大 ，50 块 就 是 50TB。“ 唾 唾 ，20 年 前 一 块 磁盘 最 多 也 就 
是 50MB， 没 想到 呵 ! ” 

这 天 晚上 , 老道 用 完 粗 茶 淡 饭 之 后 , 遥望 北斗 , 心 想 : 七 星 老 侠 在 天 上 不 知道 看 见 此 情 此 景 ， 
会 给 我 什么 启示 呢 ? 20 年 前 ， 用 此 阵 式 生成 的 虚拟 磁盘 ， 大 小 也 不 过 几 GB， 而 如 今 已 经 达到 了 
TB 级 别 ,也 难怪 我 那些 徒 儿 们 会 吃不消 。 怎 么 办 呢 ? 需要 把 这 以 TB 论 的 虚拟 磁盘 再 次 划分 开 来 ， 
划分 成 多 条 “小 龙 ”， 这 样 就 可 以 录 活 操控 了 。 而 且 针对 目前 的 磁盘 超大 的 容量 ， 完 全 可 以 在 一 
个 阵 中 同时 应 用 多 种 阵 式 。 比 如 让 我 7 位 徒弟 ， 其 中 3 人 摆 出 RAID 0 阵 式 ， 另 外 4 人 同时 摆 出 
RAID 5 阵 式 ， 共 同 出 招 。 对 每 个 阵 式 生成 虚拟 “ 龙 盘 ”， 把 它 划分 成 众多 小 的 “ 龙 盘 ”， 这样 
对 外 不 但 我 们 的 威力 没有 减少 ， 而 且 可 以 灵活 运用 ， 让 敌人 不 知道 我 们 到 底 有 几 个 人 。 

张 老道 决定 将 大 龙 盘 划 分 成 小 龙 盘 ， 这 事 十 分 好 办 ， 只 需 体现 在 “心中 ”就 可 以 了 。 只 要 你 
心中 有 数 ， 那 些 物理 磁盘 的 哪 部 分 区 域 属于 哪个 小 龙 盘 ， 就 完全 可 以 对 外 通告 了 。 老 道 称 这 种 技 
术 为 逻辑 盘 技术 。 


5.4.1 ”RAID 组 的 再 划分 


实际 中 ,比如 用 5 块 100GB 的 磁盘 做 了 一 个 RAID 5， 那 么 实际 数据 空间 可 以 到 400GB， 剩 
余 100GB 空间 是 校 验 空间 。 如 果 将 这 400GB 虚拟 成 一 块 盘 , 不 够 灵活 。 且 如 果 OS 不 需要 这 么 大 
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的 磁盘 ， 就 没 法 办 了 。 所 以 要 再 次 划分 这 400GB 的 空间 ， 比 如 划分 成 4 块 100GB 的 逻辑 磁盘 。 
而 这 逻辑 盘 虽 然 也 是 100GB， 但 是 并 不 同 于 物理 盘 ， 向 逻辑 盘 写 一 个 数据 会 被 RAID 计算 ， 而 有 
可 能 写 向 多 块 物 理 盘 ， 这 样 就 提升 了 性 能 ， 同 时 也 得 到 了 保护 。 纵 使 RAID 组 中 坏 掉 一 块 盘 ， 操 
FE 系统 也 不 会 感知 到 ， 它 看 到 的 仍然 是 100GB 的 磁盘 。 


5.4.2 ”同一 通道 存在 多 种 类 型 的 RAID 组 


不 仅 如 此 ， 老 道 还 想到 了 在 一 个 阵 式 中 同时 使 用 多 种 阵 法 的 方式 。 

实际 中 ， 假 设 总 线 上 连接 有 8 块 100GB 的 磁盘 ,我 们 可 以 利用 其 中 的 5 块 磁盘 来 做 一 个 
RAID 5, 而 后 再 利用 剩余 的 3 块 磁盘 来 做 一 个 RAID 0, 这 样 , RAID 5 的 可 用 数据 空间 为 400GB， 
校 验 空间 为 100GB，RAID 0 的 可 用 数据 空间 为 300GB。 而 后 ，RAID 5 和 RAID 0 各 自 的 可 用 空 
间 ， 又 可 以 根据 上 层 OS 的 需求 ， 再 次 划分 为 更 小 的 逻辑 磁盘 。 这 样 就 将 七 星 北斗 阵 灵活 地 运用 
了 起 来 ， 经 过 实践 的 检验 ， 这 种 应 用 方法 得 到 了 巨大 的 推广 和 成 功 。 

张 老道 给 划分 逻辑 盘 的 方法 取 名 为 巧 化 神龙 , 将 同一 个 阵 中 同时 使 用 多 种 阵 式 的 方法 叫做 神 
龙 七 变 。 


5.4.3 ”操作 系统 如 何 看 待 逻辑 磁盘 


目前 各 种 RAID 卡 都 可 以 划分 逻辑 盘 ， 逻 辑 盘 大 小 任意 设置 。 每 个 逻辑 盘 对 于 OS 来 说 都 认 
成 一 块 单独 的 物理 磁盘 。 这 里 不 要 和 分 区 搞 混 ， 分 区 是 OS 在 一 块 物 理 磁 盘 上 做 的 再 次 划分 。 而 
RAID 卡 提供 给 OS 的 ， 任 何 时 候 ， 都 是 一 块 或 者 几 块 逻辑 盘 ， 也 就 是 OS 认 成 的 物理 磁盘 。 而 
OS 在 这 个 磁盘 上 ， 还 可 以 进行 分 区 、 格 式 化 等 操作 。 


5.4.4 ”RAID 控制 器 如 何 管理 逻辑 磁盘 


下 面 说 一 下 RAID 卡 对 逻辑 磁盘 进行 再 
次 划分 的 具体 细节 。 既 然 要 划分 ， 就 要 心中 
有 数 ， 比 如 某 块 磁盘 的 某 个 区 域 ， 划 分 给 哪 
个 逻辑 盘 用 ， 对 应 逻辑 盘 的 LBA 地 址 是 多 
少 ， 这 块 磁盘 的 RAID 类 型 是 什么 等 。 而 这 
些 东西 不 像 RAID 映射 那样 根据 几 个 简单 的 
参数 就 能 确定 ， 而 且 对 应 关系 是 可 以 随时 变 
化 的 ， 比 如 扩大 和 缩小 、 移 动 等 。 所 以 有 必 
要 在 每 块 磁盘 上 保留 一 个 区 域 ， 专 门 记录 这 
种 逻辑 盘 划 分 信息 、RAID 类 型 以 及 组 内 的 
其 他 磁盘 信息 等 ， 这 些 信息 统称 为 RAID 信 
息 。 不 同 厂家 、 不 同 品牌 的 产品 实现 起 来 不 
一 样 ，SNIA 委员 会 为 了 统一 RAID 信息 的 
格式 ， 专 门 定 义 了 一 种 叫做 DDF 的 标准 ， 
如 图 5-62 所 示 。 
图 5-63 所 示 的 是 微软 和 Veritas 公司 合 


32MB Minimum 


图 5-62 ”DDF 布局 图 
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作 开 发 的 软 RAID 在 磁盘 最 末 1MB 空间 创建 的 数据 结构 。 有 了 这 个 记录 , RAID 模块 只 要 读 取 同 
一 个 RAID 子 系统 中 每 块 盘 上 的 这 个 记录 ， 就 能 够 了 解 RAID 信息 。 即 使 将 这 些 磁盘 打 乱 顺序 ， 
或 者 拿 到 其 他 支持 这 个 标准 的 控制 器 上 ， 也 照样 能 够 认 到 所 划分 好 的 逻辑 盘 等 所 有 需要 的 信息 。 


1MB 


| 加 … 图 
1 


MBR LDM 分 区 数据 区 域 LDM 元 数据 控制 区 域 秘 有 头 部 信息 。 数据 记录 区 头 部 私有 头 部 区 镜像 
图 5-63 Windows 系统 中 的 动态 磁盘 信息 
RAID 卡 可 以 针对 总 线 上 的 某 几 块 磁盘 做 一 种 RAID 类 型 ， 然 后 针对 另外 的 几 块 磁盘 做 另 一 
种 RAID 类 型 。 一 种 RAID 类 型 中 包含 的 磁盘 共同 组 成 一 个 RAID Group， 简称 RG。 逻 辑 盘 就 
是 从 这 个 RG 中 划分 出 来 的 ,原则 上 逻辑 盘 不 能 跨 RG 来 划分 ， 就 是 说 不 能 让 一 个 逻辑 盘 的 一 部 
分 处 于 一 个 RG， 另 一 部 分 处 于 另 一 个 RG。 因 为 RG 的 RAID 类 型 不 一 样 ， 其 性 能 也 就 不 一 样 ， 
如 果 同 一 块 逻辑 盘 中 出 现 两 种 性 能 ， 对 上 层 应 用 来 说 不 是 件 好事 ， 比 如 速度 可 能 会 忽 快 忽 慢 等 。 
张 真 人 推出 了 这 两 门 绝技 之 后 , 在 江湖 上 引起 了 轩然大波 。 大 家 争 相 修炼 ， 并 取得 了 良好 的 
效果 。 一 时 间 ， 江 湖上 几乎 人 人 都 练 了 张 真人 这 两 门 功夫 。 而 且 各 大 门派 已 经 将 七 星 北 斗 阵 以 及 
张 真 人 的 功夫 作为 各 派 弟 子 必须 掌握 的 基本 功 。 
近水楼台 先 得 月 。 武 当 七 子 当 然 已 经 把 功夫 练 到 了 炉火纯青 的 地 步 。 老 道 非常 欣慰 。 他 相信 
七 星 侠 在 天 之 灵 倘 若 看 到 了 这 阵 式 被 拓展 ， 一 定 也 会 感到 欣慰 的 。 


5.5 ” 卷 管 理 层 


老道 创立 这 两 门 功夫 的 兴奋 ， 很 快 就 被 一 个 不 大 不 小 的 问题 给 吹 得 烟消云散 。 这 个 问题 就 是 
一 旦 逻辑 盘 划 分 好 之 后 就 无 法 改变 ， 要 改变 也 行 ， 上 面 的 数据 就 得 全 部 抹 掉 ， 这 是 让 人 无 法 容忍 
的 。 比 如 已 经 做 好 了 一 个 100GB 的 逻辑 盘 , 但 是 用 了 两 年 以 后 ， 发 现 数据 越 来 越 多 ， 已 经 成 不 下 
了 。 但 又 不 能 放 到 别 的 磁盘 , 因为 受 上 层 文 件 系统 的 限制 , 一 个 文件 不 可 能 跨越 多 个 分 区 来 存放 ， 
更 别提 跨越 多 个 磁盘 了 。 如 果 有 一 个 文件 已 经 超过 了 100GB， 那 么 谁 也 无 力 回 天 ， 只 能 重新 划分 
逻辑 盘 。 数 据 怎么 办 ? 这 问题 遇 不 到 则 已 ， 遇 到 了 就 是 死路 一 条 。 江 湖上 已 经 有 不 少 生意 人 因为 
这 个 问题 而 倾家荡产 ， 他 们 无 奈 之 余 ， 准 备 联合 起 来 到 武当 明 求 张 老道 想 一 个 办 法 ， 以 克服 这 个 
难关 , 好 让 他 们 东山 再 起 。 张 老道 对 他 们 的 遭遇 深 感 同情 , 同时 也 责怪 自己 当初 芍 忽 了 这 个 问题 。 
于 是 他 当众 许 下 承诺 : 3 个 月 之 后 ， 来 武当 取 解 决 办 法 。 


5.5.1 有 了 远 辑 盘 就 万 事 大 吉 了 么 ?了 


1. 踏破 铁 鞋 无 砚 处 一 一 寻找 更 加 灵活 的 磁盘 卷 管理 方式 


其 实 张 真人 许 下 3 个 月 的 时 间 , 他 自己 也 毫 无 把 握 。 但 是 为 了 平息 众怒 ， 也 只 能 冒险 赌 一 次 
了 ! 送 走 众人 之 后 ， 张 老道 就 开始 天 天 思考 解决 这 个 问题 的 办 法 。 他 想 : 到 底 怎么 样 才 能 让 使 用 
者 运用 自如 呢 ? 如 果 一 开始 就 给 它 划分 一 个 100GB 的 逻辑 盘 , 如 果 数 据 盛 不 下 了 , 此 时 把 其 他 磁 
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盘 上 未 使 用 的 空间 挪 一 部 分 到 这 个 逻辑 盘 ， 岂 不 是 就 可 以 了 么 ? 

可 以 是 可 以 , 但 从 RAID 卡 设置 里 增加 或 减少 逻辑 盘 容量 很 费 功夫 。 在 RAID 卡 里 增加 这 种 
代码 ， 修 炼 成 本 很 高 ， 而 且 即 使 实现 了 ， 主 机 也 不 能 立即 感应 到 容量 变化 。 即 使 感应 到 了 ， 也 不 
能 立即 变更 。 对 于 Windows 系统 来 说 ,必须 将 其 创建 为 新 的 分 区 。 想 要 合并 到 现 有 分 区 ,必须 用 
第 三 方 分 区 表 调 整 工具 在 不 启动 操作 系统 的 情况 下 来 修改 分 区 表 才 行 。 再 者 ， 其 上 的 文件 系统 不 
一 定 会 跟着 扩大 ，NTES 这 种 文件 系统 不 能 动态 张 缩 ， 也 必须 在 不 启动 操作 系统 的 条 件 下 用 第 三 
方 工具 调整 。 这 种 方法 对 一 些 要 求 不 间断 服务 的 应 用 服务 器 并 不 适用 。 

老道 想到 这 里 ， 觉 得 至 少 已 经 找到 了 一 种 解决 办 法 ， 虽 然 不 是 很 方便 ， 需 要 重启 主机 ， 之 后 
再 在 RAID 卡 中 更 改 配置 。 更 改 完毕 后 ， 可 能 还 要 重启 一 次 ， 然 后 进入 系统 ， 系 统 才 能 认 出 新 容 
量 的 磁盘 。 而 OS 就 算 正确 认 出 了 新 增 的 磁盘 容量 ， 由 于 分 区 表 没 有 改变 ， 新 增 容量 不 属于 任何 
一 个 分 区 ， 还 是 不 能 被 使 用 ， 所 以 还 需要 手动 修改 分 区 表 。 太 复杂 、 太 麻烦 了 ， 能 否 找 一 种 方便 
快捷 的 方法 呢 ? 


2. 得 来 全 不 费 工 夫 一 一 来 源 于 现实 的 刺激 


话说 冬至 这 天 ， 天 上 飘 着 雪花 。 武 当 山 张 灯 结彩 ,喜气 洋洋 ! 这 天 是 张 真人 的 70 大 寿 ! 江 
湖 各 大 门派 及 各 路 英雄 纷纷 前 来 拜 寿 。 武 当 上 下 忙 得 是 不 亦 乐 乎 ! 就 说 包 饺 子 吧 ， 一会儿 面 不 够 
了 去 和 面 ， 一 会 儿 水 不 够 了 去 挑 水 。 张 真人 是 往来 作 担 ， 笑 迎 来 宾 。 厨 房 则 加 紧 和 面 ， 由 于 厨房 
空间 太 小 ,所 以 和 好 的 面 被 运往 各 个 分 理 点 处 ， 那 里 有 小 道士 负责 拓 皮 、 包 饺子 。 张 真人 看 着 了 眼 
前 这 小 老道 跑 来 跑 去 的 多 少 回 了 ， 就 纳 问 了 ， 所 以 跟着 去 看 看 怎么 回 事 。 一 看 才 知 道 ， 弄 了 半天 
是 往 各 处 运 面团 呢 ! 觉得 挺 好 笑 的 ， 也 没 当 回 事 。 等 大 家 都 差不多 到 齐 了 ， 共 同 给 老道 祝 了 寿 ， 
然后 就 上 饺子 了 。 张 老道 看 着 碗 里 一 个 个 的 饺子 ， 再 想 想 刚才 那 面团 的 事 ， 心 里 突然 一 动 ! 于 是 
当众 宣布 ， 一 个 月 前 自己 承诺 的 约定 过 不 了 几 天 就 会 实现 了 ! 众 豪杰 都 鼓 起 掌 来 ! 


提示 : 张 老道 到 底 想到 了 什么 呢 ? 原来 ， 他 想起 了 小 道 包 饺子 和 面 的 情形 。 厨 房 和 了 一 
大 团 面 ， 下 面 随 用 随 取 。 不 够 了 ， 割 一 块 揉 进去 就 行 了 ,或 者 赌 下 一 块 来 放 着 下 次 用 。 
这 不 正解 决 了 一 个 月 前 大 家 所 头疼 的 问题 吗 ? RAID 控制 器 和 好 了 几 团 面 ( 修 辑 盘 ) ， 放 
那 由 自己 看 着 用 , 哪 不 够 了 就 狂 块 补 上 。 必 须 实现 这 样 一 种 像 猎 面团 一 样 灵活 的 管理 层 ， 
才能 最 终 解决 使 用 中 出 现 的 问题 。 是 啊 ， 说 得 简单 ， 可 是 具体 要 做 却 不 是 那么 容易 的 。 


当天 晚上 ,老道 睡觉 的 时 候 就 一 个 劲 地 想 , 在 RAID 控制 器 上 天 面 ， 以 前 也 分 析 过 了 ,不 合 
适 ,那么 在 哪里 矫 呢 ?RAID 控制 器 给 你 和 了 几 斤 面 ， 你 就 得 收 着 , 不 要 也 不 行 。 但 是 面 收 着 了 ， 
你 可 以 自己 复 呀 ， 是 啊 ， 自 己 艇 。 那 么 就 是 说 ，RAID 控制 器 提交 给 OS 的 逻辑 磁盘 。 应 该 可 以 
斑 开 ， 或 者 揉搓 到 一 块 儿 去 ， 可 以 想 怎么 揉搓 就 怎么 揉搓 。 这 功能 如 果 能 通过 在 操作 系统 上 运行 
一 层 软件 来 实现 的 话 ， 不 但 灵活 ， 而 且 管 理 方便 ! 想到 这 ,老道 心里 有 了 底 。 

第 二 天 ， 老 道 就 让 徒弟 们 按照 他 写 的 口诀 来 实现 他 这 个 想法 ， 大 获 成 功 ! RAID 控制 器 是 硬 
件 底层 实现 RAID， 实 现 逻 辑 盘 ， 所 以 操作 起 来 不 灵活 。 如 果 在 OS 层 再 把 RAID 控制 器 提交 上 
来 的 逻辑 盘 ( OS 会 认 成 不 折 不 扣 的 物理 磁盘 ) 加 以 组 织 、 再 分 配 ， 就 会 非常 灵活 。 因 为 OS 层 上 
运行 的 都 是 软件 ， 完 全 靠 CPU 来 执行 ， 而 不 用 考虑 太 多 的 细节 。 张 老道 立即 将 这 种 新 的 掌 法 公 
布 天 下 ， 称 作 神 仙 驾 龙 ! 
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5.5.2 ”深入 卷 管理 层 


实际 中 , 有 很 多 基于 这 种 思想 的 产品 , 这 些 产 品 都 有 一 个 通用 的 名 称 , 叫做 卷 管理 器 ( Volume 
Manager，VM ) 。 比 如 微软 在 Win2000 中 引入 的 动态 磁盘 ， 就 是 和 Veritas 公司 合作 开发 的 一 种 
VM， 称 为 LDM ( 逻辑 磁盘 管理 ) 。Veritas 自己 的 产品 Veritas Volume Manager ( VxVM ) 和 广泛 
用 于 Linux、AIX、HPUX 系统 的 LVM ( Logical Volume Manager ) ， 以 及 用 于 Sun Solaris 系统 的 
Disk Suite， 都 是 基于 这 种 在 OS 层面 ,将 OS 识别 到 的 物理 磁盘 ( 可 以 是 真正 的 物理 磁盘 ， 也 可 
以 是 经 过 RAID 卡 虚拟 化 的 逻辑 磁盘 ) 进行 组 合 ， 并 再 分 配 的 软件 。 它 们 的 实现 方法 大 同 小 异 ， 
只 不 过 细节 方面 有 些 差异 喷 了 。 

这 里 需要 重点 讲 一 下 LVM， 因 为 它 的 应 用 非常 普遍 。LVM 开始 是 在 Linux 系统 中 的 一 种 实 
现 ， 后 来 被 广泛 应 用 到 了 AIX 和 HPUX 等 系统 上 。 
， ”PV: LVM 将 操作 系统 识别 到 的 物理 磁盘 ( 或 者 RAID 控制 器 提交 的 逻辑 磁盘 ) 改 了 个 
叫 法 ， 叫 做 Physical Volume， 即 物理 卷 ( 一 块 面团 ) 。 
" VG: 多 个 PV 可 以 被 逻辑 地 放 到 一 个 VG 中 ， 也 就 是 Volume Group 卷 组 。VG 是 一 个 
虚拟 的 大 存储 空间 ， 逻 辑 上 是 连续 的 ， 尽 管 它 可 以 由 多 块 PV 组 成 , 但 是 VG 会 将 所 有 
的 PV 首尾 相连 ， 组 成 一 个 逻辑 上 连续 编 址 的 大 存储 池 ， 这 就 是 VG。 
" ”PP: 也 就 是 Physical Partition ( 物理 区 块 ) 。 它 是 在 逻辑 上 再 将 一 个 VG 分 制 成 连续 的 小 
块 (把 一 大 盆 面 禾 成 大 小 相等 的 无 数 块 小 面团 块 ) 。 注 意 ,， 是 逻辑 上 的 分 割 ， 而 不 是 物 
理 上 的 分 制 ， 也 就 是 说 LVM 会 记录 PP 的 大 小 ( 由 几 个 扇 区 组 成 ) 和 PP 序号 的 偏 移 。 
这 样 就 相当 于 在 VG 这 个 大 池 中 顺序 切割 , 如 果 设 定 一 个 PP 大 小 为 4MB, 那么 这 个 PP 
就 会 包含 8192 个 实际 物理 磁盘 上 的 扇 区 。 如 果 PV 是 实际 的 一 块 物理 磁盘 , 那么 这 些 扇 
区 就 是 连续 的 。 如 果 PV 本 身 是 已 经 经 过 RAID 控制 器 虚拟 化 而 成 的 一 个 LUN, 那么 这 
些 遍 区 很 有 可 能 位 于 若干 条 带 中 ， 也 就 是 说 这 8192 个 扇 区 物理 上 不 一 定 连续 。 
， ”LP: PP 可 以 再 次 组 成 LP， 即 Logical Partition ( 逻辑 区 块 ) 。 逻 辑 区 块 是 比较 难 理解 的 ， 
一 个 LP 可 以 对 应 一 个 PP， 也 可 以 对 应 多 个 PP。 前 者 对 应 前 后 没什么 区 别 。 后 者 又 分 
两 种 情况 : 一 种 为 多 个 PP 组 成 一 个 大 LP, 像 RAID 0 一 样 ; 另 一 种 是 一 个 LP 对 应 几 
份 PP, 这 几 份 PP 每 一 份 内 容 都 一 样 , 类似 于 RAID 1, 多 个 PP 内 容 互 为 镜像 ， 然 后 用 
一 个 LP 来 代表 它们 ， 往 这 个 LP 写 数据 ， 也 就 同时 写 入 了 这 个 LP 对 应 的 几 份 PP 中 。 
。 LV: 若干 LP 再 经 过 连续 组 合 组 成 LV ( Logical VoLUNme， 逻 辑 卷 ) ， 也 就 是 LVM 所 
提供 的 最 终 可 用 来 存储 数据 的 单位 。 生 成 的 逻辑 卷 ， 在 主机 看 来 还 是 和 普通 磁盘 一 样 ， 
可 以 对 其 进行 分 区 、 格 式 化 等 。 
思考 :有 人 问 了 , 一 堆 面 团 揉 来 揉 去 , 最 终 又 变 成 一 堆 面 团 了 , 你 这 是 揉 面 还 是 做 存储 呢 ? 
确实 ， 面 团 最 终 还 是 面团 。 但 是 此 面团 非 彼 面团 。 最 终 形成 的 这 个 LV， 它 的 大 小 可 以 随时 
变更 ， 也 不 用 重启 OS， 你 想 给 扩 多 大 就 扩 多 大 ， 前 提 是 面盆 里 面 还 有 被 艇 开 备用 的 PP。 而 且 ， 
只 要 分 里 面 有 PP， 你 就 可 以 再 创建 一 个 LV, 也 就 是 再 和 一 团 面 ,LV 数量 足够 用 的 。 如 果 不 增加 
卷 管理 这 个 功能 , 那么 RAID 卡 提交 上 来 多 少 磁盘 , 容量 多 大 就 是 多 大 , 不 能 在 OS 层 想 改 就 改 、 
为 所 欲 为 。 而 卷 管 理 就 提供 了 这 个 为 所 欲 为 的 机 会 ， 让 你 随便 和 面团 。 

LVM 看 起 来 很 复杂 ,其 实 操作 起 来 很 简单 。 创建 PV, 将 PV 加 入 VG, 在 VG 中 再 创建 LV， 


第 5 章 降 龙 传说 一 RAID、 庶 拟 磁盘 、 卷 和 文件 系统 实战 @ 


然后 格式 化 这 个 LV, 就 可 以 当成 一 块 普通 硬盘 使 / 


了 。 容 量 不 够 了 , 还 可 以 随便 扩展 , 岂 不 快 哉 ? 


LVM 一 个 最 大 的 好 处 就 是 生成 的 LV 可 以 跨越 RAID 卡 提交 给 OS 的 物理 磁盘 ( 逻辑 盘 ) 。 这 是 
理所当然 的 ， 因 为 LVM 将 所 有 物理 盘 都 搅和 到 一 个 大 面盆 中 了 ， 当 然 就 可 以 跨越 物理 盘 了 。 


5.5.3 Linux 下 配置 LVM 实例 
下 面 
置 过 程 。 


以 RedHat Enterprise Linux Server 4 Update 5 操作 系统 为 例 ， 给 大 家 示例 一 下 LVM 的 配 


(1 ) 在 操作 系统 安装 过 程 中 ， 选 择 手动 配置 磁盘 管理 ， 如 图 5-64 所 示 。 
(2) 可 以 看 到 ， 这 台 机 器 共有 8 块 物理 磁盘 ， 每 块 的 容量 为 1GB， 如 图 5-65 所 示 。 


Disk Partitioning | | 


Setup 


One ofihe largest obstacles or 


To paniion manual 
he Disk Druid parfoning 
tool, 


iv choose 


Use he Back buaon io choose 
er | 


[Ss] [wse] 
图 5-64 选择 手动 管理 
(3 ) 首先 ， 需 要 定义 一 个 /boot 分 区 ,这 
个 分 区 是 用 来 启动 基本 操作 系统 内 


核 的 ,所 以 这 块 空间 不 能 参与 LVM。 
我 们 选择 从 第 一 块 硬盘 ( sda ) 划分 


出 20 个 磁道 的 空间 用 来 作为 /boot 


分 区 。 这 块 空间 也 就 成 了 sdal 设备 ， 
如 图 5-66 所 示 。 


(4 ) 接 下 来 , 对 于 sda2、 sdb、 sdc、 sdd、 sde、 
sdf、sdg、sdh 所 有 这 些 剩 余 的 磁盘 或 
者 分 区 ,就 可 以 将 它们 配置 成 LVM 的 
PV( 物理 卷 ) 。 选 中 每 个 磁盘 或 者 分 
区 , 单 击 Edit 按 钮 ,在 File System Type 
下 拉 列 表 框 中 ,选择 physical volume 
(LVM ) 选项 ， 表 示 将 这 个 硬盘 或 者 
分 区 配置 成 LVM 的 PV。PV 可 以 任 
意 设 定 大 小 ， 只 要 编辑 End Cylinder 


文本 框 中 的 值 即 可 。 剩余 空间 可 以 继续 作为 PV 再 次 分 


图 


5-67 所 示 。 


Disk Setup 由 过 
Choose where you Would te | | ren 全 0 站 we eetet eee Ve ts 
Red Ha Enterprse Ln AS wo | [wm 


[Cn | Em | pom | Rem | rao | i 
Nanos] me em wo sore | 
ET 
ee 
as mt 
ee ee Pree sae am 1m 由 
ne eol pom vee OTHE 
EE | 本 Boa | [Pp ven 
图 5-65 ”磁盘 列表 


New 口 
| File System Iype: | ext3 = 
Mount| Di | 
Device RAID/ Orve: sda 
Size (MB): 1027 
了 Hard Drives — a | | 
= Jdev/sda Satcnar 由 =| | 
EndCylinder |2d 向 | 
He DForce to be a primary parition | 品 
Free 
™ ldev/sde WB Cancel Pok 
Free 
™ dev/sdd 
Free Free space 1024 -9 回 
口 Hide RAID device/lL VM Volume Group members 
A Back BD Next 


图 5-66 创建 /boot 分 区 


。 对 每 个 磁盘 都 进行 上 述 操作 , 如 
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(5 ) 操作 完成 后 ， 信 息 栏 中 显示 所 有 磁盘 和 sda2 分 区 都 已 被 配置 成 为 PV， 如 图 5-68 所 示 。 


Drive dev/sda 


[al 
1s6 Me 


0 MB) (Model: VMware, VMware Virtual’s) a 
| 
| 


Drive /dev/sdb (1020 MB) (Model: VMware, VMware Virtual S) 


Pree Mavsde 0020 WE) Mes Mount poine [<Nar Appicable> > 
Iosve 
File System Type | physical volume (LVM) ~ 
Ee Drive: sda 四 | 画 豆 | Em | Deee | Reset | RAD 
Mount Size(MB): 8652 
Devic Mount Pomt Size 
RAID| san cyinder [21 ls| | Duce RAID/Volume| TYPe [rom MB) sor]em 
Hard Drives 一 一: 二 
| ldev/sda 
™ ldev/sda es /dewsdal /boot ex v 157 1 20 
dewsdal /boot | 口 Force to be a pimary parition 1 /dev/sda? pv v 853 21 130 
一 devsdb 
™ Jdev/sdb Wema|| Yor | /dev/sdbl LpPv v i020 1130 
Free rree space Hoe Jdev/sdc 
Jdevsde devsdel WMpy v i020 1130 
Free Free space 1024 1 131 一 devsdd 
¥ Jdev/sdd | dev/sddl WMPpy v 1020 1130 
DO Hide RAID device/lLVM Volume Group members 口 Hide RAID device/L VM Volume Group members 
a] 区 吕 
图 5-67 设置 磁盘 类 型 为 LVM 管理 状态 图 5-68 磁盘 状态 
(6 ) 单 击 LVM 按钮 会 出 现 如 图 5-69 所 示 的 对 话 框 。 这 一 步 就 是 创建 VG ( Volume Group， 


(7) 


卷 组 ) 的 过 程 。 可 以 将 PV 进行 任意 组 合 ， 组 合 后 的 PV 就 形成 了 VG。 

这 里 我 们 做 一 个 名 为 “VolGroup00” 的 卷 组 ， 其 包含 da2 和 sdb1 两 个 PV。 在 Physical 
Extent 下 拉 列 表 框 中 ， 可 以 选择 这 个 卷 组 对 应 的 磁盘 空间 的 最 小 分 配 单位 (在 AIX 的 
LVM 中 ， 这 个 最 小 单位 称 为 Physical Partition， 即 PP ) 。 然 后 单 击 下 方 的 Add 按钮 ， 
从 这 个 大 的 卷 组 空间 中 再 次 划分 逻辑 卷 , 即 LV。 下 面 创建 一 个 大 小 为 1000MB 的 逻辑 
卷 LogVol00， 并且 用 ext3 文件 系统 将 这 个 卷 格式 化 ， 并 挂 载 到 /home 目录 下 ， 如 图 
5-70 所 示 。 


Make LVM Volume Group Make LVM Volume Group 


Volume Group Name: |yolGroupod | Volume Group Name: VolGroup00 
Physical Extent: 4MB ~ Physical Extent: 4MB ~ 
| 回 sdaz 856.00MB | | 回 sdaz 85600MB 国 
Physical Volumes to Use: sdbl = 1012.00 MB | Physical Volumes to Use: 回 sdbl 1012.00 MB 上 
sdcl 1012.00 MB | | 口 sdcl 1012.00 MB 瞧 
Fa aasn12 pn Mn I ansn12 on Mun, 5| 
Used Space: 0.00 MB (0.0%) 
Free Space 7940.00 MB (100.0 %) 
Total Space 7940.00 MB 
Logical volumes 
SystemT ex 
Logical Volume Name |Mount Point |Size (MB) Aod 2 
[ra Logical volume Name: Logvalo0 | [| 
= J i 
Le] Size (MB): 1000| | | 
E (Max size is 1868 MB) ss 
WR Cancel Yok 
Wcancad || Sor | HL vo 
图 5-69 创建 卷 组 图 5-70 创建 LV 并 挂 载 


(8) 


然后 将 VolGroup00 卷 组 中 剩余 的 空间 ,全 部 分 配给 一 个 新 的 LV， 即 LogVol01, 用 ext3 
文件 系统 格式 化 ， 并 挂 载 到 /tmp 目录 下 ， 如 图 5-71 所 示 。 
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(9 ) 将 刹 余 的 sdcl、sdd1、sdel、sdfl 、sdg1、sdhl 这 几 块 PV 全 部 分 配给 一 个 新 的 卷 组 VolGroup01， 
并 且 在 卷 组 中 创建 一 个 逻辑 卷 LogVol00， 大 小 为 整个 卷 组 的 大 小 , 用 ext3 文件 系统 格 
式 化 ， 并 挂 载 到 /目录 下 ， 如 图 5-72 所 示 。 


Make LVM Volume Group 


Elle System Type: | ext3 
jcal\ Logica VolumeName: Logva0l | _ | 
Physical\ 外 -一 口 “pmsicava 有 - 
Size (MB): |868 | | | 
Used Sp (Max size is 868 MB) 三 人 Eile System Type: ext3 l*] 一 
ee BW Cancel Sok | Ps Logical volume Name: | Logvol00 
die Logical Vc Size (MB): 5760 
(Max size is 5760 MB) 
Logical Volume Name [Mount Point [Size (ME) | [ay 
Logval00 /home 1000 | | 其 Cancel ok | 
Ee | 
Delete 
cacd|| wox | 器 Cancd || ok 
图 5-71 创建 LV 并 挂 载 图 5-72 创建 LV 并 挂 载 
(10 ) 配置 完成 后 的 状态 如 图 5-73 所 示 。 a 
Device Roo | Type |Fomat wn star |End| 
LVM Volume Groups 
一 ValGroup00 1868 
LogVolo0 /home ext3 ~ 1000 
LogVolol /tmp ext3 ba 868 
一 VaGroupOl 5760 
Logvaloo ex YY 5760 


图 5-73 配置 完成 后 的 状态 
5.5.4“ 卷 管理 软件 的 实现 


说 到 这 里 ， 别 以 为 LVM 就 只 会 像 疯子 一 样 ， 拿 来 面团 就 揉 到 一 起 , 矿 来 艇 去 ,什么 都 不 管 ， 
那样 岂 不 真 成 了 马 大 哈 了 。 它 是 需要 在 心里 暗自 记录 的 ， 比 如 某 块 物理 盘 的 名 称 和 容量 。 表 面 上 
是 和 其 他 物理 盘 融 合 到 一 起 ， 但 还 是 要 记 住 谁 是 谁 ， 从 哪里 到 哪里 属于 这 块 盘 ， 从 哪里 到 哪里 属 
于 那 块 盘 ， 地 址 多 少 ， 等 等 。 

这 些 信 息 记 录 在 磁盘 上 的 某 个 区 域 ，LVM 中 这 个 区 域 叫做 VGDA。LVM 就 是 通过 读 取 每 块 
物理 磁盘 上 的 这 个 区 域 来 获取 LVM 的 配置 信息 ， 比 如 PP 大 小 、 初 始 偏 移 、PV 的 数量 和 信息 、 
排列 顺序 及 映射 关系 等 -LVM 初始 化 的 时 候 会 读 取 这 些 信息 ,然后 在 缓存 中 生成 对 应 的 映射 公式 ， 
从 而 完成 LV 的 挂 载 。 挂 载 之 后 ， 就 可 以 接受 IO 了 。 比 如 上 层 访问 某 个 LV 的 LBA 0xFF 地 址 ， 
那么 LVM 就 需要 通过 缓存 中 的 映射 关系 判断 这 个 地 址 对 应 到 实际 物理 磁盘 是 哪个 或 哪 几 个 实际 
地 址 。 假 设 这 个 地 址 实际 对 应 了 磁盘 a 的 LBA 0xAA 地 址 ， 那 么 就 会 通过 磁盘 控制 器 驱动 直接 给 
这 个 地 址 发 数据 ， 而 这 个 地 址 被 RAID 控制 器 收 到 后 ， 可 能 还 要 做 一 次 转换 。 因 为 OS 层 的 “ 物 
理 磁盘 ”可 能 对 应 真正 的 存储 总 线 上 的 多 块 物理 磁盘 ， 这 个 映射 就 需要 RAID 控制 嚣 来 做 了 , 原 
理 都 是 一 样 的 。 

卷 管 理 软 件 对 待 由 RAID 卡 提 交 的 逻辑 盘 ( OS 识别 成 物理 磁盘 ) 和 切切 实 实 的 物理 盘 的 方 
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法 是 一 模 一 样 的。 也 就 是 说 ,不 管 最 底层 到 底 是 单 物理 盘 ， 还 是 由 RAID 控制 器 提交 的 逻辑 物理 
盘 ， 只 要 OS 认 成 它 是 一 块 物理 磁盘 ， 那 么 卷 管理 器 就 可 以 对 它 进行 卷 管理 。 只 不 过 对 于 RAID 
提交 的 逻辑 盘 ， 最 终 还 是 要 通过 RAID 控制 器 来 和 最 底层 的 物理 磁盘 打交道 。 

Linux 下 的 LVM 甚至 可 以 对 物理 磁盘 上 的 一 个 分 区 进行 卷 管理 ， 将 这 个 分 区 做 成 一 个 PV。 

卷 管理 软件 就 是 运行 在 OS 操作 系统 磁盘 控制 器 驱动 程序 之 上 的 一 层 软 件 程序 ， 它 的 作用 就 
是 实现 RAID 卡 硬件 管理 磁盘 空间 所 实现 不 了 的 灵活 功能 ， 比 如 随时 扩容 。 

为 什么 卷 管理 软件 就 可 以 随时 在 线 扩容 ， 灵 活性 这 么 强 呢 ? 首先 我 们 要 熟悉 一 个 知识 ， 也 就 
是 OS 会 自 带 一 个 卷 管理 软件 层 ， 这 个 卷 管理 软件 非常 简单 ， 它 只 能 管理 单个 磁盘 ， 而 不 能 将 它 
们 组 合 虚 拟 成 卷 , 不 具有 高 级 卷 管理 软件 的 一 些 灵 活 功能 。OS 自 带 的 一 些 简单 VM ( 卷 管理 ) 软 
件 ， 只 会 调用 总 线 驱动 (一 种 监视 IO 总 线 Plug And Play， 即 PNP， 即 插 即 用 ) ， 发 现 硬件 之 后 
再 挂 接 对 应 这 个 硬件 的 驱动 ， 然 后 查询 出 这 个 硬件 的 信息 ， 其 中 就 包括 容量 ， 所 以 我 们 才 会 在 磁 
盘 管 理 器 中 看 到 一 块 块 的 磁盘 设备 。 即 从 底层 向 上 依次 是 物理 磁盘 、 磁 盘 控 制 器 、IO 总 线 、 总 线 
驱动 、 磁 盘 控 制 器 驱动 、 卷 管理 软件 程序 、OS 磁盘 管理 器 中 看 见 的 磁盘 设备 。 

而 高 级 卷 管理 软件 是 将 原本 OS 自 带 的 简陋 的 卷 管理 功能 进行 了 扩展 ， 比 如 可 以 对 多 个 磁盘 
进行 组 合 、 再 分 等 。 不 管 是 OS 单一 VM 还 是 高 级 VM， 磁盘 在 VM 这 一 层 处 理 之 后 ， 应 该 称 为 
卷 比较 恰当 ， 就 算 卷 只 由 一 块 磁盘 抽象 而 成 ， 也 不 应 该 再 称 作 磁 盘 了 。 因 为 磁盘 这 个 概念 只 有 对 
磁盘 控制 器 来 说 才 有 意义 。 

磁盘 控制 器 看 待 磁盘 ， 真 的 就 是 由 盘 片 和 磁头 组 成 。 而 卷 管理 软件 看 待 磁盘 ， 会 认为 它 是 一 
个 线性 存储 的 大 仓库 ， 而 不 管 这 个 仓库 用 的 是 什么 存储 方式 ， 仓 库 每 个 房间 都 有 一 个 地 址 (LBA 
逻辑 块 地 址 ) ，VM 必须 知道 这 些 地 址 一 共有 多 少 。 它 让 库 管 员 ( 磁盘 控制 器 驱动 软件 ) 从 某 一 
段 地 址 ( LBA 地址 段 ) 存 取 某 些 货物 (数据 ) ,那么 库 管 员 就 得 立即 操控 他 的 机 器 ( 磁盘 控制 器 ) 
来 到 各 个 房间 存 取 货 物 ( 数据 ) 。 这 就 是 VM 的 作用 。 

在 底层 磁盘 扩容 之 后 ， 磁 盘 控 制 器 驱动 程序 会 和 VM 打 个 招呼 : 我 已 经 增 大 了 多 少 容量 了 ， 
你 看 着 办 吧 。 卷 说 : “好 ， 你 不 用 管 了 , 专心 在 那 干 活 吧 , 我 告诉 你 读 写 哪个 LBA 地 址 的 数据 你 
就 照 我 的 话 办 。” 这 样 之 后 ，VM 就 会 直接 将 等 待 扩容 的 卷 的 容量 立即 扩大 ， 放 入 池 中 备用 ， 对 
上 层 应 用 没有 丝毫 影响 。 所 以 VM 可 以 屏蔽 底层 的 变化 。 

至 于 扩容 和 收缩 逻辑 卷 ,， 对 VM 来 说 是 小 事 一 桩 。 但 是 对 于 其 上 的 文件 系统 来 说 ， 处 理 起 来 
就 复杂 了 。 所 以 扩大 和 收缩 卷 ， 需要 其 上 的 文件 系统 来 配合 ， 才 能 不 影响 应 用 系统 。 


5.5.5 ”低级 VM 和 高 级 VM 


1. MBR 和 VGDA 


分 区 管理 可 以 看 作 是 一 种 最 简单 的 卷 管理 方式 ， 它 比 LVM 等 要 低级 。 分 区 就 是 将 一 块 磁盘 
抽象 成 一 个 仓库 ， 然 后 将 这 个 仓库 划分 成 具体 的 一 库 区 、 二 库 区 等 。 因 为 一 个 仓库 太 大 的 话 ， 对 
用 户 来 说 很 不 方便 。 比 如 一 块 100GB 的 磁盘 ， 如 果 只 分 一 个 区 , 就 显得 很 不 便于 管理 。 有 两 种 方 
法 解决 这 个 问题 : 

(1) 可 以 用 低级 VM 管理 软件 ， 比 如 Windows 自 带 的 磁盘 管理 器 ， 对 这 个 磁盘 进行 分 区 ; 

(2 ) 用 高 级 VM 管理 软件 ， 将 这 个 盘 做 成 卷 ， 然 后 灵活 地 进行 划分 逻辑 卷 。 
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这 两 种 方法 可 以 达到 将 一 个 仓库 逻辑 划分 成 多 个 仓库 的 效果 。 所 不 同 的 是 分 区 管理 这 种 低级 
卷 管理 方式 ， 只 能 针对 单个 磁盘 进行 再 划分 ， 而 不 能 将 磁盘 合并 再 划分 。 

思考 : 对 于 低级 VM 的 分 区 管理 来 说 ， 必 须 有 一 个 东西 来 记录 分 区 信息 ， 如 第 一 仓库 

是 整个 仓库 的 哪些 房间 ， 从 第 几 个 房间 开始 到 第 几 个 结束 是 第 二 仓库 区 等 这 些 信息 。 

样 ， 每 次 0S 启动 的 时 候 ，VM 通过 读 取 这 些 信息 就 可 以 判断 这 个 仓库 一 共有 几 个 逻辑 

域 ， 从 而 在 “我 的 电脑 ”中 显示 出 逻辑 磁盘 列表 。 那 么 怎么 保存 这 个 分 区 信息 呢 ? 


毫 无 疑问 ， 它 不 能 保存 在 内 存 里 ， 更 不 能 保存 在 CPU 里 ， 它 只 能 保存 在 磁盘 上 。 分 区 信息 
被 保存 在 分 区 表 中 ， 分 区 表 位 于 磁盘 0 磁道 0 磁头 的 0 号 扇 区 上 ， 也 就 是 LBA1 这 个 地 址 的 扇 区 
上 。 这 个 扇 区 又 叫做 MBR ， 即 主 引导 记录 。MBR 扇 区 不 仅仅 保存 分 区 表 ， 它 还 保存 了 BIOS 跳 
转 时 所 需要 执行 的 第 一 句 指令 代码 ， 所 以 才 叫 做 主 引导 记录 。 

BIOS 代码 都 是 固定 的 ， 它 每 次 必定 要 执行 LBA1 扇 区 上 的 代码 。 如 果 修 改 BIOS， 让 它 执行 
LBA100 扇 区 的 代码 ， 也 可 以 ， 完 全 可 以 。 但 是 现在 的 BIOS 都 是 执行 LBA1 处 的 代码 ， 没 人 去 改 
变 。 而 新 出 的 规范 EFI 将 要 取代 BIOS, 并 且 在 安 腾 机 上 已 经 使 用 了 , 一 些 苹果 笔记 本 也 开始 使 用 
EFI 作为 BIOS 的 蔡 代 。 在 EFI 中 可 以 灵活 定制 这 些 选项 ， 比 如 从 哪里 启动 ， 不 仅 可 以 选择 设备 ， 
还 可 以 选择 设备 上 的 具体 地 址 。 

MBR 中 除了 包含 启动 指令 代码 ， 还 包含 分 区 表 。 通 常 启动 时 ， 程 序 都 会 跳 转 到 活动 分 区 去 
读 取 代码 做 OS 的 启动 ， 所 以 必须 有 一 个 活动 分 区 。 这 在 分 区 工具 中 可 以 设置 。 

高 级 卷 管理 软件 在 划分 了 逻辑 卷 之 后 ， 一 定 要 记录 逻辑 卷 是 怎么 划分 的 ， 比 如 LVM 就 需要 
记录 PV 的 数量 和 信息 、PP 的 大 小 、 起 始 位 置 及 LV 的 数量 和 信息 等 。 这 些 信息 都 要 保存 在 磁盘 
上 , 所 以 也 要 有 一 个 数据 结构 来 存储 。 这 个 数据 结构 , LVM 使 用 VGDA( Volume Group Descriptor 
Area ) 。 每 次 启动 系统 ，VM 就 是 通过 读 取 这 些 数据 来 判断 目前 的 卷 情 况 并 挂 载 LV 的 。VGDA 
的 大 致 结构 示意 图 如 图 5-74 所 示 。 


多 放风 


Volume Group (VG,) 
[| | nn 


图 5-74 VGDA 示意 图 

不 管 是 MBR 中 的 分 区 表 , 还 是 VGDA9 数据 结构 ， 一 旦 这 些 信息 丢 失 ， 逻 辑 卷 信 息 就 会 丢 
失 ， 整 个 系统 的 数据 就 不 能 被 访问 。 

低级 VM 在 给 磁盘 分 区 的 时 候 , 会 更 新 MBR 中 的 分 区 表 ; 高 级 VM 做 逻辑 卷 的 时 候 , 同样 
也 会 更 新 VGDA 中 的 数据 。 其 实 高 级 VM 初始 化 一 组 新 磁盘 的 时 候 ， 并 没有 抛弃 MBR。 因 为 它 
们 除了 写 入 VGDA 信息 之 外 , 也 要 更 新 MBR 扇 区 中 的 分 区 表 , 将 用 于 启动 基本 操作 系统 的 代码 
单独 存放 到 一 个 小 分 区 中 ， 并 标明 分 区 类 型 为 bootable 类 型 ， 证 明 这 个 分 区 是 用 于 在 卷 管理 模块 
还 没有 加 载 之 前 启动 操作 系统 的 。 并 将 磁盘 所 有 剩余 容量 划分 到 一 个 分 区 中 ， 并 标明 这 个 分 区 的 
类 型 ， 如 AIX 类 型 。 

在 安装 Linux 的 时 候 , 必须 单独 划分 一 个 /boot 分 区 , 这 个 分 区 就 是 用 于 启动 基本 操作 系统 用 
的 ，100MB 大 小 足 侨 。 启 动 操作 系统 所 必需 的 代码 都 放 在 这 个 分 区 。 同 样 AIX 系统 也 要 保留 一 
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个 分 区 用 来 启动 最 基本 的 操作 系统 代码 。 这 也 是 AIX 在 进行 了 Mirrorvg 镜像 操作 之 后 , 需要 执行 
BOSboot 命令 来 写 入 boot 分 区 的 内 容 的 原因 ， 因 为 boot 分 区 没有 参与 VM 管理 。 这 个 启动 分 区 
是 不 能 做 到 VM 中 的 ， 因 为 VM 代码 不 是 在 BIOS 将 控制 交 给 OS 的 时 候 一 开始 就 执行 的 。 

总 之 , 高 级 VM 没有 抛弃 MBR 分 区 的 解决 方案 , 而 是 在 MBR 基础 上 , 又 增加 了 类 似 VGDA 
这 种 更 加 灵活 的 数据 结构 来 动态 管理 磁盘 。 


2. RAID 功能 

高 级 VM 软件 一 般 均 带 有 软 RAID 功能 ， 可 以 实现 逻辑 卷 之 问 的 镜像 。 更 有 甚 者 ， 有 些 VM 
甚至 实现 了 类 似 RAID 0 的 条 带 化 。 在 卷 的 级 别 条 带 化 ， 达 到 在 物理 盘 级 别 条 带 化 同样 的 目的 。 
但 是 如 果 磁 盘 已 经 被 硬件 RAID 控制 器 条 带 化 过 了 ， 并 且 这 些 LUN 是 在 一 个 RAID Group 中 ， 
那么 VM 再 来 条 带 化 一 下 子 不 但 没有 必要 ， 而 且 可 能 二 次 条 带 化 会 将 效果 抵消 。 

Windows 的 动态 磁盘 VM 还 可 以 以 纯 软件 方式 实现 RAID 5, 所 有 计算 都 靠 CPU, 所 以 也 就 注 
定 了 它 比 硬件 RAID 更 灵活 ， 但 在 高 系统 负载 的 情况 下 ， 它 相 比 硬件 RAID 来 说 速度 和 性 能 稍 差 。 
5.5.6 ”VxVM 卷 管 理 软件 配置 简介 

VxVM 是 Veritas 公司 开发 的 一 个 高 级 卷 管理 软件 ,支持 RAID 0.RAID 1、RAID 01 和 RAID 5 
四 种 软 RAID 模式 ， 支 持 动态 扩大 和 缩小 卷 容量 。 

下 面 的 例子 是 在 一 个 UNIX 系统 中 对 4 块 磁盘 做 卷 管理 的 案例 .所 有 命令 均 在 UNIX 的 Shell 
下 执行 。 

1. 创建 磁盘 组 


磁盘 组 就 是 将 所 有 磁盘 作为 一 个 大 的 资源 池 ， 卷 将 在 这 个 池 中 产生 。 
首先 ， 初 始 化 硬盘 。 
"vxdisksetup -idiskl 


" vxdisksetup -idisk2 
" vxdisksetup -idisk3 
mVvxdisksetup -idisk4 


然后 创建 一 个 名 为 “DataDG” 的 磁盘 组 ， 该 磁盘 组 包含 了 disk1 、disk2 、disk3 和 disk4 四 个 
磁盘 。 


"vxdg init DataDG diskl disk2 disk3 disk4 

除了 这 种 方法 ， 用 户 还 可 以 用 以 下 方法 来 创建 磁盘 组 。 

= vxdg init DataDG DataDG01=disk1 ( 创建 一 个 只 包含 disk1 的 磁盘 组 ) 

"vxdg gDataDG adddisk DataDG02=disk2 (将 disk2 加 入 到 该 磁盘 组 ) 

"vxdg ”gDataDG adddisk DataDG03=disk3 (将 disk3 加 入 到 该 磁盘 组 ) 

"vxdg ”gDataDG adddisk DataDG03=disk4 (将 disk4 加 入 到 该 磁盘 组 ) 

如 果 用 户 在 所 需 磁盘 空间 不 足 ， 需 要 扩容 的 时 候 ， 利 用 添加 磁盘 到 磁盘 组 的 方法 ， 就 可 以 在 


146 


第 5 章 降 龙 传说 一 RAID、 虚 拟 磁盘 、 卷 和 文件 系统 实战 @ 


不 破坏 现 有 环境 的 情况 下 扩大 系统 的 容量 。 
2. 创建 卷 


创建 卷 必须 指明 在 哪个 磁盘 组 下 面 创建 ， 最 常用 的 方法 如 下 : 

™ vxassist gDataDG make DataVolA 5g 

该 命令 将 在 DataDG 磁盘 组 上 创建 名 为 “DataVolA” 的 卷 ， 卷 的 大 小 是 5GB。 

如 果 用 户 希 望 该 卷 只 创建 在 diskl 和 disk2 上 面 , 不 占用 disk3 和 disk4 的 空间 , 那么 可 以 执行 
下 列 命令 。 

®™ vxassist gDataDG make DataVolA Sg diskl disk2 

创建 一 个 5GB 大 小 的 条 带 卷 (RAID 0 ) 。 

®™ vxassist gDataDG make DataVolB 5g layout=stripe 

这 样 就 在 DataDG 磁盘 组 上 面 建立 了 一 个 名 为 “DataVolB” 的 5GB 大 小 的 条 带 卷 。 

提示 : 4 块 物理 磁盘 中 ,只 有 5GB 的 空间 是 条 带 化 的 ,剩余 的 空间 还 是 常规 的 磁盘 空间 。 
为 什么 呢 ? 条 带 化 RAID 0 不 是 需要 至 少 两 块 物理 硬盘 么 ”这 就 是 卷 管理 软件 的 优越 性 
了 。 我 们 上 文 提 过 ， 卷 管理 软件 将 物理 磁盘 划分 为 PP 和 LV， 所 以 有 了 更 加 细 粒 度 的 存 
储 单位 ， 条 带 化 可 以 在 这 些 LV 之 间 进 行 ， 而 其 他 LV 不 受 影响 

创建 RAID 5 格式 的 卷 。 

® Vxassist gDataDG make DataVolC 5g layout=RAID 5 

注意 : RAID 5 至 少 需要 3 块 盘 ， 和 否则 不 能 成 功 。 因 为 两 块 盘 的 RAID 5， 还 不 如 做 
RAID 1。 但 是 3 块 盘 的 RAID 5 不 能 获得 并 发 I0 性 能 


创建 镜像 卷 (RAID 1) 。 

® vxassist gDataDG make DataVolD 5g layout=mirror 

创建 RAID 10 卷 。 

" vxdg init RAID 10dg diskl disk2 disk3 disk4 

创建 磁盘 组 

. vxassist g RAID 10dg RAID 10vol 5g layout=mirror—stripe 
创建 RAID 01 卷 。 

" vxdg init RAID Oldg diskl disk2 disk3 disk4 

创建 磁盘 组 。 

avxassist  gRAID 01dg RAID 01vol 5g layout= stripe 一 mirror 


3. 创建 文件 系统 并 使 用 


" mkfs Fvxfs /dev/vx/rdsk/DataDG/DataVolA 
" mount Fwvxfs /dev/vx/dsk/DataDG/DataVolA /mnt 
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以 上 例子 将 卷 DataVolA 格式 化 成 VxFS ( Veritas 公司 的 文件 系统 ) 格式 ， 然 后 挂 载 于 /mnt 


录 下 ， 执 行 命令 cd /mnt 之 后 ， 就 可 以 读 写 这 个 卷 的 内 容 了 。 


4. 动态 扩大 和 缩小 卷 


将 卷 空间 增加 到 10GB。 

™ vxassist ~g DataDG growto DataVolA 10G 

更 改 之 后 ， 卷 的 容量 将 会 变 成 10GB。 或 者 用 vxresize 命令 。 
"vxresize ~g DataDG DatavolA 10G 

将 卷 容量 增加 10GB。 

"vxassist ~g DataDG growby DataVolA 10G 

或 者 用 vxresize 命令 : 

"vxresize ~g DataDG DatavolA +10G 

这 样 ， 更 新 之 后 卷 的 容量 将 在 原来 的 基础 上 增加 10GB 大 小 。 


5. 文件 系统 动态 扩容 
卷 扩容 之 后 ， 只 是 在 卷 的 末尾 增加 了 一 块 多 余 空 间 。 这 块 空间 如 果 没 有 文件 系统 的 管理 就 无 


法 存放 文件 ， 所 以 必须 让 文件 系统 将 这 块 多 余 的 空间 利用 起 来 。 


"fadm Fvxfs —b 10240000 rdev/vx/rdsk/DataDG/DataVolA /mnt 
6. 文件 系统 缩小 


ball 更 多 空间 ， 则 在 缩小 卷 空间 之 前 ， 必 须 缩小 文件 系统 的 空间 。 
是 说 ， 被 裁 掉 的 卷 空间 上 存放 的 数据 ， 需 要 转移 到 卷 剩 余 的 空间 上 存放 ， 所 以 剩余 空间 必须 
， 以 便 容 纳 被 裁 掉 空间 中 的 数据 。 


" fsadm 一 F vxfs ~b 5120000 rdev/vx/rdsk/DataDG/DataVolA /mnt 

以 上 命令 将 这 个 卷 上 的 文件 系统 缩小 至 5GB 大 小 。 剩 余 的 5GB 没有 数据 ， 可 以 被 裁剪 掉 。 
7. 卷 容量 缩小 

在 缩小 了 文件 系统 之 后 ， 卷 容量 方 可 缩小 。 

"vxassist 一 g DataDG shrinkto DataVolA 5G 

"vxresize 一 g DataDG DataVolA 5G 

上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 变 为 5GB。 

=" vxassist 一 g DataDG shrinkby DataVolA 5G 


=" vxresize ~g DataDG DataVolA —5G 
上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 在 原来 的 基础 上 缩减 5GB。 
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8. 从 磁盘 组 中 移 除 磁盘 


若 想 从 磁盘 组 中 移 除 一 块 或 者 几 块 物理 磁盘 ， 则 必须 先 将 待 移 除 物理 磁盘 上 的 数据 转移 到 磁 
盘 组 中 的 其 他 物理 磁盘 的 剩余 空间 中 ， 这 个 动作 通过 下 面 的 命令 完成 。 

"vxevac —g DataDG DataDG04 DataDG03 

上 面 的 命令 将 disk4 中 的 数据 转移 到 disk3 上 。 除 了 容量 改变 之 外 ， 不 会 影响 卷 的 其 他 信息 。 

"vxdg—g DataDG rmdisk disk4 

上 面 的 命令 将 已 经 没有 数据 的 disk4 物理 磁盘 从 磁盘 组 DataDG 中 移 除 ( 逻辑 移 除 ) 。 

"vxdiskunsetup —C Disk4 

上 面 的 命令 将 disk4 物理 磁盘 从 整个 VxVM 管理 模块 中 注销 。 


5.6 ”大 话 文件 系统 


5.6.1 ”成 何 体 统一 一 没有 规矩 的 仓库 


话说 这 一 天 , 老道 闲 来 无 事 ， 在 后 山 溜 达 。 他 走 到 了 武当 的 粮 库 门 口 ， 发 现 这 里 堵 了 一 大 帮 
人 。 老道 上 前 一 问 ， 原 来 这 些 人 都 是 各 个 院 来 领取 粮食 的 。 只 见 他们 一 拥 而 上 ， 进 入 仓库 就 各 自 
找 自己 的 房间 去 搬 粮 食 。 老 道 一 看 ， 怎 么 这 么 乱 呢 ? 就 不 能 有 个 顺序 么 ? 
他 向 其 中 一 个 小 道 打听 了 一 下 ， 这 才 知 道 ， 造 成 这 种 乱七八糟 进入 粮 库 搬 粮 食 局 面 的 原因 ， 
是 因为 当初 没有 好 好 规划 仓库 。 上 个 月 ， 各 个 院 从 山下 各 自 运 了 粮食 上 来 ， 当 时 的 政策 是 大 家 各 
自 进入 仓库 ， 自 己 找 房 间 放 自 己 的 粮食 ， 自 己 找 了 哪些 房间 放 粮 食 ， 自 己 记 住 了 。 到 取 粮 食 的 时 
候 ， 大 家 根据 自己 记录 的 房间 来 进入 取 粮 。 这 个 政策 看 似 没什么 可 非议 的 ， 实 则 不 然 。 如 今 山 下 
粮食 供应 紧张 ， 造 成 大 家 各 顾 各 的 ， 没 有 顺序 ， 岂 能 不 乱 ? 老道 进入 粮仓 一 看 ， 眼 前 一 片 狼藉 ! 
土豆 、 西 红 柿 酒 落得 满 地 都 是 。 这 间 房 放 这 样 ， 那 间 房 放 那 样 ， 就 不 能 顺序 地 堆放 粮食 蔬菜 ? 成 
何 体 统 ! ! 

提示 : 在 早期 的 计算 机 系统 中 ,每 个 程序 都 必须 自己 管理 磁盘 ,在 磁盘 中 放 自 己 的 数据 ， 

程序 需要 直接 和 磁盘 控制 器 打交道 。 有 多 少 个 程序 要 利用 磁盘 ， 就 有 多 少 个 和 磁盘 交互 

的 驱动 接口 。 


老道 摇 了 摇头 ， 得 想 个 办 法 彻底 解决 这 个 问题 。 老 道 回 到 了 书房 ， 闭 目 思 索 。 首 先 大 家 不 能 
都 堵 在 门口 ， 那 么 必须 让 他 们 排 起 队 来 。 其 次 ， 每 个 人 各 顾 各 ， 自 己 记录 自己 用 了 哪 间 房子 ,一 
个 是 浪费 ， 另 一 个 是 容易 造成 冲突 。 一 旦 某 个 人 记 错 了 ， 就 会 影响 其 他 人 。 那 么 就 应 该 只 让 一 个 
人 记录 所 有 人 的 信息 ， 他 自己 不 会 和 自己 冲突 。 同 样 这 个 人 也 要 充当 一 个 门卫 的 作用 ， 接 待 来 取 
粮 或 者 送 粮 的 人 ， 让 他 们 按 一 定 的 顺序 来 运作 。 

最 终 决定 就 应 该 是 这 样 的 : 找 一 个 人 ,这 个 人 的 职责 就 是 接待 来 取 粮 或 者 送 粮 的 人 ,把 要 取 
的 或 者 要 送 的 粮食 的 名 称 和 数量 等 信息 先 登记 在 这 个 人 的 一 个 本 子 上 ， 然 后 由 这 个 人 来 合理 地 选 
择 仓库 中 的 房间 , 存放 或 提取 登记 在 案 的 粮食 , 而 且 提取 或 放 入 粮食 之 后 要 将 本 子 上 的 记录 更 新 ， 
以 便 下 次 备查 。 嗯 ， 这 么 做 就 好 多 了 ， 哈 哈哈 哈 ! 这 天 晚上 的 北斗 七 星 ， 光 芒 格外 济 眼 。 
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5.6.2 ”慧眼 识 人 一 一 交 给 下 一 代 去 设计 


第 二 天 , 老道 亲自 挑选 了 一 位 才思 敏捷 、 内 向 稳重 、 善 于 思考 的 道士 来 担任 这 个 重要 的 角色 。 
让 他 和 库 管 员 一 起 完成 管理 粮 库 的 工作 ， 给 他 起 了 一 个 职称 ， 叫 做 理 货 员 。 并 且 将 自己 的 想法 告 
诉 了 这 位 道士 ， 让 他 当晚 就 考虑 出 一 套 符 合 这 个 思想 的 方法 ， 还 可 以 做 出 改进 意见 。 

就 这 样 ， 又 过 了 一 晚 。 第 三 天 ， 这 位 道士 上 任 了 。 一 大 早 ， 张 老道 就 在 暗中 观察 。 这 时 候 ， 
一 个 送 粮食 的 人 来 了 ， 他 带 了 1024 斤 土 豆 和 512 斤 白菜 。 这 人 还 是 按 老 习惯 ， 上 来 就 往 仓库 问 。 
小 道士 截 住 了 他 : “ 道 长 且慢 ! 请 问 您 送 的 是 什么 蔬菜 ? ” 那 人 道 : “土豆 和 白菜 ! ”小 道士 又 
道 : “土豆 多 少 斤 ? ” 答 日 : “ 士 豆 1024 斤 。” ( 上面 这 个 过 程 就 是 应 用 程序 和 FS 的 API 交互 
的 过 程 ) 。 小 道士 笑 道 : “ 道 长 尽 可 放心 将 土豆 交 于 我 ， 我 自 当 为 您 找 房间 存放 。” 然 后 小 道士 
到 仓库 中 找 了 两 个 空房 间 , 每 个 房间 放 了 512 斤 土豆 。 并 在 本 子 上 记录 : “土豆 1024 斤 房间 1- 
2。” 接 着 他 就 命令 库 管 员 来 搬运 货物 到 相应 的 房间 。 

道士 给 每 个 库 区 都 预备 了 一 个 记录 本 。 小 道士 不 关心 具体 房间 到 底 在 仓库 哪里 ， 怎 么 走 才能 
达到 ， 这 些 事情 统统 由 库 管 员 来 协调 。 小 道士 同样 也 不 关心 来 送 货物 的 人 到 底 送 的 是 什么 货物 。 
如 果 送 粮 的 人 告诉 他 ， 请 给 我 存放 mbbish 1000 斤 ， 道 土 眼 都 不 瞬 照 样 给 他 存放 。 一 旦 仓库 的 房 
间 都 满 了 ， 小 道 长 再 次 命令 库 管 员 搬运 货物 的 时 候 ， 库 管 员 就 会 告诉 他 ,已 经 没有 房间 了 。 那 么 
道 长 就 告诉 来 存放 货物 的 人 : “对 不 起 ， 空 间 不 足 。” 

用 同样 的 方法 , 小 道士 将 那 人 的 白菜 , 也 放 到 了 一 间 房 中 , 记录 下 : “白菜 512 斤 房间 3”。 
然后 向 那 人 说 到 : “这 位 道 长 ， 您 下 次 来 取 的 时 候 ， 直 接 向 我 说 要 某 厨房 存放 的 土豆 多 少 斤 就 可 
以 了 ,我 会 帮 您 找到 并 取出 。” 那 人 非常 满意 地 离 去 了 。 接 着 又 有 很 多 人 也 来 送 取 冬瓜 、 南 瓜 、 
西瓜 、 大 米 、 面 粉 等 粮食 蔬菜 ， 小 道士 一 一 对 应 ， 有 条 有 理 。 小 道士 也 专门 给 自己 在 每 个 库 区 中 
预 留 了 几 间 房 ， 用 于 存放 他 那 一 本 本 厚 厚 的 记录 。 老 道 一旁 看 了 ， 频 频 点 头 ，“ 嗯 ， 前 途 无 量 ， 
前 途 无 量 啊 ， 啊 哈哈 哈哈 哈 ! ! ! ” 

过 了 几 天 ， 张 真人 又 来 探查 。 此 时 只 见 有 个 人 一 下 送 来 10 000 斤 大 米 。 小 道 长 开始 只 是 表示 
吃惊 ， 并 没有 多 想 ， 仍 旧 按 照 老 办 法 ， 记 录 : “大 米 10 000 斤 ， 房 间 4 一 4096”。 接 着 又 来 了 一 位 
要 存放 65 535 斤 小 麦 的 。 这 下 可 苦 了 小 道士 了 ,把 他 累 得 够 哈 。 随 着 全 国 粮食 大 丰收 ， 存 粮 数 量 动 
辑 上 万 斤 。 这 让 小 道士 苦 不 堪 言 ， 他 决定 思考 一 种 解决 方法 。 第 二 天 ， 小 道 长 将 每 8 个 房间 划分 为 
一 个 逻辑 房间 ， 称 作 “ 徐 ”。 第 一 簇 对 应 房间 1、2、3、4、5、6、7、8， 第 二 簇 对 应 房间 9、10、 
11、12、13、14、15、16， 依 此 类 推 。 这 样 道 士 记录 的 数字 量 就 是 原来 的 八 分 之 一 了 。 比 如 4000 
斤 粮食 ， 只 需 记 录 “ 纂 1” 就 可 以 了 。 老 道 心中 暗 想 ，“ 咽 ,不 错 ,我 没 看 错 人 ! ”这 一 年 ， 因 为 
大 丰收 ， 粮 食 降价 了 。 农 民 丰 产 不 丰收 ， 很 多 农民 打算 第 二 年 不 种 粮 了 ， 改 做 其 他 小 生意 。 


5.6.3 无孔不入 一 一 不 浪费 一 点 空间 


第 二 年 ， 果 然 不 出 张 老道 所 料 ， 全 国 粮 食 大 减产 ,价格 飞涨 ， 全面 进入 恐慌 阶段 。 张 真人 基 
谈 济 世 ， 开 仓 放 粮 ， 平 息 物价 。 这 一 举动 受到 了 老百姓 的 称赞 和 感激 ， 但 也 招致 了 一 小 部 分 奸商 
的 忌 恨 。 

放 粮 消息 宣布 之 后 ， 山 下 老百姓 都 排队 来 武当 买 粮 。 这 可 忙 坏 了 理 货 员 道士 ,连续 几 天 没 休 
息 ， 给 老百姓 取 粮 食 。 一 个 月 之 后 ， 武 当 粮 库存 粮 已 经 所 剩 无 几 ， 张 老道 和 众 院 道士 每 天 省 吃 俭 
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用 ， 为 的 是 给 老百姓 多 留 点 存粮 。 

大 恐慌 的 一 年 ， 终 于 熬 过 去 了 。 农 民 一 看 粮食 价格 那么 高 ， 第 三 年 又 都 准备 种 粮 了 。 不 出 意 
料 , 这 一 年 粮食 又 得 丰收 ! 张 老道 提前 考虑 他 的 粮 库 在 这 一 年 的 使 用 问题 了 , 他 叫 来 理 货 员 道士， 
让 他 回去 考虑 一 个 问题 : 经 过 了 去 年 的 折腾 ， 仓 库 中 的 存货 是 零 零 散 散 ， 乱七八糟， 为 了 准备 这 
一 年 大 量 粮食 涌 入 仓库 ， 必 须 解决 这 个 问题 ， 让 他 回去 考虑 解决 办 法 。 其 实 张 老道 早 就 在 心里 盘 
算出 了 解决 办 法 了 。 

第 二 天 ， 理 货 员 趁 入 少 的 时 候 ， 就 命令 库 管 员 ; “请 帮 我 把 房间 XXXX 的 货物 移动 到 房间 
XXXX 处 ， 请 帮 我 把 房间 XXX 的 货物 移动 到 房间 XXX 处 ……。” 

这 可 累 坏 了 库 管 员 。 但 是 经 过 几 个 时 辰 的 整理 之 后 , 仓库 里 的 货物 重新 变 得 连续 , 井井有条 。 
老道 称赞 说 : “不 错 ! 继续 努力 ! ” 

这 天 晚上 , 小 道 长 也 没 闲 着 , 他 继续 思考 , 今天 是 有 时 间 整 理 货物 , 如 果 一 旦 遇 到 忙 的 时 候 ， 
没有 时 间 整 理 货物 ， 那 麻烦 就 大 了 ， 得 想 一 种 一 劳 永 逸 的 办 法 。 有 些 人 来 送 完 粮 食 之 后 ， 第 二 天 
就 来 取 了 ， 这 个 真是 头疼 了 。 因 为 我 都 按照 顺序 将 每 个 人 的 粮食 连续 存放 到 各 个 自 中 ， 他 一 下 到 
走 了 , 对 应 的 簇 就 室 了 。 如 果 再 有 人 来 ,他 带 的 货物 数量 如 果 这 个 空 复 能 存 下 还 好 , 可 以 接着 用 。 
如 果 存 不 下 呢 ? 还 得 找 新 的 连续 空 复 来 存放 。 如 果 这 种 情况 出 现 太 多 ,那么 整个 仓库 就 是 干 疮 百 
孔 ， 大 的 放 不 下 ， 小 的 放下 了 又 浪费 空间 …… 真 头疼 。 他 冥 思 苦 想 ， 最 后 终于 想 出 一 个 办 法 。 

一 早 仓库 还 没有 开门 的 时 候 ， 小 道 长 就 来 了 ， 他 把 所 有 记录 本 都 拿 了 出 来 ， 进 行 修改 。 他 原 
本 对 每 个 来 送 货 的 人 ， 都 只 用 一 条 简单 记录 来 描述 它 ， 描 述 中 包含 3 个 字段 : 名称 、 大 小 和 存放 
位 置 。 比 如 冬瓜 10 000 斤 簇 1 一 3。 此 时 仓库 中 ,虽然 总 空余 空间 远 远 大 于 10 000 斤 的 量 ,但 是 
已 经 没有 能 连续 地 放 入 10 000 斤 大 小 的 签 空 间 , 那么 这 个 货物 就 不 能 被 放 入 仓库 ， 而 这 是 不 能 容 
忍 的 一 种 浪费 。 有 一 个 办 法 ， 就 是 上 面 说 过 的 ， 找 空闲 时 间 来 整理 仓库 ， 整 理 出 连续 的 空间 来 。 
这 次 小 道 长 想 出 了 另 一 个 方法 ， 就 是 将 货物 分 开 存放 ， 并 不 一 定 非 要 连续 存放 在 仓库 。 因 为 仓库 
已 经 被 逻辑 分 割 成 一 徐 (8 个 房间 ) 为 最 小 单位 存放 货物 。 那 么 就 可 以 存在 类 似 这 样 的 描述 方式 : 
冬瓜 10 000 斤 徐 2、6、19。 也 就 是 说 这 10 000 斤 的 冬瓜 是 分 别 被 按 顺 序 存放 在 仓库 的 2 号 簇 、 
6 号 簇 和 19 号 簇 中 的 。 取 出 的 时 候 ， 需 要 先 去 2 号 取出 货物 ， 再 跨 过 3 个 簇 去 6 号 ， 再 跨 过 13 
个 自 去 19 号 。 都 取出 后 再 交 给 提货 人 。 这 样 确实 慢 了 点 ， 但 是 完美 地 解决 了 空间 浪费 的 问题 。 


5.6.4 “一箭双雕 一 一 一 张 图 解决 两 个 难题 


粮食 大 丰收 果然 又 被 张 老道 猜 中 了 ， 这 次 小 道 长 是 应 对 自如 ,一丝 不 乱 。 老 道 喷 喷 称赞 ! 但 
是 老道 却 从 小 道士 的 记录 中 ， 又 看 出 了 一 些 问题 ， 他 告诉 小 道士 ， 要 继续 思考 更 好 的 解决 办 法 。 
小 道士 心 很 灵 ， 他 知道 这 个 方法 确实 解决 了 问题 ， 但 是 有 缺陷 ,会 有 后 患 ， 只 不 过 现在 的 环境 并 
没有 显示 出 来 。 这 天 上 晚上， 小道 在 仓库 睡觉 ， 没 有 回去 。 


提示 : 看 着 他 那些 记录 ， 只 见 上 面 一 条 一 条 、 一 行 一 行 的 , 却 也 比较 有 条 理 。 但 是 仔细 一 
看 发 现 ， 每 一 条 记录 的 最 后 一 个 字段 ， 也 就 是 描述 货物 存放 在 哪些 篮 的 那个 字段 ， 非 常 凌 
乱 ， 因 为 每 个 人 送 来 的 货物 数量 不 一 样 ， 那 么 就 注定 这 个 字段 长 短 不 一 ， 显 得 非常 乱 。 
现在 记录 不 是 很 多 ， 但 记录 一 旦 增多 ， 每 次 查询 的 时 候 就 很 不 好 办 。 而 且 要 找 一 个 未 被 
占用 的 位 ， 需 要 把 所 有 已 经 被 占用 的 全 找 出 来 ， 然 后 才 去 选择 一 个 未 被 占用 的 徐 ， 分 配 
给 新 的 货物 存放 。 这 个 过 程 是 非常 耗 时 间 的 ， 货 物 少 了 还 可 以 ， 货 物 一 多 ,， 那 可 就 费劲 
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了 。“ 嗯 ， 张 真人 让 我 继续 思考 ， 确 实 是 有 道理 的 ， 这 两 个 隐患 ， 确 实 是 致命 的 ， 尤 其 
是 第 二 个 。 得 继续 找 新 方法 。” 


提示 : 小 道士 继续 思考 。 第 一 个 问题 ， 要 想 解决 长 短 不 一 的 毛病 ， 最 简单 的 就 是 给 他 一 
个 定 长 的 描述 字 , 这 仿佛 是 不 可 能 的 , 有 的 需要 1 个 簇 就 够 了 , 有 的 却 需要 10 个 甚至 100 
个 , 如 果 把 这 需要 10 个 簇 的 和 需要 1 个 簇 的 , 都 用 1 个 簇 来 描述 , 那么 确实 非常 漂亮 了 ， 
记录 会 非常 工整 。 


想到 这 里 ,小 道士 累 了 , 想 出 去 走 走 。 他 溜达 到 一 个 路 口 , 看 见 路 口上 有 路 标牌 ,上面 写 着 : 
“去 会 客厅 请 走 左边 ,去 习 武 观 请 走 右边 。” 小 道士 顺 着 路 标 指向 , 走 了 右边 , 然后 又 遇 到 一 个 路 
标 : “去 习 武 观 请 走 左边 ， 下 山 请 走 右边 。” 道 十 走 了 左边 ， 最 终 来 到 了 习 武 观 。 他 看 着 习 武 观 
正中 央 的 那个 醒目 的 “ 道 ” 字 ， 忽 然 眼前 一 亮 ! 

他 迅速 原 路 返回 到 粮 库 ， 拿 出 记录 本 ， 将 其 中 一 条 记录 改 为 : “冬瓜 10 000 斤 首 簇 1”。 
每 条 记录 都 改 成 这 种 形式 ， 也 就 是 只 描述 这 个 货物 占用 的 第 一 个 簇 的 号 码 ， 这 样 完美 解决 了 记录 
长 短 不 一 的 问题 ， 那 么 后 续 的 徐 呢 ”只 知道 首 徐 ， 独 余 的 不 知道 ， 一 样 不 能 全 部 把 货物 取出 。 

所 以 小 道士 参照 路 标的 形式 ， 既 然 知道 了 首 得 号 ， 那 么 如 果 找到 首 簇 ， 再 在 首 艇 处 作 一 个 标 
记 ， 写 明 下 一 个 簇 是 多 少 号 ， 人 然后 找到 下 一 个 簇 取 货 ， 然 后 再 参照 这 个 簇 处 的 路 标 ， 到 下 下 个 簇 
处 接着 取 货 ， 依 此 类 推 ， 如 果 本 敌 就 是 这 批 货物 的 最 后 一 得, 那么 就 标识 : “结束 , 无 下 一 簇 ”。 
比如 : “冬瓜 10 000 斤 首 篮 1” 这 个 例子 ， 先 把 4096 斤 冬瓜 放 到 簇 1 中 ， 然 后 在 入 1 的 门 上 贴 
上 一 个 标签 : “入 10”， 这 就 表明 下 一 往 是 10 号 艇 。 继 续 向 10 号 簇 中 存 入 4096 斤 冬瓜 ， 此 时 
还 剩 808 斤 冬瓜 没 放 入 ， 还 需要 一 个 路 标 ， 于 是 在 10 号 簇 的 门 上 再 贴 一 个 标签 : “90 号 ”。 然 
后 去 90 号 簇 放 入 剩 下 的 808 斤 冬瓜 。 

第 二 天 ， 张 老道 继续 来 视察 。 老 道 一 看 他 的 记录 ,不 由 地 一 惊 ! “一 个 晚上 就 想到 了 这 种 绝 
妙 方法 。 嗯 ， 此 人 大 有 前 途 ! ”老道 频频 点 头 称赞 。 然 后 老道 进 仓库 查看 ， 一 看 有 些 答 的 门 上 ， 
贴 着 标签 ， 老 道 立即 明白 了 小 道 长 的 做 法 ， 对 小 道 说 : “孩子 ,不 错 ， 但 是 还 需要 再 改进 ! ” 

小 道 心里 盘算 ，“ 咽 ， 这 个 方法 是 解决 了 第 一 个 问题 ， 但 是 每 个 自 门 上 都 贴 一 个 标签 ， 这 样 
是 不 太 像样 。 而 且 寻 找 未 被 占用 的 簇 的 效率 还 是 那么 低 ， 还 是 需要 把 所 有 已 经 占用 的 艇 找 出 来 ， 
再 比 对 选 出 没有 使 用 的 空 簇 。 而 且 我 这 么 一 弄 ， 找 空 往 的 效率 比 原来 还 差 了 ， 因 为 原来 已 经 使 用 
的 簇 都 会 被 记录 在 货物 描述 中 的 字段 中 , 现在 把 这 个 字段 缩减 成 一 个 字 了 , 这 样 每 次 找寻 的 时 候 ， 
还 得 去 仓库 中 实际 一 个 门 一 个 门 地 去 抄 下 已 经 使 用 的 徐 ,还 不 如 直接 在 本 子 上 找 来 得 快 。 这 个 问 
题 得 解决 ! ” 


思考 : 既然 要 拿 掉 贴 在 门 上 的 标签 ， 那 么 就 必须 找 另 外 一 个 地 方 存放 标签 ， 所 以 只 能 存 
放 到 我 的 记录 本 上 。 可 是 各 个 往 的 路 标 我 都 记录 在 本 子 上 ， 用 一 个 什么 数据 结构 好 呢 ? 
货物 描述 那 三 个 字段 肯定 不 能 再 修改 了 ， 那 样 已 经 很 完美 了 ， 不 能 破坏 它 。 那 么 就 需要 
再 自己 定义 一 个 结构 来 存放 这 些 路 标 之 问 的 关系 ， 而 且 每 个 货物 的 路 标 还 不 能 混淆 ， 混 
了 就 惨 了 。 他 在 纸 上 写 写 画 画 ， 不 知 不 觉 把 整个 仓库 的 徐 画 出 来 了 ， 从 第 一 个 答 ， 到 最 
后 一 个 徐 ， 都 用 一 个 方 格 标识 ,然后 他 参照 “冬瓜 ，10000 斤 ， 首 答 1” 这 个 例子 ， 下 一 
徐 是 徐 10， 那 么 他 在 答 1 的 格子 上 写 上 了 “ 徐 10”， 然 后 他 找到 第 10 个 格子 ， 也 就 是 
代表 徐 10 的 格子 ,在 得 10 格子 里 面 写 上 “ 往 9009”, 也 就 是 10 号 簇 的 下 一 簇 路 标 。 然 后 


第 5 章 降 龙 传说 一 RAID、 虚 拟 磁 盘 、 卷 和 文件 系统 实战 @9 


继续 找到 90 号 簇 ， 此 时 他 在 这 个 格子 里 写 上 “结束 ”。 接 着 他 又 举 了 几 个 例子 ,分别 画 
了 上 去 。 就 这 么 逐渐 睡 着 了 。 


第 二 天 早晨 , 小 道士 迷 迷 糊糊 地 起 来 了 , 只 见 张 道 长 已 经 在 他 的 面前 , 带 着 赞许 的 笑容 。“ 孩 
子 , 你 累 了 , 不 错 不 错 ， 你 终于 把 所 有 问题 都 解决 了 啊 ! ” 张 老 道 摸 着 小 道士 的 头 ， 称 赞 地 说 道 。 
小 道士 还 不 知道 是 怎么 回 事 呢 ， 他 告诉 张 老道 说 ， 他 还 没 想 出 来 呢 。 老 道 大 笑 说 : “哈哈 哈哈 ， 
你 看 看 你 画 在 纸 上 的 图 ， 这 不 是 已 经 解决 了 么 ? 哈哈 哈哈 哈 。” 说 完 老道 扬长 而 去 。 

小 道士 一 头 筋 水 ,看 着 那 张 画 , 这 才 想 起 了 昨 晚 的 思考 。“ 对 啊 ， 这 张 图 不 就 行 了 么 ? 这 就 是 
我 所 要 找 的 数据 结构 啊 ! ”接着 , 小 道士 把 图 重新 画 了 一 张 , 工 工整 整地 夹 在 了 记录 本 里 面 。 这 时 ， 
来 了 一 个 取 货 的 人 ， 他 告诉 小 道士 说 : “二 库 区 ， 南瓜 ，10000 斤 。” 道 土 说 : “ 稍 等 。” 然 后 立 
即 查询 二 库 区 的 记录 本 ， 找 到 南瓜 的 记录 ， 发 现 首 簇 是 128。 然 后 立即 到 那 张 图 上 找到 第 128 号 簇 
所 在 的 格子 ,发现 上 面 写 的 是 “入 168”。 继 续 找到 第 168 号 格子 ， 上 面 写 的 是 “化 2006”。 立即 
找到 第 2006 个 格子 ， 只 见 上 面 写 的 是 “结束 ”。 然 后 他 通知 库 管 员 : “请 将 第 128、168、2006 三 
个 繁 的 货物 提取 出 来 给 我 。” 不 一 会 儿 , 货物 到 了 ， 交 货 签字 。 小 道士 忱 然 大 悟 ，“ 大 完美 了 ! ! ” 

紧 接着 ， 又 来 了 一 个 存货 的 人 ， 他 有 西瓜 500 斤 要 存放 到 1 库 区 。 小 道士 立即 查看 那 张 图 ， 
一 目 了 然 。 只 要 格子 上 没有 写字 的 就 是 空 徐 ， 就 可 以 用 来 存放 货物 。 所 以 道士 立即 找到 一 个 空 着 
的 50 号 往来 存放 这 500 斤 西瓜 。 存 放 完毕 之 后 ， 在 对 应 的 这 个 格子 上 写 上 “结束 ”， 因 为 500 
斤 的 数量 一 个 房间 就 够 了 ， 更 不 用 说 一 个 徐 了 (最 多 8 个 房间 ) 。 接 着 也 在 1 库 区 的 记录 本 上 增 
加 一 条 记录 “西瓜 500 斤 首 徐 50”。 

道士 发 现 ， 第 二 个 问题 也 就 是 查找 坟 被 使 用 的 簇 的 问题 ， 自 从 有 了 这 张 图 ， 就 自然 解决 了 。 
道士 非常 兴奋 ， 同 时 也 佩服 张 真人 ， 是 他 引导 着 自己 一 步 一 步 解决 问题 的 。 


5.6.5 “宽容 似 海 一 一 设计 也 要 像 心胸 一 样 宽 


随 着 仓库 业务 的 不 断 成 熟 ， 小 道士 的 技能 越 来 越 熟练 ， 他 开始 考虑 描述 货物 的 三 个 字段 : 名 
称 、 数 量 、 存 放 的 第 一 个 徐 。 随 着 国民 生产 力 水 平 不 断 提高 ， 各 种 层出不穷 的 产品 被 生产 出 来 ， 
它们 有 些 具有 一 些 奇特 的 属性 。 所 以 小 道士 准备 增加 字段 来 表述 一 件 货物 更 多 的 属性 ， 比 如 送 货 
时 间 、 只 读 、 隐 藏 等 各 种 花哨 属性 。 同 时 ， 那 张 图 也 不 能 满足 要 求 了 ， 因 为 随 着 生产 力 发 展 ， 仓 
库 每 平方 米 造价 越 来 越 低 ， 武 当 决定 扩大 仓库 容量 。 这 样 仓库 中 所 包含 的 复数 量 就 大 大 增加 了 ， 
甚至 成 几何 数量 级 增长 ， 所 以 簇 号 码 越 来 越 大 ， 甚 至 超过 了 亿 。 要 记录 这 么 多 位 的 数字 ， 本 来 那 
个 小 格子 就 写 不 开 了 ， 所 以 需要 增 大 格子 的 宽度 ， 以 便 能 写 下 更 多 的 数字 位 数 。 以 前 每 个 格子 是 
2 字 节 (16 位 ) 长 度 , 现在 扩展 到 了 4 字 节 (32 位 ) 。 而 据 传 江湖 上 另 一 位 大 侠 已 经 将 格子 的 宽 
度 扩展 到 了 128 位 。 

这 位 小 道 长 姓 字 名 谁 ? 因为 当时 张 真人 收留 他 的 时 候 ， 发 现 他 身 板 有 点 软 ， 不 适合 练武 。 但 
思维 敏捷 ， 适 合 练 心 法 ， 所 以 给 他 一 个 道 号 叫做 微软 。 

就 这 样 ， 仓 库 又 运作 了 两 年 。 


5.6.6 ”老将 出 马 一 一 权威 发 布 


仓库 存储 容量 不 断 增 加 ,仓库 管理 技术 方面 却 并 没有 什么 进步 ,还 是 沿袭 两 年 前 那 一 套 运作 
模式 。 这 显然 已 经 不 适应 现代 仓库 了 ， 所 以 造成 入 库 等 待 、 处 理 速度 逐渐 变 慢 等 一 系列 的 问题 。 


153 


旬 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


154 


张 真 人 决定 跟 上 时 代 ， 要 研究 出 一 套 新 的 仓库 运作 模式 ， 并 且 定 义 出 一 个 规范 ， 让 全 天 下 的 仓库 
都 沿袭 这 个 规范 来 运作 。 张 老道 先 仔细 考察 了 微软 道士 的 运作 模式 ， 然 后 根据 现代 仓库 管理 的 特 
点 ， 提 出 了 一 系列 的 解决 方案 。 

现代 仓库 管理 要 求 入 库 出 库 速度 快 ， 由 于 在 仓库 硬件 方面 提高 很 快 ， 有 了 更 加 新 式 的 传送 带 
和 机 器 人 等 机 器 ， 所 以 大 大 提高 了 操作 简化 度 ， 减 轻 了 库 管 员 的 负担 。 库 管 员 只 需要 阅读 机 器 的 
随机 手册 ( 驱动 程序 ) 便 可 以 轻松 地 完成 操作 。 与 此 同时 ， 对 于 理 货 员 这 块 技术 并 没有 什么 新 的 
突破 ， 因 为 理 货 这 块 主要 靠 好 的 算法 ， 并 不 需要 硬件 支持 ， 除 了 那些 记录 本 之 外 。 而 从 仓库 中 取 
出 记录 本 的 速度 ， 由 于 库 管 员 操作 迅速 ， 所 以 也 不 在 话 下 。 关 键 就 看 理 货 算法 了 。 这 是 任何 硬件 
都 不 能 解决 的 问题 。 

首先 张 老 道 通过 观察 、 记 录 ， 发 现 一 般 货 物 就 算是 存放 到 不 连续 的 复 中 ， 这 些 往 往往 也 是 局 
部 连续 的 , 比如 1、2、3、5、6、7、100、101、102， 其 中 1、2、3 就 是 局 部 连续 ，5、6、7 也 是 ， 
100、101、102 也 是 。 而 不 太 可 能 出 现 一 个 货物 占用 了 1、56、168、2008 簇 这 种 情况 。 如 果 此 时 
不 是 一 个 徐 一 个 徐 地 去 找 路 标 , 而 是 一 段 一 段 地 去 找 , 这 样 会 节约 很 多 时 间 和 精力 。 比如 簇 段 1 ~ 
3， 簇 段 5~7， 簇 段 100~ 102。 这 样 就 大 大 简化 了 路 标 。 还 有 其 他 的 一 些 改进 方式 ， 如 直接 将 一 
些小 货物 存放 到 它们 的 描述 记录 中 ( 驻 留 文件 ) 。 只 有 描述 记录 中 放 不 下 时 ， 才 到 仓库 其 他 区 域 
找 一 些 簇 来 存放 ， 然 后 记录 这 些 簇 段 。 

微软 道士 将 他 的 记录 本 上 的 信息 ， 称 为 Metadata， 即 元 数据 ， 也 就 是 用 来 描述 其 他 数据 是 怎 
么 组 织 存放 的 一 种 数据 。 如 果 记 录 本 丢失 ， 那 么 纵然 仓库 中 货物 完好 无 损 ， 也 无 法 取出 。 因 为 已 
经 不 知道 货物 的 组 织 结构 了 。 

张 真人 最 后 把 微软 道士 实现 的 一 共 三 种 仓库 运作 管理 模式 ， 分 别 叫做 FAT16、FAT32 和 
NTFS， 并 取 名 为 小 道藏 龙 。 


5.6.7 一统 江湖 一 所 有 操作 系统 都 在 用 


后 来 张 老 道 把 这 套 管 理 模式 移植 到 了 磁盘 管理 上 ， 这 就 是 万 动武 林 的 所 谓 “ 文 件 系统 ”。 对 
应 仓库 来 说 ， 送 货 人 送 来 的 每 一 件 货物 都 称 作 “ 文 件 ”。 取 货 时 ， 只 要 告诉 理 货 员 文 件 名 称 、 所 
要 取出 的 长 度 及 其 他 一 些 选 项 ， 那 么 理 货 员 就 可 以 从 仓库 中 取出 这 些 数据 。 

在 一 个 没有 文件 系统 的 计算 机 上 ， 如 果 一 个 程序 要 向 磁盘 上 存储 一 些 自己 的 数据 ,那么 这 个 
程序 只 能 自己 调用 磁盘 控制 器 驱动 (无 VM 的 情况 下 ) ,或 者 调用 VM 提供 的 接口 ， 对 磁盘 写 数 
据 。 而 写 完 数据 后 ， 很 有 可 能 被 其 他 程序 的 数据 覆盖 掉 。 引 入 文件 系统 之 后 ， 各 个 程序 之 间 都 通 
过 文件 系统 接口 访问 磁盘 ， 所 有 被 写 入 的 数据 都 称 为 一 个 文件 ， 有 着 自己 的 名 字 ， 是 一 个 实体 。 
而 且 其 他 程序 写 入 的 数据 , 不 会 将 其 他 人 的 文件 数据 覆盖 掉 , 因为 文件 系统 会 计算 并 保障 这 一 点 。 

除 此 之 外 , 不 仅 张 真人 的 NTFS 文件 系统 取得 了 巨大 的 成 功 , 适应 了 现代 的 要 求 。 与 此 同时 ， 
少林 的 雷 牛 方丈 也 创造 出 了 其 他 的 文件 系统 , 比如 EXT 一 代 、 二 代 、 三 代 和 JFS 等 文件 系统 。 一 
时 间 文 件 系 统 思想 的 光环 是 照 炊 江湖 ! ! 


5.7 ”文件 系统 中 的 10 方式 
那么 ， 有 了 文件 系统 之 后 ， 整 个 系统 是 个 什么 架构 ? 
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5-75 为 Windows 系统 的 IO 简化 流程 图 。 


Environment 


@ write data at specified 
byte offset within a file 


图 Translate file-relative byte 
offset into volumne-relative 
byte offset and call next 
driver (via MO manager) 


图 call driver to write data at 
volume-relative byte offset 


图 Tanslate volume-relative 
byte offset into disk 
number and offset, and 
call next driver (via I/O 
managen" 


图 call next driverto write 
data to disk 3 a disk- 
relative byte offset 

© Translate disk-relative byte offset into physical 
location on disk 3 and transfer data 


1 2 3 
图 5-75 Windows 系统 的 I0 流程 图 
中 的 IO Manager 是 操作 系统 内 核 的 一 个 模块 ， 专 门 用 来 管理 IO， 并 协调 文件 系统 、 卷 、 


磁盘 驱动 程序 各 个 模块 之 间 的 运作 。 整 个 流程 解释 如 下 。 


某 时 刻 ， 某 应 用 程序 调用 文件 系统 接口 ， 准 备 写 入 某 文件 从 某 个 字 节 开 始 的 若干 字 节 。 
IO Manager 最 终 将 这 个 请 求 发 送 给 文件 系统 模块 。 

文件 系统 将 某 个 文件 对 应 的 逻辑 偏 移 映 射 成 卷 的 LBA 地 址 偏 移 。 

文件 系统 向 IO Manager 请 求 调用 卷 管理 软件 模块 的 接口 。 


卷 管 理 软件 将 卷 对 应 的 LBA 地 址 偏 移 翻 译 映 射 成 实际 物理 磁盘 对 应 的 LBA 地 址 偏 移 ， 并 请 
求 调用 磁盘 控制 器 驱动 程序 。 


IO Manager 向 磁盘 控制 器 驱动 程序 请 求 将 对 应 LBA 地 址 段 的 数据 从 内 存 写 入 某 块 物理 
磁盘 。 


文件 系统 的 IO 包括 同步 IO、 异 步 IO、 阻 塞 / 非 阻塞 IO 和 Direct IO。 


(1) 同步 IO: 同步 IO 是 指 程序 的 某 一 个 进程 或 者 线程 ， 如 果 某 时 刻 调用 了 同步 IO 接口 ， 
则 IO 请 求 发 出 后 , 这 个 进程 或 者 线程 必须 等 待 IO 路 径 上 的 下 位 程序 返回 的 信号 ( 不管 是 成 功 收 


到 数据 的 信号 还 是 失败 的 信号 ) 。 如 果 不 能 立刻 收 到 下 位 的 信号 ; 则 一 直 处 于 等 待 状态 ， 不 继续 
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执行 后 续 的 代码 ， 被 操作 系统 挂 起 ， 操 作 系统 继续 执行 其 他 的 进程 或 者 线程 。 

而 如 果 在 这 期 间 , 倘若 IO 的 下 位 程序 尚未 得 到 上 位 程序 请 求 的 数据 , 此 时 IO 路 径 上 的 下 位 
程序 又 可 以 选择 两 种 动作 方式 : 第 一 是 如 果 暂 时 没有 得 到 上 位 程序 请 求 的 数据 ， 则 返回 通知 通告 
上 位 程序 数据 未 收 到 ， 而 上 位 程序 此 时 便 可 以 继续 执行 ， 第 二 种 动作 则 是 下 位 程序 也 等 待 它 自己 
的 下 位 程序 来 返回 数据 ， 直 到 数据 成 功 返 回 , 才 将 数据 送 给 上 位 程序 。 前 者 就 是 非 阻塞 IO, 后 者 
就 是 阴 塞 IO 方式 。 

同步 + 阻塞 IO 是 彻底 的 堵 死 状态 , 这 种 情况 下 , 除非 这 个 程序 是 多 线程 程序 ,否则 程序 就 此 
挂 死 ， 失 去 响应 。 同 理 ， 异 步 + 非 阻塞 的 IO 方式 则 是 最 松 耦合 的 IO 方式 。 

(2) 异步 IO: 异步 IO 请求 发 出 后 ,操作 系统 会 继续 执行 本 线程 或 者 进程 中 后 续 的 代码 直 
到 时 间 片 到 时 或 者 因 其 他 原因 被 挂 起 。 异 步 IO 模式 下 , 应 用 程序 的 响应 速度 不 会 受 IO 瓶颈 的 影 
响 ， 即 使 这 个 IO 很 长 时 间 没 有 完成 。 虽 然 应 用 程序 得 不 到 它 要 的 数据 ， 但 不 会 影响 其 他 功能 的 
执行 。 

基于 这 个 结果 ， 很 多 数据 库 在 异步 IO 的 情况 下 ， 都 会 将 负责 把 缓存 Flush 到 磁盘 的 进程 
(Onmdle 中 这 个 进程 为 DBWR 进程 ) 数量 设置 成 比较 低 的 数值 ,甚至 为 1。 因为 在 异步 IO 的 情况 
下 ，Flush 进程 不 必 挂 起 以 等 待 IO 完成 ， 所 以 即使 使 用 很 多 的 Flush 进程 ， 也 与 使 用 1 个 进程 效 
果 差不多 。 

异步 IO 和 非 阻塞 IO 的 另 一 个 好 处 是 文件 系统 不 必 立刻 返回 数据 ， 所 以 可 以 对 上 层 请 求 的 
IO 进行 优化 排队 处 理 ， 或 者 批量 向 下 层 请 求 IO， 这 样 就 大 大 提升 了 系统 性 能 。 

(3) Direct IO: 文件 系统 都 有 自己 的 缓存 机 制 ， 增 加 缓存 就 是 为 了 使 性 能 得 到 优化 。 而 有 些 
应 用 程序 , 比如 数据 库 程序 , 它们 有 自己 的 缓存 ,IO 在 发 出 之 前 已 经 经 过 自己 的 缓存 算法 优化 过 
了 ， 如果 请 求 IO 到 达 文件 系统 之 后 ， 又 被 缓存 起 来 进行 额外 的 优化 ， 就 是 多 此 一 举 了 ， 既 浪费 
了 时 间 ， 又 降低 了 性 能 。 对 于 文件 系统 返回 的 数据 ， 同 样 也 有 这 个 多 余 的 动作 。 所 以 文件 系统 提 
供 了 另外 的 一 种 接口 ， 就 是 Direct IO 接口 。 调 用 这 种 接口 的 程序 ， 其 IO 请 求 、 数 据 请 求 以 及 回 
送 的 数据 将 都 不 被 文件 系统 缓存 ， 而 是 直接 进入 应 用 程序 的 缓存 ， 这 样 就 提升 了 性 能 。 此 外 ， 在 
系统 路 径 上 任何 一 处 引入 缓存 ， 如 果 是 Write Back 模式 ， 都 将 带 来 数据 一 致 性 的 问题 。Direct IO 
绕 过 了 文件 系统 的 缓存 ， 所 以 降低 了 数据 不 一 致 的 风险 。 


提示 : 关于 更 详尽 的 系统 IO 论述 ， 请 参考 本 书后 面 的 章节 。 
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= OSI 
”七 层 结构 


千 百 年 来 , 江湖 中 人 一 直 都 把 祖宗 流传 下 来 的 一 本 宝 
典 铭记 于 心 ， 这 本 宝典 就 是 号 称 “ 号 令 武林 ， 莫 敢 不 从 


的 OSI 大 典 ! 


任何 系统 之 间 , 如 果 需 要 通信 , 就 有 一 套 自己 的 协议 
系统 。 这 个 协议 系统 不 仅 要 定义 双方 互相 通信 所 使 用 的 语 


还 要 规定 所 使 用 的 硬件 ， 比 如 通信 线路 等 。 


网 协议 ， 凡 是 接 入 以 太 网 的 ( 交换 机 或 者 HUB ) 节 


都 必须 遵循 以 太 网 所 规定 的 通信 规程 。 两 个 对 


机 之 问 上 


行 通话 , 必须 预先 定义 好 发 送 和 接收 的 频率 , 而 且 还 要 指 
定 通信 的 逻辑 ， 比 如 每 说 一 句 话 之 后 , 要 说 一 个 “完毕 ”， 


表示 本 地 已 经 说 完 ， 该 对 方 说 了 。 
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7.1 “人 类 模型 与 计算 机 模型 的 对 比 剖析 
人 和 计算 机 ， 二 者 有 着 天 然 的 相似 性 。 


7.1.1 人 类 模型 


人 类 自身 用 语言 来 交流 信息 ， 这 本 身 就 是 系统 间 通 信 的 极 佳 例子 。 每 个 人 都 是 一 个 系统 ， 这 
个 系统 由 八大 子 系统 组 成 ， 每 个 子 系统 行使 自己 的 功能 ， 各 个 子 系统 相互 配合 ， 使 得 人 体 可 以 做 
出 各 种 各 样 的 事情 ， 包 括 制造 计算 机 系统 这 个 “部 分 仿生 ”产物 。 


1. 消化 系统 


消耗 系统 负责 食物 的 摄取 和 消化 ， 使 我 们 获得 糖 类 、 脂 肪 、 和 蛋白 质 、 维 生 素 等 营养 ， 再 经 过 一 
系列 生化 酶 促 反 应 ， 最 终 可 以 生成 能 量 ， 以 ATP 分 子 的 形式 向 各 个 细胞 供应 化 学 能 ， 再 经 过 一 系 
列 的 分 子 机 器 ( 蛋白 质 或 者 蛋白 质 复合 体 ) 的 处 理 , 可 以 形成 机 械 能 、 热 、 光 、 电 等 各 种 能 量 形式 。 


2. 神经 系统 


神经 系统 负责 处 理 外 部 信息 和 调控 人 类 自身 运动 ， 使 我 们 能 对 外 界 的 刺激 有 很 好 的 反应 ， 包 
括 学 习 等 重要 的 活动 也 是 在 神经 系统 控制 下 完成 的 。 比 如 皮肤 、 耳 洒 、 限 睛 等 接收 的 各 种 信号 ， 
都 会 经 过 神经 网 络 传送 到 大 脑 进行 处 理 并 做 出 反映 。 


3. 呼吸 系统 


呼吸 系统 是 气体 交换 的 场所 ， 可 以 使 人 体 获 得 新 鲜 的 氧气 。 人 类 制造 、 储 存 和 利用 能 量 的 每 
个 过 程 ， 都 需要 氧气 的 参与 ， 氧 气 是 很 好 的 氧化 剂 ， 人 类 利用 这 种 氧化 剂 ， 氧 化 摄取 的 糖 、 和 蛋白 
质 等 物质 ， 产 生 能 量 ， 如 果 没 有 氧气 ， 则 人 体 一 切 的 生命 活动 就 会 终止 ， 包 括 心肌 的 收缩 和 扩张 


运动 。 
4. 循环 系统 


循环 系统 负责 氧气 、 营 养 和 体液 以 及 各 种 信号 控制 分 子 的 运输 ,废物 和 二 氧化 碳 的 排泄 ， 以 
及 免疫 活动 。 人 体 的 这 些 空间 中 ， 各 种 器 官 按照 规则 分 布 着 ， 每 个 器 官 行使 其 功能 ， 必 须 供给 它 
们 能 量 、 水 和 氧气 以 及 各 种 控制 因子 蛋白 ,遍布 周身 的 密密麻麻 的 动脉 、 静 脉 和 毛细 血管 ， 就 是 
运输 这 些 物质 必需 的 通道 。 这 些 物质 溶 在 血液 中 ， 从 动脉 流入 器 官 ， 完 成 生命 逻辑 后 ， 从 静脉 流 
入 肾脏 ， 过 滤 废 物 ， 排 泄 ， 干 净 的 静脉 血 再 流 回 心 脏 ， 然 后 进入 动脉 ， 经 过 肺 部 的 时 候 ， 将 肺 部 
获取 的 氧气 吸 溶 入 血液 ， 成 为 鲜红 色 的 动脉 血 ， 然 后 再 流入 各 个 器 官 ， 供 给 必须 物质 。 


5. 运动 系统 

运动 系统 负责 身体 的 活动 ， 使 我 们 可 以 做 出 各 种 动作 。 骨 骼 和 肌肉 属于 运动 系统 ， 骨 骼 虽然 
不 直接 运动 ， 但 是 它 能 在 肌肉 的 牵引 下 进行 运动 。 控 制 肌肉 运动 的 是 神经 信号 ， 大 脑 发 出 神经 控 
制 信号 (一 系列 的 蛋白 质 或 者 离子 流 ) ， 肌 肉 组 织 收 到 之 后 ， 便 会 引发 雪崩 似 的 化 学 反应 ， 包 括 
肌肉 细胞 中 的 微 管 结构 的 不 断 重 组 和 释放 ， 用 这 种 形式 来 改变 细胞 形状 ， 从 而 造成 肌肉 收缩 或 者 
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扩张 。 而 微 管 的 组 装 和 释放 ， 需 要 能 量 和 酶 的 参与 ， 这 时 候 ， 细 胞 便 会 贪 禁地 利用 ATP 分 子 来 获 
取 化 学 能 ， 而 血液 ATP 损耗 之 后 ， 血 液 便 会 加 速 流动 到 肌肉 周围 , 提供 更 多 的 能 量 。 这 也 是 运动 
时 心脏 加 速 跳动 的 原因 。 而 心脏 跳动 速度 的 控制 因素 很 多 ， 比 如 受到 惊吓 的 时 候 ， 大 脑 便 会 分 泌 
一 些 物质 ， 传 送 到 心肌 ， 引 发 反应 ， 促 使 跳动 速度 加 快 。 


6. 内 分 泌 系 统 


内 分 泌 系 统 调节 生理 活动 ， 使 各 个 器 官 组 织 协 调运 作 。 内 分 泌 系 统 是 一 个 中 央 调 控 系 统 ， 比 
如 生长 素 就 是 内 分 泌 系统 分 泌 的 一 种 蛋白 质 分 子 ， 它 被 骨骼 吸收 后 ， 可 以 促进 骨骼 生长 。 内 分 泌 
系统 如 果 发 生 功能 故障 ， 则 人 体 就 会 表现 异常 ， 包 括 精神 和 物理 上 的 异常 。 


7. 生殖 系统 


生殖 系统 负责 生殖 活动 ,维持 第 二 性 征 。 生 殖 系 统 是 人 类 繁衍 的 关键 ， 生 殖 系 统 将 人 类 的 所 
有 特征 融入 精子 和 卵子 ， 受 精 卵 在 母亲 子宫 中 逐渐 发 育成 全 功能 的 人 体 。 


8. 泌尿 系统 
泌尿 系统 负责 血液 中 生化 废物 的 排泄 ， 产 生 尿 液 。 
7.1.2 计算 机 模型 
我 们 发 现 ， 计 算 机 系统 和 工作 模式 ， 与 生物 系统 有 很 大 一 部 分 是 类 似 的 。 
1. 计算 机 的 消化 系统 


消化 子 系统 是 为 整个 系统 提供 基本 能 量 和 排泄 消化 废物 的 。 给 计算 机 提供 能 量 的 是 电源 和 密 
布 在 电路 板 上 的 供电 线路 。 为 计算 机 排泄 能 量 废物 的 ， 是 接地 低 电位 触 点 。 电 流 流 经 供电 线路 ， 
到 接地 触 点 终止 ， 将 能 量 提 供给 电路 板 上 的 各 个 部 件 (器官) 。 此 外 ， 计 算 机 的 “消化 ”也 包含 
另外 的 意思 ， 即 吞 入 数据 、 吐 出 数据 的 过 程 。 计 算 机 从 磁盘 上 读 入 数据 ， 进 行 计算 (消化 ) 后 ， 
本 输出 数据 。 


2. 计算 机 的 循环 系统 


循环 子 系统 是 为 整个 系统 提供 能 量 和 物质 传输 通道 的 。 给 计算 机 提供 数据 传输 通道 的 是 各 种 
总 线 ， 数 据 从 总 线 流入 CPU 处 理 单元 ， 完 成 计算 逻辑 后 ， 又 从 总 线 输出 到 内 存 或 者 外 设 。 所 以 
我 们 说 ， 计 算 机 的 循环 系统 ， 就 是 总 线 ， 心 脏 就 是 电路 振荡 装置 。 


3. 计算 机 的 呼吸 系统 


呼吸 子 系统 是 为 整个 系统 提供 完成 生命 逻辑 所 必需 的 氧化 剂 ， 即 氧气 为 计算 机 散热 的 风扇 ， 
貌似 呼吸 系统 ， 但 风扇 的 功能 更 类 似 于 皮肤 和 毛孔 的 散热 作用 。 


4. 计算 机 的 神经 系统 
神经 子 系统 的 作用 是 传输 各 种 信号 ， 调 节 各 个 器 官 的 功能 。 对 于 生物 体 来 说 ， 神 经 系统 是 运 
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行 在 脑 组 织 中 的 一 种 逻辑 ， 这 种 逻辑 通过 执行 一 系列 生化 物理 反应 来 体现 它 的 存在 。 通 过 向 血液 
中 释放 各 种 蛋白 质 信 号 分 子 ， 从 而 靶 向 各 种 器 官 ， 调 节 它 们 的 功能 。 对 于 计算 机 系统 来 说 ， 神 经 
系统 就 是 由 CPU 载 入 执行 的 程序 ， 程 序 生成 各 种 信号 ， 通 过 总 线 传输 给 各 个 外 部 设备 ， 从 而 调 
节 它 们 的 工作 。 

计算 机 的 神经 系统 ， 可 以 认为 就 是 外 部 硬件 设备 的 驱动 程序 。 神 经 网 络 就 是 控制 总 线 , 循环 
系统 是 数据 总 线 。 而 生物 体内 没有 地 址 总 线 的 概念 ， 血 管 凌 乱 的 分 布 ， 并 没有 一 种 显 式 的 区 分 机 
制 来 区 分 各 个 器 官 或 者 组 ， 信 号 分 子 可 以 遍布 周游 全 身 。 


5. 计算 机 的 运动 系统 


计算 机 本 身 是 一 堆 电 路 和 芯片 ,不 存在 运动 的 概念 。 但 是 如 果 向 计算 机 接口 上 接 入 了 可 以 运 
动 的 部 件 ， 比 如 打印 机 、 电 动机 、 硬 盘 等 ， 那 么 这 些 设备 就 可 以 在 计算 机 控制 信号 ( 神经 信号 ) 
的 驱动 下 做 运动 ， 并 且 可 以 打印 或 者 读 写 数据 。 


6. 计算 机 的 生殖 系统 


目前 ， 计 算 机 系统 表现 的 生殖 能 力 ， 只 是 在 一 个 硬件 中 生成 不 同 的 软件 。 软 件 通过 CPU 的 
执行 ， 可 以 任意 复制 自身 ， 并 可 以 形成 新 的 逻辑 。 在 这 种 逻辑 下 ， 程 序 通过 无 数 次 的 复制 ， 难 锡 
在 一 些 细微 的 Bug 或 者 电路 干扰 的 情况 下 发 生 奇 特 的 变化 ,这 些 变化 一 开始 可 能 不 太 会 表现 出 来 ， 
但 是 随 着 量变 的 积累 ， 就 会 引发 质变 ， 发 生 进化 。 

当然 ， 计 算 机 系统 完全 可 以 物理 复制 硬件 ， 即 通过 程序 控制 外 部 机 器 ,来 生产 新 的 计算 机 硬 
件 ， 然 后 将 软件 复制 到 硬件 上 ， 继 续 繁殖 。 


7.1.3 ”个体 间 交流 是 群体 进化 的 动力 


人 也 好 ， 计 算 机 也 好 ， 他 们 之 间 都 在 不 停 地 交流 着 。 人 和 人 的 交流 ， 让 人 类 得 到 了 进化 。 同 
样 ， 计 算 机 之 间 的 交流 ， 也 会 让 计算 机 得 到 进化 。 交 流 是 进化 的 动力 ， 不 可 能 有 某 种 事物 会 完全 
脱离 外 界 的 刺激 而 自身 进化 。 

OSI 便 是 这 种 交流 所 遵循 的 一 张 蓝图 。 


7.2 ”系统 与 系统 之 间 的 语言 一 一 OSI 初步 


OSI 模型 是 一 种 被 提取 抽象 出 来 的 系统 间 通 信 模 型 。OSI 中 文 的 意思 为 “开放 式 系 统 互联 ” 
模型 ， 是 一 个 描述 两 个 或 者 多 个 系统 之 间 如 何 交 流 的 通用 模型 。 它 不 只 适合 于 计算 机 系统 互联 ， 
而 且 适 合 任何 独立 系统 之 间 的 互联 。 比 如 ， 人 体 和 人 体 之 间 的 通信 ， 或 者 人 体 和 计算 机 之 间 的 通 
信 ， 都 可 以 用 OSI 模型 来 描述 。 

比如 我 和 你 之 间 需 要 交流 ,我 们 面对面 坐 着 ,此 时 我 有 一 句 话 要 和 你 说 : “您 好 , 您 怎么 称呼 ?3 ” 

首先 ， 我 要 说 出 这 句 话 ， 要 在 脑海 中 生成 这 句 话 ， 即 在 语言 处 理 单元 中 根据 要 表达 的 意思 ， 
生成 符合 语法 的 数据 。 然 后 通过 神经 将 数据 信号 发 送 到 声带 、 咬 肌 、 舌 头 和 口 形 固定 之 后 ， 使 声 
带 振动 。 声 带 振 动 导 致 口腔 空气 共振 ， 发 出 声音 ， 经 过 空气 机 械 波 振动 ， 到 达 你 的 耳膜 接收 器 ， 
耳膜 被 机 械 波 谐振 于 一 定 频率 ， 耳 膜 的 振动 通过 神经 信号 传导 到 大 脑 ， 大 脑 相关 的 处 理 单元 进行 
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信号 的 解 调 ， 最 终 从 神经 信号 中 提取 出 我 说 的 话 “您 好 ， 您 怎么 称呼 ?3 ”， 这 句 话 在 大 脑 中 ， 可 
能 是 离子 流产 生 的 模拟 电信 号 ， 也 可 能 是 通过 其 他 形式 表示 ， 比 如 一 套 编码 系统 。 这 人 句 话 被 传送 
到 大 脑 的 语言 处 理 单元 ， 这 个 单元 分 析 这 人 句 话 ，“ 您 好 ”是 一 个 问候 语 ， 当 你 知道 我 在 问候 你 的 
时 候 ， 你 的 大 脑 会 在 这 个 “您 好 ”信号 的 刺激 下 ， 进 入 一 种 “礼貌 ”逻辑 运算 过 程 ， 运 算 生 成 的 
信号 ， 通 过 神经 传送 到 你 的 颈 部 肌肉 ， 收 缩 ， 使 你 的 头 部 下 降 ， 并 使 面部 肌肉 收缩 ， 这 就 完成 了 
点 头 致意 和 微笑 的 动作 。 

这 个 过 程 ， 与 计算 机 网 络 通信 的 模型 完全 一 致 。 两 台 计 算 机 之 间 通 过 以 太 网 交换 机 相连 ， 它 
们 之 间 要 进行 通信 。 比 如 ，a 计算 机 想 向 b 计算 机 发 送 一 个 数据 包 ， 这 个 数据 包 的 内 容 是 “打开 
文件 C:\tellme.txt”， 过 程 如 下 所 示 。 

(1) a 计算 机 首先 要 在 内 存 中 通过 双方 定义 的 语言 ， 生 成 这 个 数据 包 。 

将 这 个 数据 包 通 过 总 线 发 送 给 TCP/IP 协议 处 理 单元 , 告诉 TCP/IP 处 理 单元 对 方 的 人 P 地 址 
和 所 用 的 传输 方式 (UDP 或 TCP ) 和 端口 号 。 

TCP/IP 处 理 模块 收 到 这 个 包 之 后 ， 将 它 包装 好 ， 通 过 总 线 发 送 给 以 太 网 卡 。 

以 太 网 卡 对 数据 包 进行 编码 ， 然 后 通过 电路 将 包装 好 的 数据 包 变 成 一 串 电路 的 高 低 电 平 振 
荡 ， 发 送 给 交换 机 。 

交换 机 将 数据 包 交换 到 b 计算 机 的 接口 。 

(2) b 计算 机 收 到 这 串 电 位 流 后 ， 将 其 输送 到 以 太 网 卡 的 解码 芯片 ， 去 掉 以 太 网 头 ， 之 后 产 
生 中 断 信号 ， 将 数据 包 送 到 内 存 。 

由 TCP/IP 协议 处 理 模 块 对 这 个 数据 包 进行 分 析 , 提取 亿 头 和 TCP 或 UDP 头 , 以 便 区 分 应 
输送 到 哪个 应 用 程序 的 缓冲 区 内 存 。 

最 终 TCP/IP 协议 将 “打开 文件 C:\tellme.txt” 这 人 句 话 , 成 功 输送 到 了 b 计算 机 应 用 程序 的 组 
冲 区 内 存 中 。 

(3)b 计算 机 应 用 程序 提取 这 人 句 话 ， 分 析 它 的 语法 ,发现 a 计算 机 要 求 它 打开 C:\tellme.txt 
文件 ， 则 应 用 程序 根据 这 个 命令 ,调用 操作 系统 打开 文件 的 API 执行 这 个 操作 。 

分 析 一 下 上 面 的 过 程 ， 我 们 发 现 如 下 内 容 。 

数据 总 是 由 原始 直接 可 读 状态 被 转变 成 电路 的 电位 振荡 流 , 或 者 频率 和 振幅 不 断 变 化 的 机 械 
波 ， 也 可 能 转换 成 一 定 频率 的 电磁 波 。 

互相 通信 的 两 个 系统 之 间 必 定 要 有 连通 的 介质 ， 空 气 、 以 太 网 或 者 其 他 形式 ， 电 磁 波 传递 不 
需要 介质 。 

相互 通信 的 双方 必须 知道 自己 是 在 和 谁 通 信 。 

以 上 三 个 要 素 ， 就 是 系统 互联 通信 所 具备 的 “ 连 、 找 、 发 ”三 要 素 。 

= ， 连 : 就 是 指 通信 的 双方 必须 用 某 种 形式 连通 起 来 , 否则 两 个 没有 任何 形式 连通 的 系统 之 

间 是 无 法 通信 的 。 即 便 是 电磁 波 通 信 ， 也 至 少 通过 了 电磁 波 连 通 。 
" 找 : 是 说 通信 的 双方 或 者 多 方 ， 必 须 能 够 区 分 自己 和 对 方 以 及 多 方 (广播 系统 除外 ) 。 
" ”发 : 定义 了 通信 的 双方 如 何 将 数据 通过 连通 介质 或 者 电磁 波 发 送 到 对 方 。 
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7.3 ”OSI 模型 的 七 个 层次 


网 络 通信 三 元 素 抽象 模型 是 对 OSI 模型 的 更 高 层次 的 抽象 。OSI 模型 将 系统 间 通 信 划 分 成 了 
七 个 层次 。 

OSI 模型 的 最 上 面 的 三 层 ， 可 以 归属 到 应 用 层 之 中 ， 因 为 这 三 层 都 不 关心 如 何 将 数据 传送 到 
对 方 ， 只 关心 如 何 组 织 和 表达 要 传送 的 数据 。 


7.3.1 ”应 用 层 


应 用 层 是 OSI 模型 的 最 上 层 , 它 表 示 一 个 系统 要 对 另 一 个 系统 所 传达 的 最 终 信息 。 比 如 “您 
好 ， 您 怎么 称呼 ? ”这 人 句 话 ， 就 是 应 用 层 的 数据 。 应 用 层 只 关心 应 用 层 自 身 的 逻辑 ， 比 如 这 句 话 
应 该 用 什么 语法 ， 应 该 加 逗号 还 是 句号 ? 末尾 是 否 要 加 一 个 问号 ? 用 “你 ”还 是 “您 ”等 这 样 的 
逻辑 。 对 于 计算 机 系统 来 说 ， 上 文 所 述 的 例子 中 “open fle C:\tellme.txt”， 这 条 指令 ,就 是 应 用 
层 的 数据 。 应 用 层 程序 不 必 关 心 这 条 指令 是 如 何 传达 到 对 方 的 。 


7.3.2 ”表示 层 


表示 层 就 是 对 应 用 层 数据 的 一 种 表示 。 如 果 前 面 说 的 “您 好 ， 您 怎么 称呼 ?3 ”这 人 句 话 是 有 一 
定 附加 属性 的 ， 例 如 “您 好 ”这 两 个 字 要 显示 在 对 方 的 屏幕 上 ， 用 红色 显示 在 第 1 行 的 中 央 ， 而 
“您 怎么 称呼 ? ”这 几 个 字 用 蓝 色 显示 在 第 10 行 的 中 央 。 这 些 关 于 颜色 、 位 置 等 类 似 的 信息 ， 就 
构成 了 表示 层 的 内 容 。 

发 送 方 必须 用 一 种 双方 规定 好 的 格式 来 表示 这 些 信息 ,比如 用 一 个 特定 长 度 和 位 置 的 字段 来 
编码 各 种 颜色 ( 一 般 用 三 原色 的 组 合 编码 来 表示 ) ， 用 一 个 字段 来 表示 行列 坐标 位 置 。 将 这 些 附 
加 表示 层 信 息 字段 放置 于 要 表达 的 内 容 的 前 面 或 后 面 ， 接 受 方 按照 规定 的 位 置 和 编码 来 解析 这 些 
表示 层 信息 ， 然 后 将 颜色 和 位 置信 息 赋予 “您 好 ， 您 怎么 称呼 ? ”这 句 话 ， 显 示 于 屏幕 上 。 需 要 
强调 一 点 ， 表 示 层 不 一 定 非得 是 单独 的 一 个 结构 体 ， 它 可 以 嵌入 在 实体 数据 中 。 这 就 是 表示 层 ， 
一 些 加 密 等 操作 就 是 在 表示 层 来 起 作用 的 。 


7.3.3 ”会话 层 


顾名思义 ,会 话 层 的 逻辑 一 定 是 建立 某 种 会 话 交互 机 制 。 这 种 交互 机 制 实际 上 是 双方 的 应 用 
程序 之 间 在 交互 。 它 们 通过 交互 一 些 信息 ， 以 便 确定 对 方 的 应 用 程序 处 于 良好 的 状态 中 。 比 如 两 
个 人 通电 话 ， 拨 通 之 后 这 个 问 : “能 听 清 么 ? ”那个 说 : “能 听 清 ， 请 讲 。” 这 就 是 一 个 会 话 的 
过 程 。 也 就 是 说 通信 的 双方 在 发 送 实际 数据 之 前 ， 先 建立 一 个 会 话 ， 互 相 打 个 招呼 ， 以 便 确 认 双 
方 的 应 用 程序 都 处 于 正常 状态 。 

应 用 层 、 表 示 层 和 会 话 层 的 数据 内 容 被 封装 起 来 ， 然 后 交 给 了 我 们 的 货物 押运 员 传 输 层 。 

TCP/IP 协议 体系 模型 中 有 4 层 ， 即 应 用 层 ( 应 用 访问 层 ) 、 传 输 层 、 网 络 层 和 物理 链 路 层 
(硬件 访问 层 ) 。TCP/IP 协议 体系 没有 完全 按照 OSI 匹配 , 它 将 OSI 中 的 应 用 层 、 表 示 层 和 会 话 
层 统统 合并 为 一 层 ， 叫 做 应 用 访问 层 ， 意 思 是 指 这 个 层 全 部 是 与 应 用 程序 相关 的 逻辑 ， 与 网 络 通 
信 无 关 ， 应 用 程序 只 需 调 用 下 层 的 接口 即 可 完成 通信 。 
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7.3.4 传输 层 


可 以 说 OSI 模型 中 上 三 层 属于 应 用 相关 的 , 可 以 划 入 应 用 层 范围 , 而 下 四 层 就 属于 网 络 通信 
方面 的 。 也 就 是 说 ， 下 四 层 的 作用 是 把 上 三 层 生成 的 数据 成 功 地 送 到 目的 地 。 典 型 的 传输 层 程序 
如 下 。 

TCP 协议 的 作用 就 是 保障 上 层 的 数据 能 传输 到 目的 地 。TCP 就 像 一 个 货运 公司 的 押运 员 ， 
客户 给 你 的 货物 ， 就 要 保证 给 客户 送 到 目的 地 ， 而 不 管 你 通过 什么 渠道 ， 是 直达 ( 直 连 路 由 ) 还 
是 绕道 (下 一 跳 路 由 ) ， 是 飞机 还 是 火车 、 轮 船 ( 物理 线路 类 型 ) 。 

如 果 运 输 过 程 中 出 现 错误 ， 必 须 重 新 把 货物 发 送出 去 。 每 件 货物 到 了 目的 地 ， 必 须 找 收 件 人 
签字 (TCP 中 的 ACK 应 答 包 ) ， 或 者 一 批 货物 到 达 后 ， 收 件 人 一 次 签收 ( 请 动 窗口 ) 。 

最 后 回 公司 登记 。 


提示 : TCP 还 处 理 拥 塞 和 流量 控制 。 比 如 调度 ( 路 由 器 ) 选择 了 走 这 条 路 ， 但 是 太 拥挤 
了 ， 那 么 我 也 不 好 说 什么 ， 因 为 选 哪 条 路 到 达 目 的 是 由 调度 ( 路 由 器 ) 说 了 算 ， 我 只 管 
押运 。 那 么 我 只 能 通知 后 续 的 货物 慢 一 点 发 货 ， 因 为 这 条 路 太 挤 了 。 当 道路 变 得 畅通 时 ， 
我 会 通知 后 面 的 货物 加 速 发 货 。 这 就 是 TCP 的 任务 。TCP 是 通过 接收 方 返回 的 ACK 应 答 
数据 包 来 判断 链 路 是 否 拥挤 ， 比 如 发 了 一 批 货 ， 半 天 都 没 接 收 到 对 方 的 签字 ， 证 明 链 路 
拥塞 ,， 有 货物 被 丢弃 了 ， 那 么 就 减缓 发 送 速度 。 当 有 ACK 被 接收 到 后 ,我 会 增加 一 次 发 
送 货 物 的 数量 ， 直 到 再 次 拥塞 。 那 么 调度 怎么 知道 这 些 货物 是 送 到 哪里 的 呢 ? 这 是 网 络 
层 程序 的 任务 。 

注意 : 传输 层 的 程序 一 定 要 运行 在 通信 双方 的 终端 设备 上 ， 而 不 是 运行 在 中 间 的 网 络 互 
联 设备 上 。 传 输 层 是 一 种 端 到 端的 保障 机 制 ， 所 谓 端 到 端的 保障 就 是 指数 据 从 一 端 发 送 
到 另 一 端 之 后 ， 对 方 必 须 在 它 的 传输 保障 时 间 中 成 功 收 到 并 处 理 了 数据 ， 才 能 算 发 送 成 
功 。 如 果 只 是 发 送 到 了 对 方 的 网 卡 缓冲 区 ， 此 时 发 生 故 障 ， 如 突然 断 电 ， 这 就 不 叫 端 到 
端的 保障 。 因 为 数据 在 网 卡 缓冲 区 内 , 还 没有 被 提交 到 TCP 协议 的 处 理 多 辑 中 进行 处 理 ， 
所 以 不 会 返回 成 功 信 号 给 发 送 方 ， 那么 这 个 数据 包 就 没有 被 发 送 成 功 ， 发 送 方 会 通过 超 
时 来 感知 到 这 个 结果 。 


7.3.5 ”网 络 层 

客户 把 货物 交 给 货运 公司 的 时 候 ， 必 须 填写 目的 地 址 (比如 IP 地 址 ) 。 只 要 一 个 地 址 就 够 
了 , 至 于 到 这 个 地 址 应 该 坐 几 路 公交 车 或 哪 趟 火车 等 问题 , 客户 统统 不 管 , 全 部 交 给 网 络 层 处 理 。 

货运 公司 为 每 件 货物 贴 上 一 个 地 址 标签 (IP 头 ) 。 

货运 公司 的 调度 们 掌握 了 全 球 范 围 的 地 址 信息 (路 由 表 ) ， 比 如 去 某 某 地 方 应 该 走 哪 条 路 。 

在 选择 了 一 条 路 之 后 ， 就 让 司机 开车 上 路 了 。 

押运 员 进行 理 货 和 收发 货物 ， 没 事 就 在 后 车 厢 里 睡觉 。 

此 时 最 忙 的 是 各 个 中 转 站 的 调度 了 。 货 物 每 次 中 转 到 一 个 地 方 就 交 给 那个 地 方 的 调度 ， 由 那 
个 调度 来 决定 下 一 站 应 该 到 哪里 。 

接班 的 时 候 , 旧 调 度 不 必 告诉 新 调度 最 终 目的 应 该 怎么 走 , 因为 所 有 的 调度 都 知道 这 个 目的 ， 
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一 看 就 知道 该 走 什 么 路 了 。 

例如 ， 有 客户 从 新 疆 发 货 到 青岛 ， 由 于 新 疆 没有 直达 青岛 的 航班 或 者 火车 ， 所 以 只 能 先 到 达 
北京 ， 然 后 再 从 北京 直达 青岛 。 

新 疆 的 调度 收 到 货物 之 后 ， 他 查找 路 由 表 ， 发 现 要 到 青岛 ， 必 须 先 到 北京 。 新 疆 的 调度 会 在 
货物 上 贴 上 青岛 的 标签 而 不 是 北京 的 标签 ， 但 是 发 货 的 时 候 ， 调 度 会 选择 将 货物 运送 到 新 疆 到 北 
京 的 火车 上 。 

货物 到 达 北 京 之 后 ， 北 京 货运 分 公司 的 调度 收 到 这 件 货物 ,首先 查看 这 件 货 物 的 最 终 目的 地 
址 ， 然 后 北京 调度 也 去 查找 路 由 表 。 他 的 路 由 表 与 新 疆 调度 的 路 由 表 不 同 ， 在 他 的 表 上 ， 北 京 到 
青岛 有 直达 的 火车 ， 所 以 北京 调度 立即 将 货物 原封 不 动 的 送 上 去 青岛 的 火车 。 就 这 样 一 站 一 站 的 
往 前 送 ( 路 由 转发 ) ， 货 物 最 终 从 新 疆 到 达 了 青岛 。 

思考 : 那么 调度 是 怎么 知道 全 球 地 址 表 ( 路 由 表 ) 的 呢 ? 这 个 表 的 生成 是 一 个 复杂 的 学 

习 阶段 ， 可 以 通过 调度 自行 学 习 或 者 调度 之 间 相 互通 告 ， 也 可 以 通过 手工 录入 。 前 者 称 

为 动态 路 由 ， 后 者 称 为 静态 路 由 。 

路 由 器 充当 的 就 是 调度 的 角色 。 比 如 在 青岛 想 访问 一 个 位 于 北京 的 服务 器 ， 具 体 步骤 如 下 。 

首先 必须 知道 这 个 服务 器 的 IP 地 址 ， 然 后 用 这 个 IP 地 址 作为 最 终 目 的 地 址 组 装 成 数据 包 ， 
发 送 给 位 于 青岛 的 Internet 提供 商机 房 中 的 路 由 器 。 

这 个 路 由 器 收 到 这 个 包 后 ， 解 析 其 目的 IP 地 址 ， 然 后 查找 其 路 由 表 ， 发 现 这 个 目的 卫 地 址 
的 包 应 该 从 1 号 端口 转发 出 去 ， 所 以 它 立 即将 这 个 包 原封 不 动 地 向 一 号 口 转发 。 一 号 口 通过 光缆 
直接 连接 到 了 位 于 河北 机 房 中 的 另 一 台 路 由 器 。 

提示 : 当然 青岛 到 河北 之 间 不 可 能 只 用 一 条 连续 不 断 的 光缆 连接 ， 中 途 肯 定 经 过 一 些 光 

缆 通 信 中 继 站 。 

河北 的 路 由 器 收 到 这 个 IP 包 后 ， 同 样 根据 目的 IP 地 址 查找 路 由 表 ， 发 现 这 个 目的 地 址 的 包 
应 该 从 8 号 端口 中 转发 ， 它 立即 将 这 个 包 转 发 向 8 号 端口 。 

8 号 端口 通过 光缆 直接 连接 到 了 位 于 北京 机 房 的 一 台 路 由 器 。 

这 台 路 由 器 同样 查找 路 由 表 做 转发 动作 。 

经 过 一 层 层 的 寻找 ， 最 终 找到 了 北京 的 这 台 服 务 器 ,将 这 个 包 传送 到 这 人 台 服 务 器 的 网 卡 ， 并 
提交 到 TCP/IP 协议 处 理 内 存 空 间 中 。 

经 过 解析 和 处 理 , 服务 器 发 现 最 终 的 数据 是 一 个 TCP 握手 数据 包 , 然后 TCP/IP 程序 立刻 返 
可 一 个 确认 包 ， 再 次 返回 给 服务 器 一 个 确认 包 。 三 次 握手 完成 后 ,就 可 以 向 服务 器 发 送 HTTP 请 
求 来 获取 它 的 网 页 资源 了 。 


7.3.6 ”数据 链 路 层 


数据 链 路 层 就 是 指 连通 两 个 设备 之 间 的 链 路 ,数据 要 经 过 这 条 链 路 来 传递 给 对 方 。 数 据 链 路 
层 的 程序 将 上 层 的 数据 包 再 次 打包 成 对 应 链 路 的 特定 格式 ， 按 照 对 应 链 路 的 规则 在 链 路 上 传输 到 
对 方 。 

数据 链 路 就 好 比 交 通 规则 。 在 高 速 公 路 或 者 铁路 上 是 需要 遵守 规则 的 ， 不 能 超速 ， 不 能 乱 停 
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车 , 不 能 开车 灯 到 最 亮 等 。 上 路 之 前 ， 先 要 看 看 公路 的 质量 怎么 样 ， 是 不 是 适合 跑车 或 者 先 和 对 
方 商 量 一 下 传输 的 事宜 。 这 就 是 链 路 层 协 商 。 


链 路 层 的 作用 


首先 是 协商 链 路 参数 ， 比 如 双 工 、 速 率 、 链 路 质量 等 。 

其 次 是 将 上 层 数据 内 容 打包 成 帧 ， 加 上 同步 头 进行 传输 ,一 次 传输 一 名 或 者 一 个 字符 一 个 字 
符 的 传输 ( 取决 于 上 层 的 选择 ) 。 

最 后 ， 链 路 层 程序 调用 物理 层 提供 的 接口 ， 将 帧 提交 给 物理 层 。 

相对 于 传输 层 的 保障 来 说 ，OSI 的 数据 链 路 层 也 提供 一 些 保障 机 制 。 比 如 一 些 链 路 层 协议 会 
在 每 个 帧 后 面 加 一 个 校 验 字 段 ， 如 果 对 方 收 到 的 帧 的 校 验 值 与 这 个 校 验 字段 不 符 ， 则 证 明 链 路 受 
到 干扰 ， 数 据 产生 畸变 ， 那 么 就 将 这 一 帧 视 为 无 效 帧 直接 丢弃 ， 不 会 向 上 层 报告 这 个 错误 ， 因 为 
上 层 对 链 路 层 的 错误 不 关心 。 而 接收 方 的 传输 层 协议 会 感知 某 个 包 没有 到 达 或 者 不 完整 ， 接 收 方 
的 传输 层 协议 会 要 求 发 送 方 重 新 传送 这 个 不 完整 或 者 没有 接收 到 的 包 , 也 就 是 端 到 端的 保障 传输 。 
链 路 层 只 侦 错 ， 不 纠 错 ， 而 传输 层 既 侦 错 ， 又 纠 错 。 

根据 OSI 模型， 两 台 路 由 器 或 者 交换 机 之 间 传 送 数据 也 属于 两 个 系统 间 的 互联 , 那么 它们 也 
一 定 遵循 OSI 的 模型 。 下 面 就 来 分 析 一 下 两 台 PC 之 间 通 信和 两 个 路 由 器 之 间 通 信 有 什么 区 别 。 
PC 间 通 信 我 们 上 文 已 经 描述 过 ， 下 面 来 讲 一 下 路 由 间 的 通信 。 

简单 的 路 由 器 设备 工作 在 OSI 的 第 三 层 , 即 网 络 层 。 它 只 处 理 下 三 层 的 内 容 ， 只 有 下 三 层 的 
处 理 逻 辑 , 而 没有 上 四 层 的 处 理 逻 辑 。 路 由 嚣 收 到 包 后 , 只 检查 包 中 的 IP 地 址 , 不 会 改变 任何 卫 
头 之 上 的 其 他 内 容 , 最 简单 的 路 由 器 甚至 不 会 改变 人 P 头 。 在 一 些 带 有 诸如 NAT 功能 的 路 由 器 上 ， 
可 能 会 对 IP 包 的 源 或 者 目的 IP 地 址 做 修改 。 数 据 包 流 入 路 由 器 后 ， 路 由 器 只 分 析 到 第 三 层 的 卫 
头 ， 便 可 以 根据 路 由 表 完成 转发 逻辑 。 

如 图 7-1 所 示 为 通信 路 径 上 各 个 设备 所 作用 的 层次 示意 图 ， 具 体 过 程 如 下 。 
_ PCMA PCNB 

5 到 7 层 : 


3 到 4 层 


一 一 1 到 2 层 


图 7-1 通信 路 径 上 各 个 设备 所 作用 的 层次 
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左边 的 PC 机 A 连接 到 路 由 器 A 的 以 太 网 卡 1 上 ， 路 由 器 A 的 以 太 网 卡 2 与 路 由 器 B 的 以 
太 网 卡 2 相连 , 右边 的 PC 机 连接 到 路 由 器 B 的 以 太 网 卡 1 上 。 此 时 , 要 用 PC 机 A 上 的 正 浏 
览 器 访问 位 于 PC 机 B 上 的 Web 服务 ,在 正 浏览 器 的 地 址 栏 中 输入 PC 机 了 的 耳 地 址 并 按 Enter 
键 后 ，IE 浏览 器 便 会 调用 WinSock 接口 来 访问 操作 系统 内 核 的 TCP/IP 协议 栈 。IE 浏览 器 告诉 
TCP/IP 协议 栈 它 所 访问 的 目的 IP 地 址 和 目的 端口 ， 并 把 要 发 送 的 数据 告诉 TCP/IP 协议 栈 。 正 
浏览 器 发 送 给 PC 机 B 的 数据 ,当然 是 一 个 HTTP GET 请 求 , 具体 内 容 属 于 上 三 层 , 在 这 里 不 关 
心 也 不 做 分 析 。 

TCP/IP 协议 栈 收 到 这 个 数据 之 后 ， 发 现 正 浏览 器 与 PC 机 B 当前 并 不 存在 连接 ， 所 以 它 首 
先 要 向 PC 机 B 上 的 TCP/IP 协 议 栈 发 起 连接 请 求 ,也 就 是 TCP 的 三 次 握手 过 程 -PC 机 A 的 TCP/IP 
协议 栈 先 组 装 第 一 次 握手 也 包 , 组 好 后 发 送 给 操作 系统 内 核 缓冲 区 , 内 核 调用 网 卡 驱动 程序 从 缓 
冲 区 内 将 这 个 人 P 包 编码 并 在 线路 上 传递 出 去 。 握 手数 据 包 很 小 ， 只 要 一 个 以 太 网 帧 就 可 以 容纳 。 

这 个 帧 最 终 到 达 路 由 器 A 的 以 太 网 卡 1 缓冲 区 内 。 以 太 网 卡 1 产生 中 断 信号 ， 然 后 将 这 个 帧 
去 掉 以 太 网 头 ， 发 送 到 路 由 器 A 的 内 存 中 ， 等 待 PP 转发 逻辑 模块 的 处 理 。 运 行 在 路 由 器 A 上 的 
IP 转发 逻辑 模块 ， 其 实 就 是 卫 路 由 协议 计算 模块 ， 这 个 模块 分 析 此 IP 包 的 头 部 目的 全 地址, 查 
找 路 由 表 以 确定 这 个 包 将 从 哪个 接口 发 送出 去 。IP 路 由 运算 一 定 要 快速 高 效 , 才 不 至 于 对 网 络 性 
能 造成 瓶颈 。 

路 由 器 A 查找 路 由 表 发 现 这 个 包 应 当 从 以 太 网 卡 2 转 发 出 去 , 所 以 它 立即 将 这 个 包 发 送 到 以 
太 网 卡 2 并 通过 线路 传送 到 了 路 由 器 B 的 以 太 网 卡 2 上 。 经 过 同样 的 过 程 , 路 由 器 B 将 这 个 包 路 
由 到 PC 机 B 的 以 太 网 卡 缓冲 区 内 , PC 机 了 的 网 卡 产生 中 断 , 将 这 个 包 通 过 总 线 传送 到 PC 机 B 
的 TCPVIP 协议 栈 缓冲 区 内 存 。 

运行 在 PC 机 B 上 的 TCP/IP 协议 栈 程序 分 析 这 个 包 , 发 现 IP 是 自己 的 ，TCP 端口 号 为 80， 
握手 标识 位 为 二 进 制 1, 就 知道 这 个 连接 是 由 源 地 址 IP 所 在 的 设备 向 自己 的 80 端口 ,也 就 是 Web 
服务 程序 所 监听 的 端口 发 起 的 握手 连接 。 根据 这 个 逻辑 , TCP/IP 协议 栈 返 回 握手 确认 IP 包 给 PC 
机 A，PC 机 A 再 返回 一 个 最 终 确 认 包 ， 这 样 就 完成 了 TCP 的 三 次 握手 。 

握手 成 功 后 ,PC 机 A 上 的 TCP/IP 协 议 栈 立即 在 其 缓冲 区 内 将 由 正 浏 览 嚣 发 送 过 来 的 HTTP 
GET 请 求 数据 组 装 成 TCP/IP 数据 包 ， 发 送 给 PC 机 B。PC 机 B 得 到 这 个 数据 包 之 后 ， 分 析 其 
TCP 端口 号 ， 并 根据 对 应 关系 将 数据 放 到 监听 这 个 端口 的 应 用 程序 的 缓冲 区 内 存 。 

应 用 程序 收 到 这 个 GET 请 求 之 后 ， 便 会 触发 Web 服务 逻辑 流程 ， 返 回 Web 网 页 数据 ， 同 
样 经 由 PC 机 B 的 TCP/IP 协议 栈 ， 发 送 给 PC 机 A。 

上 述 过 程 是 一 个 正常 通信 的 过 程 。 

提示 : 如 果 在 PC 机 B 向 PC 机 A 传送 网 页 数据 的 时 候 ， 路 由 器 A 和 路 由 器 B 之 间 的 链 

路 发 生 了 几 秘 钟 的 短暂 故障 后 又 恢复 连通 性 ， 这 期 间 丢 失 了 很 多 数据 。 虽 然 这 样 ， 依 靠 

TCP 协议 的 纠 错 功能 ， 数 据 依然 会 被 顺序 的 传送 给 PC 机 A。 


我 们 就 来 分 析 一 下 TCP 是 如 何 做 到 的 。 假 如 ， 在 链 路 中 断 的 时 候 ， 恰 好 有 一 个 帧 在 链 路 上 
传送 。 发 生 故 障 后 ， 这 个 帧 就 永久 的 丢失 了 。 即 使 链 路 恢复 后 ， 路 由 器 也 不 会 重新 传送 这 个 帧 。 
但 PC 机 B 由 于 很 长 时 间 都 没有 收 到 PC 机 A 的 确认 信息 ， 便 知道 刚才 发 送 的 数据 包 可 能 已 经 被 
中 途 的 网 络 设备 丢弃 了 ， 所 以 PC 机 B 上 的 TCP 协议 将 重新 发 送 这 个 数据 包 。 
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提示 : 未 接收 到 确认 的 包 会 存放 在 缓冲 区 内 ， 不 会 删除 ， 直 到 收 到 对 方 确认 。 

所 以 ， 即 便 中 途经 过 的 网 络 设备 将 这 个 包 丢 弃 了 ， 运 行 在 通信 路 径 最 两 端的 TCP/IP 协议 ， 
依然 会 重 传 这 些 丢 弃 的 包 ， 从 而 保障 了 数据 传输 ， 这 也 就 是 端 到 端的 传输 保障 。 只 有 端 到 端的 保 
障 ， 才 是 真正 的 保障 ， 因 为 中 途 网 络 设备 不 会 缓存 发 送 的 数据 ， 更 不 会 自动 重 传 。 


7.3.7 ”物理 层 


物理 层 的 作用 就 是 研究 在 一 种 介质 上 ( 或 者 真空 ) 如 何 将 数据 编码 发 送 给 对 方 。 如 果 选 择 公 
路 来 跑 汽 车 ， 要 根据 沥青 路 或 者 士 路 来 选用 不 同 的 轮胎 ; 如 果 选 择 利用 空气 来 跑 飞 机 ， 则 需 根据 
不 同 的 气流 密度 来 调整 飞行 参数 ; 如 果 选 择 了 真空 ， 则 只 能 利用 电磁 波 或 者 光 来 传输 ， 可 以 根据 
障碍 物 等 因素 选择 不 同 波长 的 波 来 承载 信号 ; 如 果 选 择 了 海水 ， 则 要 根据 不 同 的 浪 高 来 调整 航海 
参数 。 这 些 都 是 物理 层 所 关心 的 。 


物理 层 和 链 路 层 的 区 别 


物理 层 和 链 路 层 是 很 容易 混淆 的 两 个 层次 。 链 路 层 是 控制 物理 层 的 。 物 理 层 好 比 一 个 笨 头 笨 
脑 的 传送 带 , 它 不 停 地 在 运转 , 只 要 有 东西 放 到 传送 带 上 就 会 被 运输 到 对 方 。 不 管 给 它 什么 东西 ， 
它 都 一 视 同仁 并 且 不 会 停 下 。 

假设 你 我 之 间 有 一 个 不 停 运 转 的 传送 带 , 某 时 刻 我 有 一 大 批 货物 要 传送 给 你 , 是 否 可 以 一 股 脑 
的 把 这 些 货物 不 停 地 放 到 传送 带 上 , 一 下 子 传送 给 你 呢 ” 当 然 可 以 , 但 是 那样 将 没有 整理 货物 的 时 
间 ， 永 远 处 于 不 停 地 从 传送 带 上 拿 下 货物 的 状态 ， 货 物 越 堆 越 多 ， 最 终 造 成 崩溃 。 如 果 能 将 货物 一 
批 一 批 的 传送 过 来 ， 不 但 给 予 了 双方 充足 的 整理 货物 的 时 间 ， 而 且 使 得 货物 传输 显得 井井有条 。 而 
将 货物 分 批 这 件 事 ， 传 送 带 本 身 是 不 会 做 的 ， 只 能 靠 TCP 或 者 卫 来 做 。 链 路 层 给 每 批 货物 附加 上 
一 些 标志 性 的 头 部 或 者 尾部 ， 接 收 方 看 到 这 些 标志 ， 就 知道 一 批 货物 又 来 了 ， 并 做 接收 动作 。 

每 种 链 路 ， 都 有 自己 的 一 个 最 适 分 批 大 小 ， 叫 做 最 大 传输 单元 ，MTU。 每 次 传输 ， 链 路 上 
最 大 只 能 传输 MTU 大 小 的 货物 。 如 果 要 在 一 次 传输 中 传送 大 于 这 个 大 小 的 货物 ， 超 过 了 链 路 接 
收 方 的 处 理 吞吐 量 ， 则 可 能 造成 接收 方 缓冲 区 溢出 或 者 强行 截断 等 错误 。 

TCP 和 了 IP 这 两 个 协议 程序 都 会 给 货物 分 批 。 第 一 个 分 批 的 是 TCP， 下 到 IP 这 一 层 ， 又 会 根 
据 链 路 层 的 分 批 大 小 来 将 TCP 已 经 分 批 的 货物 再 次 分 批 ， 如 果 TCP 分 批 小 于 链 路 层 分 批 ， 则 人 P 
不 需要 再 分 。 如 果 是 大 于 链 路 层 的 分 批 ， 则 IP 会 将 货物 分 批 成 适合 链 路 层 分 批 的 大 小 。 被 卫 层 分 
批 的 货物 , 最 终 会 由 接收 方 的 人 P 层 来 再 组 装 合并 , 但 是 由 TCP 分 批 的 货物 , 接收 方 的 TCP 层 不 会 
合并 , TCP 可 以 任意 分 割 货物 进行 发 送 而 接收 的 时 候 并 不 做 合并 的 动作 。 对 货物 的 处 理 分 析 全 部 交 
由 上 层 应 用 程序 来 处 理 ， 所 以 利用 TCP/IP 通信 的 应 用 程序 必须 对 自己 所 发 送 的 数据 有 定 界 措施 。 

说 白 了 ， 物 理 层 就 是 用 什么 样 的 线 缆 、 什 么 样 的 接口 、 什 么 样 的 物理 层 编码 方式 ， 归 零 还 是 
不 归 零 ,同步 方式 ， 外 同步 还 是 内 同步 ， 高 电压 范围 ， 低 电压 范围 ， 电 气 规范 等 的 东西 。 

通过 物理 层 编码 后 ,我们 的 数据 最 终 变 成 了 一 串 比 特 流 ， 通 过 电路 振荡 传输 给 对 方 。 对 方 收 
到 比特 流 后 ， 提 交 给 链 路 层 程序 ， 由 程序 处 理 ， 剥 去 链 路 层 同 步 头 、 帧 头 帧 尾 、 控 制 字符 等 ， 然 
后 提交 给 网 络 层 处 理 程序 (TCP/ 协议 栈 等 ) 。IP 头 是 个 标签 收 件 人 通过 IP 头 来 查看 这 个 货 
物 是 谁 发 的 。TCP 头 在 完成 押运 使 命 之 后 , 还 有 一 个 作用 就 是 确定 由 哪个 上 层 应 用 程序 来 处 理 收 
到 的 包 ( 用 端口 号 来 决定 ) 。 应 用 程序 收 到 TCP 提交 的 数据 后 ， 进 行 解析 处 理 。 
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7.4 OSI 与 网 络 


网 络 就 是 由 众多 节点 通过 某 种 方式 互相 连通 之 后 所 进行 的 多 点 通信 系统 。 既然 涉 及 到 节点 与 
节点 间 的 通信 ， 那 么 就 会 符合 OSI 模型 。 

首先 我 们 看 看 计算 机 总 线 网 络 。CPU、 内 存 、 外 设 三 者 通过 总 线 互 相连 接 起 来 ， 当 然 总 线 之 
间 还 有 北桥 和 南 桥 ， 这 两 个 芯片 犹如 卫 网 络 中 的 人 P 路 由 器 或 者 网 桥 。CPU 与 内 存 这 两 个 部 件 都 
连接 到 北桥 这 个 路 由 器 上 ， 然 后 北桥 连接 到 南 桥 ， 南 桥 下 连 一 个 HUB 总 线 , HUB 上 连接 了 众多 
的 外 设 ， 这 些 外 设 共 享 这 个 HUB 与 南 桥 进行 通信 。 

提示 : 说 到 HUB， 不 要 认为 是 专 指 以 太 网 中 的 HUB，HUB 的 意思 就 是 一 条 总 线 。 如 果 

在 这 条 总 线 上 运行 以 太 网 协议 ， 则 就 是 以 太 网 HUB; 如 果 在 这 条 总 线 上 运行 的 是 PCI 协 

议 ， 则 就 是 PCI HUB ( PCI 总 线 ) 。 


连接 到 以 太 网 HUB 上 的 各 个 节点 ,采用 CSMA/CD 的 竞争 机 制 来 获取 总 线 使 用 权 ， PCI 
总 线 同 样 采用 仲裁 竞争 机 制 , 只 是 实现 方式 不 同 。 实 现 方式 也 可 以 称 为 协议 , 所 以 有 以 太 网 HUB 
和 PCI HUB 之 分 ,也 就 是 说 HUB 上 运行 的 是 不 同 的 协议 。 当 然 以 太 网 HUB 设计 要 求 远 远 比 PCI 
HUB 低 ， 速 度 也 低 很 多 。 
图 7-2 所 示 的 模型 是 一 个 常见 的 小 型 网 络 ， 几 台 PC 通过 以 太 网 HUB 和 路 由 器 互相 连接 起 
来 ， 然 后 通过 运行 在 每 台 PC 上 的 TCP/IP 协议 来 通信 。 路 由 器 的 作用 只 是 分 析 目 的 人 P 地 址 从 而 
做 转发 动作 。 
而 我 们 再 观察 一 下 图 7-3， 发 现 除了 连接 各 个 组 件 之 间 的 线路 变 成 了 并 行 多 线路 之 外 ， 其 他 
没有 什么 大 的 变化 。 但 是 ， 这 两 个 网 络 的 通信 过 程 是 有 区 别 的 。 上 面 的 网 络 利用 一 种 高 级 复杂 的 
协议 一 一 TCP/IP 协议 来 通信 ， 而 图 7-3 所 示 的 网 络 是 通过 直接 总 线 协议 进行 通信 。 在 下 面 的 网 
络 中 ， 各 个 部 件 之 间 的 连 线 非常 短 ， 速 度 很 高 旦 非常 稳定 ， 自 身 就 可 以 保障 数据 的 稳定 传输 ， 所 
以 不 需要 TCP 这 种 传输 保障 协议 的 参与 。 在 上 面 的 网 络 中 ， 各 个 部 件 之 间 可 能 相隔 很 远 的 距离 ， 
链 路 速度 慢 ， 稳 定性 不 如 主板 上 的 导线 高 ,所 以 必须 运行 一 种 端 到 端的 传输 保障 协议 ， 比 如 TCP 
协议 ， 来 保障 端 到 端的 数据 传输 。 


可 


点 对 点 直 连 点 对 点 直 连 


点 对 点 直 连 


以 太 网 HUB 


HUB 多 点 共享 连接 


图 7-2 一 个 典型 的 网 络 | 图 7-3 计算 机 总 线 网 络 
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此 外 ， 上 面 的 两 个 网 络 模型 ， 其 本 质 是 相同 的 ， 因 为 它们 两 个 都 是 从 基本 原理 发 展 而 来 的 。 
我 们 说 ， 这 两 个 网 络 模型 都 符合 OSI 这 个 抽象 模型 。 再 甚 者 ， 这 两 个 模型 都 符合 “ 连 、 找 、 发 ” 
抽象 模型 。 

首先 ,所 有 部 件 之 问 都 用 了 导线 来 连接 。 对 于 第 一 个 模型 ， 导 线 为 双 绞 线 或 者 其 他 形式 的 外 
部 电缆 ;对 于 第 二 个 模型 ， 导 线 为 电路 板 上 印刷 的 蛇行 线 。 这 就 是 所 谓 “ 连 ”。 

其 次 ， 这 两 个 模型 中 都 有 寻 址 的 逻辑 。 第 一 个 模型 利用 IP 地 址 作为 寻 址 方法 ; 第 二 个 模型 
中 利用 地 址 总 线 作为 寻 址 方法 。 这 就 是 所 谓 “ 找 ”。 


提示 : 生物 细胞 之 间 的 通信 ， 同 样 符合 OSI 模型 和 “ 连 找 发 ”模型 。 细 胞 之 间 通 过 血管 
来 传递 信息 ， 这 就 是 “ 连 ”; 通过 配 体 - 受 体 关系 来 找到 目标 , 这 就 是 “ 找 ”; 血液 流 
动 将 配 体 分 子 传递 (广播 ) 到 人 体 的 每 个 角落 ， 这 就 是 “发 ”。 我 国 分 子 生态 学 创始 人 
向 近 敏 曾经 提出 分 子 信息 网 络 学 说 ， 就 恰恰 体现 了 网 络 的 思想 。 在 分 子 上 层 ， 还 有 细胞 
信息 网 络 学 说 和 遗传 信息 网 络 学 说 ， 它 们 一 个 比 一 个 高 层 ， 一 个 比 一 个 抽象 。 然 而 分 子 
信息 网 络 也 不 一 定 就 是 最 底层 的 网 络 ， 或 许 还 有 原子 信息 网 络 、 电 子 信息 网 络 等 。 


最 后 ， 第 一 个 模型 利用 TCP 协议 进行 有 保障 的 数据 发 送 动作 ， 第 二 个 模型 中 由 于 线路 非常 
稳定 ,不 需要 高 级 协议 参与 ,而 是 直接 利用 电路 逻辑 从 目标 部 件 将 数据 复制 过 来 ,5 这 就 是 所 谓 “ 发 ”。 


网 中 有 网 


我 们 在 以 前 的 章节 中 ， 多 次 提 到 过 “网 中 有 网 ”这 个 词 。 而 我 们 现在 再 来 体会 一 下 ， 发 现 计 
算 机 系统 、 计 算 机 网 络 、Intemet， 这 些 系统 ， 确 实 可 以 用 网 中 有 网 来 描述 。 计 算 机 总 线 这 个 微型 
网 络 , 通过 一 个 网 卡 , 接 入 以 太 网 交换 机 或 者 HUB, 与 其 他 计算 机 总 线 网 络 形成 一 个 局 域 网， 然 
后 这 个 局 域 网 再 连接 到 路 由 器 网 关 ， 从 而 连接 到 更 大 的 网 络 ， 甚 至 Intemet。 

所 有 的 网 络 ， 都 按照 OSI 和 “ 连 找 发 ”模型 有 条 不 亲 地 通信 交互 着 ,为 我 们 服务 。 分 子 之 间 
和 细胞 之 间 神 奇 地 相互 作用 着 ， 地 球 和 月 球 有 条 不 亲 地 旋转 运行 着 ， 太 阳 系 缓慢 地 自转 ， 并 围绕 
着 更 大 的 银河 系 旋转 。 
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第 名 阐 
勇 破 难 关 一 一 Fibre Channel 协 议 详解 


"Fibre Channel 
， ”网 状 通道 协议 
， ”光纤 通道 协议 
" OSI 


本 书 的 第 6.8 节 ， 引 出 了 SAN 的 概念 。SAN 首先 是 
个 网 络 , 而 不 是 指 存储 设备 。 当 然 , 这 个 网 络 是 专门 用 来 
给 主机 连接 存储 设备 用 的 。 这 个 网 络 中 有 着 很 多 的 元 件 ， 
它们 的 作用 都 是 为 了 让 主机 更 好 地 访问 存储 设备 。 

SAN 概念 的 出 现 ， 只 是 个 开头 而 已 ， 因 为 按照 SCSI 
总 线 16 个 节点 的 限制 , 不 可 能 接 入 很 多 的 磁盘 。 要 扩大 
这 个 SAN 的 规模 ， 还 有 很 长 一 段 路 要 走 。 如 果 仅 仅 用 并 
行 SCSI 总 线 ， 那 么 SAN 只 能 像 PCI 总 线 一 样 作为 主机 
的 附属 品 ， 而 不 可 能 成 为 一 个 真正 独立 的 “网 络 ”。 必 
须 找到 一 种 可 寻 址 容量 大 、 稳 定性 强 、 速 度 快 、 传 输 距 
离 远 的 网 络 结构 ， 从 而 连接 控制 器 和 磁盘 或 者 连接 控制 
器 到 主机 。 

干脆 破釜沉舟 ， 独 立 研 发 一 套 全 新 的 网 络 传输 系统 ， 
专门 针对 局 部 范围 的 高 速 高 效 传输 。 

然而 , 形成 一 套 完整 的 网 络 系统 并 非 易 事 , 首先 必须 
得 有 个 蓝图 。 这 个 蓝图 是 否 有 现成 可 以 参考 的 呢 ? 当然 
有 ，0OSI 就 是 一 个 经 典 的 蓝图 。0SI 是 对 任何 互联 系统 的 
抽象 。 
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8.1 FC 网络 一 极 佳 的 候选 角色 


FC 协议 自从 1988 年 出 现 以 来 , 已 经 发 展 成 为 一 项 非常 复杂 、 高 速 的 网 络 技术 。 它 最 初 并 不 是 
研究 来 作为 一 种 存储 网 络 技术 的 。 最 早 版 本 的 FC 协议 是 一 种 为 了 包括 耳 数据 网 在 内 的 多 种 目的 而 
推出 的 高 速 骨 干 网 技术 ,， 它 是 作为 惠普 、Sun 和 IBM 等 公司 组 成 的 R&D 实验 室 中 的 一 项 研究 项 目 
开始 出 现 的 。 曾 经 有 几 年 ，FC 协议 的 开发 者 认为 这 项 技术 有 一 天 会 取代 100BaseT 以 太 网 和 FDDI 
网 络 。 在 20 世纪 90 年 代 中 期 , 还 可 以 看 到 研究 人 员 关 于 FC 技术 的 论文 。 这 些 论文 论述 了 FC 协 
议 作 为 一 种 高 速 骨 干 网 络 技术 的 优点 和 能 力 ， 而 把 存储 作为 不 重要 的 应 用 放 在 了 第 二 位 。 

Fibre Channel 也 就 是 “网 状 通道 ”的 意思 ， 简 称 FC。 

提示 : 由 于 Fiber 和 Fibre 只 有 一 字 之 差 ， 所 以 产生 了 很 多 流传 的 误解 。FC 只 代表 Fibre 

Channel， 而 不 是 Fiber Channel， 后 者 被 翻译 为 “光纤 通道 ”， 甚 至 接口 为 FC 的 磁盘 也 被 

称 为 “光纤 磁盘 ”， 其 实 这 些 都 是 很 滑 移 的 误解 


不 过 到 目前 为 止 ， 似 乎 称 FC 为 光纤 而 不 是 直接 称 其 FC 的 文章 和 资料 更 多 。 这 种 误解 使 得 
初 入 存储 行业 的 人 摸 不 着 头脑 , 认为 FC 就 是 使 用 光纤 的 网 络 , 甚至 将 FC 与 使 用 光纤 传输 的 以 太 
网 链 路 混 消 起 来 。 在 本 书 内 不 会 使 用 “光纤 通道 ”或 者 “光纤 磁盘 ”这 种 定义 ， 而 统统 使 用 FC 
和 “FC 磁盘 ”。 相 信 在 阅读 完 本 章 之 后 ， 大 家 就 不 会 再 混淆 这 些 概 念 了 , 会 知道 FC 与 光纤 根本 

Fibre Channel 可 以 称 为 FC 协议 , 或 FC 网 络 、FC 互联 。 像 TCP/IP 一 样 ，EFC 协议 集 同 样 具 
备 TCP/IP 协议 集 以 及 以 太 网 中 的 很 多 概念 ， 比 如 FC 交换 、FC 交换 机 、FC 路 由 、FC 路 由 器 ， 
SPF 路 由 算法 等 。 我 们 完全 可 以 类 比 地 看 待 TCP/IP 协议 以 及 FC 协议 ， 因 为 它们 都 遵循 OSI 的 
模型 。 任 何 互联 系统 都 逃 不 过 OSI 模型 ， 不 可 能 存在 某 种 不 能 归属 于 OSI 中 某 个 层次 的 元 素 。 

下 面 我 们 用 OSI 来 将 FC 协议 进行 断层 分 析 。 


8.1.1 物理 层 


OSI 的 第 一 层 就 是 物理 层 。 作 为 一 种 高 速 的 网 络 传输 技术 ，FC 协议 体系 的 物理 层 具有 比较 
高 的 速度 ， 从 1Gb/s、2Gb/s、4Gb/s 到 当前 的 8Gb/s。 作 为 高 速 网 络 的 代表 ， 其 底层 也 使 用 了 同 
步 串 行 传输 方式 ， 而 且 为 了 保证 传输 过 程 中 的 电 直流 平衡 、 时 钟 恢 复 和 纠 错 等 特性 ， 其 传输 编码 
方式 采用 NMb 编码 方式 。 

为 了 实现 远 距 离 传输 ， 传 输 介 质 起 码 要 支持 光纤 。 铜 线 也 可 以 ， 但 是 距离 受 限 制 。EFC 协议 
集中 物理 层 的 电气 子 层 名 为 FC0， 编 码 子 层 名 为 FC1。 


8.1.2 ” 链 路 层 


1. 字符 编码 以 及 FC 帧 结构 

现代 通信 在 链 路 层 一 般 都 是 成 帧 的 ， 也 就 是 将 上 层 发 来 的 一 定数 量 的 位 流 打 包 加 头 尾 传输 。 
FC 协议 在 链 路 层 也 是 成 帧 的 。 既 然 需 要 成 帧 ， 那 么 一 定 要 定义 帧 控制 字符 。 

FC 协议 定义 了 一 系列 的 帧 控制 策略 及 对 应 的 字符 。 这 些 控制 字符 不 是 ASCII 码 字符 集中 定 
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义 的 那些 控制 字符 ， 而 是 单独 定义 了 一 套 专门 用 于 FC 协议 的 字符 集 ， 称 为 “有 序 集 ”。 其 中 的 
每 个 控制 字符 其 实 是 由 4 个 8 位 字 节 组 成 的 ， 称 为 一 个 “ 字 ” (word ) ， 而 每 个 控制 字 开头 的 一 
个 字 节 总 是 经 过 8 10b 编码 之 后 的 0011111010 ( 左旋 ) 或 者 1100000101 ( 右 旋 ) 。 

由 于 还 没有 标准 名 词 出 现 ， 所 以 不 得 不 引入 “左旋 ”和 “ 右 旋 ” 这 两 个 化 学 名 词 来 描述 这 种 
镜像 编码 方式 。 左旋 和 右 旋 是 指 1 和 0 对 调 。 编码 电路 可 以 根据 上 一 个 10 位 中 所 包含 的 1 的 个 数 
来 选择 下 一 个 10 位 中 1 的 个 数 。 如 果 上 一 个 1 的 个 数 比 0 的 个 数 少 ， 那 么 下 一 个 10 位 中 就 编码 
成 1 的 个 数 比 0 的 个 数 多 ， 这样 总 体 平衡 了 1 和 0 的 个 数 。 

0011111010 左旋 或 者 1100000101 右 旋 ，FC 协议 给 这 个 字符 起 了 一 个 名 字 ， 叫 做 K28.5。 这 
个 字 未 经 过 8 10b 编码 之 前 的 值 是 十 六 进 制 BC, 即 10111100, 它 的 低 5 位 为 11100( 十 进 制 的 28 )， 
高 3 位 为 101 ( 十 进 制 的 5 ) 。FC 协议 便 对 这 个 字 表 示 为 “K28.5”， 也 就 是 说 高 三 位 的 十 进 制 是 
5, 低 5 位 的 十 进 制 是 28, 这 样 便 可 以 组 合成 相应 的 二 进 制 位 码 。 然 后 再 加 上 一 个 描述 符号 K ( 控 
制 字符 ) 或 者 D (数据 字符 ) 。K28.5 这 个 字符 没有 ASCII 字符 编码 与 其 冲突 ， 它 的 二 进 制 流 中 
又 包含 了 连续 的 5 个 1， 非 常 容易 被 电路 识别 ， 当 然 符合 这 些 条件 的 字符 还 有 好 几 个 。 

每 个 控制 字 均 由 K28.5 字符 开头 ， 后 接 3 个 其 他 字符 ( 可 以 是 数据 字符 ) ， 由 这 4 个 字符 组 
成 的 字 来 代表 一 种 意义 ， 比 如 SOF ( Start Of Frame ) 、EOF ( End Of Frame ) 等 。 

定义 了 相关 的 控制 字 之 后 ， 需 要 定义 一 个 帧 头 了 。EFC 协议 定义 了 一 个 24B 的 帧 头 。 以 太 网 
帧 头 才 14B， 用 起 来 还 绰绰有余 ， 为 什么 FC 需要 定义 24B 呢 ? 在 这 个 问题 上 ， 协 议 的 设计 者 独 
树 一 帜 ,因为 这 24B 的 帧 头 不 但 包含 了 寻 址 功能 ， 而 且 包含 了 传输 保障 的 功能 。 网 络 层 和 传输 层 
的 逻辑 都 用 这 24B 的 信息 来 传递 。 

我 们 知道 ,基于 以 太 网 的 TCP/IP 网 络 , 它 的 开销 一 共 是 : 14B ( 以 太 网 帧 头 ) +20B (IP 头 ) 
+20B (TCP 头 ) =54B, 或 者 把 TCP 头 换 成 8B 的 UDP 头 , 一 共 是 42B。 这 就 注定 了 FC 的 开销 
比 以 太 网 加 上 TCPVIP 的 开销 要 小 ， 而 实现 的 功能 都 差不多 。 

可 以 看 出 ， 以 太 网 中 用 于 寻 址 的 开销 太 大 ， 一 个 以 太 网 MAC 头 和 一 个 IP 头 这 两 个 就 已 经 
34B 了 ,更 别 说 再 加 上 TCP 头 了 。 而 FC 将 寻 址 、 传 输 保 障 合并 起 来 放 到 一 个 头 中 , 长 度 才 24B。 
图 8-1 所 示 的 是 一 个 FC 帧 的 示意 图 ， 图 8-2 是 一 个 FC 帧 编码 之 后 的 表示 。 


000001: K28.5 D21.4 D21.5 D21.5 所 一 LEOdend Se 
000002; 28.5 021.4 D21.5 D21.5 @—————— IOLE Onered Sa 
000003: K28.5 D21,5 D22,2 D22,2 @—————— Sartofframe DalmRy 
000004: D05.0 D00.0 D00.0 D02.0 €@—————— Frame Hoater (Mard0) 
000005: D00.0 000.0 D00.0 D04.0 €——————— Fame Hoader (Ward) 
000006: D08.0 D09.4 D00.0 D00.0 @————— Fame Hoader Word2) 
‘000007: D31.7 D00.0 D00.0 0D00.0 @—————— Frame Header (Word3) 
000008: D10.1 D10.1 D31.7 D31.7 4€——————— Frame Header (Ward4) 
000009: 000.0 D00.0 D00.0 D00.0 @—————— Frame Hoacer Words) 
00000A: D00.0 D00.0 D00.0 D90.0 <€————— Paoad(Word0) 
Frame ype and contenvfunedion Where frame is being sentro C000008:; DO0.0 000.0 D02.0 D00.0 @——————— Pad/Word!) 
Class-specific control information Where the frame came from 00000C: 000.0 000.0 D00.0 D00.0 @——————— Paybad Ward2) 
Protoeol Type in this frame Reme Cossel log 000000D: D08.2 D17.2 D17.1 D25 .2 re 
Sepsenee delape 200 000008: K28.5 D21.5 D21.3 D21.3 专 一 一 ome 
pe ja bs ororrane 0o000r: K28.5 D21. D21.5 D21.5 @————— iE Ored Sa 
es pe 000010; 28.5 D21.4 D21.5 D21.5 @—————— IOLE Oered sd 
pp 000011: 828.5 D21.4 010.2 D10.2 4——————— RROY Oered So 
000012: K28.5 D21.4 D21.5 D21.5 专 一 一 LEOdealsd 


图 8-1 一 个 FC 帧 的 结构 图 8-2 一 个 完整 的 FC 帧 的 有 序 集 表示 
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2. 链 路 层 流量 控制 


在 链 路 层 上 ，FC 定义 了 两 种 流 控 策 略 : 一 种 为 端 到 端的 流 控 ， 另 一 种 为 缓存 到 缓存 的 流 控 。 
端 到 端 流 控 比 缓存 到 缓存 流 控 要 上 层 和 高 级 。 在 一 条 链 路 的 两 端 ， 首 先 面 对 链 路 的 一 个 部 件 就 是 
缓存 。 接 收 电路 将 一 帧 成 功 接收 后 ， 就 放 入 了 缓存 中 。 如 果 由 于 上 位 程序 处 理 缓慢 而 造成 缓存 已 
经 充满 ，FC 协议 还 有 机 制 来 通知 发 送 方 减缓 发 送 。 如 果 链 路 的 一 端 是 FC 终端 设备 ， 另 一 端 是 
FC 交换 机 , 则 二 者 之 间 的 缓存 到 缓存 的 流量 控制 只 能 控制 这 个 FC 终端 到 FC 交换 机 之 间 的 流量 。 

而 通信 的 最 终 目标 是 网 络 上 的 另 一 个 FC 终端 这 之 间 可 能 经 历 了 多 个 FC 交换 机 和 多 条 链 
路 。 而 如 果 数 据 流 在 另外 一 个 FC 终端 之 上 发 生 拥塞 , 则 这 个 FC 终端 就 必须 通知 发 起 端 降低 发 送 
频率 ， 这 就 是 “ 端 到 端 ” 的 流量 控制 。 图 8-3 示 出 了 这 两 种 机 制 的 不 同 之 处 。 


Buffer-to-Buffer 
Credit 


| OS | 
End-to-End (Source to Destination) Credit 


图 8-3 B2B 和 E2E 两 种 方式 的 流量 控制 示意 图 
3. MTU 


一 般 情况 下 ， 以 太 网 的 MTU 为 1500B， 而 FC 链 路 层 的 MTU 可 以 到 2112B。 这 样 ，FC 链 
路 层 相对 以 太 网 链 路 层 的 效率 又 提高 了 。 


8.1.3 网络 层 


1. 拓扑 


与 以 太 网 类 似 ，FC 也 提供 了 两 种 网 络 拓扑 模式 : FC-AL 和 Fabric。 


FEC-ALFC-AL 拓扑 类 似 于 以 太 网 共享 总 线 拓扑 ， 但 是 连接 方式 不 是 总 线 ， 而 是 一 条 仲裁 环 
路 ( Arbitral Loop ) 。 每 个 FC AL 设备 首尾 相 接 构成 了 一 个 环 路 。 一 个 环 路 能 接 入 的 最 多 节点 是 
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128 个 ,实际 上 是 用 了 一 个 字 节 的 寻 址 容量 ,但 是 只 用 到 了 这 个 字 节 经 过 810b 编码 之 后 奇偶 平衡 
(0 和 1 的 个 数 相等 ) 的 值 ， 也 就 是 256 个 值 中 的 134 个 值 来 寻 址 ， 这 些 被 筛选 出 来 的 地 址 中 又 被 
广播 地 址 、 专 用 地 址 等 占用 了 ， 最 后 只 剩 下 127 个 实际 可 用 的 节点 地 址 。 
图 8-4 为 4 个 FC-AL 设备 接 入 一 个 仲裁 环 的 拓扑 图 。 仲 裁 环 是 一 个 由 所 有 设备 “串联 ” 形 
成 的 闭合 环 路 。 如 果 某 个 设备 发 生 故 障 ， 这 个 串联 的 环 路 是 不 是 就 会 全 部 瘫痪 呢 ? 在 FC-AL 集 
线 设备 的 每 个 接口 上 都 有 一 套 “ 旁 路 电路 ” ( Bypas Cireuit ) ， 这 套 电 路 一 旦 检测 到 本 地 设备 故 
障 或 电源 断 开 ， 就 会 自动 将 这 个 接口 短路 ， 从 而 使 得 整个 环 路 将 这 个 故障 的 设备 Bypas 掉 ， 不 影 
响 其 他 设备 的 工作 。 

数据 帧 在 仲裁 环 内 是 一 跳 一 跳 被 传输 的 ， 并 且 任何 时 刻 数据 帧 只 能 按照 一 个 方向 向 下 游 传 
输 。 图 8-5 为 AL 环 路 数据 帧 传输 机 制 的 示意 图 。 


Node A 


图 8-4 FC 仲裁 环 结构 示意 图 图 8-5 AL 环 路 数据 帧 传输 机 制 示意 图 

在 图 8-5 所 示 的 仲裁 环 中 ， 若 a 节点 想 与 h 节点 通信 , 在 a 节点 赢得 仲裁 之 后 ， 便 向 h 节点 
发 送 数据 帧 。 然 而 ， 由 于 这 个 环 的 数据 是 顺 时 针 方向 传递 的 ， 所 以 a 发 出 的 数据 帧 ， 只 能 先 被 b 
节点 收 到 ， 由 b 节点 接着 传递 到 c 节点 ， 依 次 传递 ， 最 终 传递 到 h 节点 。 所 以 ， 虽 然 a 和 h 节点 
之 间 只 有 一 跳 的 距离 ， 但 是 仍然 需要 绕 一 圈 来 传递 数据 。 

Fabric 另 一 种 Fabric 拓扑 和 以 太 网 交换 拓扑 类 似 。Fabric 的 意思 为 “网 状 构造 ”, 表明 这 种 拓 
扑 其 实 是 一 个 网 状 交换 矩阵 。 

交换 矩阵 的 架构 相对 于 仲裁 环 路 来 说 ， 其 转发 效率 大 大 提高 了 ， 联 入 这 个 矩阵 的 所 有 节点 之 
间 都 可 以 同时 进行 点 对 点 通信 ， 加 上 包 交换 方式 所 带 来 的 并 发 和 资源 充分 利用 的 特性 ， 使 得 交换 
架构 获得 的 总 带宽 为 所 有 端口 带宽 之 和 。 而 AL 架构 下 ， 接 入 环 路 的 节点 不 管 有 多 少 ， 其 带宽 总 
为 恒定 ， 即 共享 的 环 路 带宽 。 
图 8-6 为 一 个 交换 矩阵 的 示意 图 。 每 个 FC 终端 设备 都 接 入 了 这 个 矩阵 的 端点 ， 一 个 设备 发 
给 另 一 个 设备 的 数据 帧 被 交换 矩阵 收 到 后 ， 和 矩阵 便 会 “ 拨 动 ”这 张 矩阵 网 交叉 处 的 开关 ， 以 连通 
电路 ， 传 输 数据 。 可 以 将 这 个 矩阵 想象 成 一 个 大 的 电路 开关 和 矩阵， 矩阵 根据 通信 的 源 和 目的 决定 
拨 动 哪些 开关 。 这 种 矩阵 被 做 成 芯片 集成 到 专门 的 交换 机 上 ， 然 后 辅 以 实现 FC 逻辑 的 其 他 芯片 
或 CPU、ROM， 就 形成 了 一 台 用 于 Fabric 交换 的 交换 机 。 
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图 8-7 所 示 的 是 一 台 Fabric 交换 机 。FC 设备 通过 光纤 或 者 铜 线 等 各 种 标注 的 线 缆 连 接 到 这 
台 交 换 机 上 ， 便 可 以 实现 各 个 节点 基于 FC Fabric 拓扑 方式 的 点 对 点 通信 。 


su 
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EE 


8-6 Cross Bar 交换 矩阵 示意 图 图 8-7 Brocade 公司 的 FC 交换 机 
FC 交换 拓扑 寻 址 容量 是 2 的 24 次 方 个 地 址 ， 比 以 太 网 理论 值 (2 48 ) 少 。 即 便 是 这 样 ， 对 
于 专用 的 存储 网 络 来 说 也 足够 了 ， 毕 竟 FC 设计 的 初衷 是 用 于 存储 网 络 的 一 种 高 速 高 效 网 络 。 


2. 寻 址 


任何 网 络 都 需要 寻 址 机 制 ，FC 当然 也 不 例外 了 。 

首先 ， 像 以 太 网 端口 MAC 地 址 一 样 ，FC 网 络 中 的 每 个 设备 自身 都 有 一 个 WWNN ( World 
Wide Node Name )， 不管 这 个 设备 上 有 多 少 个 FC 端口 ,设备 始终 拥有 一 个 固定 的 WWNN 来 代 
表 它 自身 。 然 后 ，FC 设备 的 每 个 端口 都 有 一 个 WWPN ( World Wide Port Name， 世 界 范围 的 名 
字 ) 地 址 ， 也 就 是 说 这 个 地 址 在 世界 范围 内 是 唯一 的 ， 世 界 上 没有 两 个 接口 地 址 是 相同 的 。 

FC Fabric 拓扑 在 寻 址 和 编 址 方面 与 以 太 网 又 有 所 不 同 。 具体 体现 在 以 太 网 交换 设备 上 的 端口 
不 需要 有 MAC 地 址 , 而 FC 交换 机 上 的 端口 都 有 自己 的 WWPN 地 址 。 这 是 因为 FC 交换 机 要 做 
的 工作 比 以 太 网 交换 机 多 , 许多 智能 和 FC 的 逻辑 都 被 集成 在 FC 交换 机 上 , 而 以 太 网 的 逻辑 相对 
就 简单 了 许多 ， 因 为 上 层 逻 辑 都 被 交 给 诸如 TCP/IP 这 样 的 上 层 协议 实现 了 。 然 而 FC 的 Fabric 
网 中 ，FC 交换 机 担当 了 很 重要 的 角色 ， 它 需要 处 理 到 FC 协议 的 最 上 层 。 每 个 FC 终端 设备 除了 
和 最 终 通信 的 目标 有 交互 之 外 ， 还 需要 和 FC 交换 机 打 好 交道 。 

WWNN 每 个 FC 设备 都 被 赋予 一 个 WWNN， 这 个 WWNN 一 般 被 写 入 设备 的 ROM 中 不 
能 改变 ,但 是 在 某 些 条 件 下 也 可 以 通过 运行 在 设备 上 的 程序 动态 的 改变 。 

WWPN 和 三 个 IDWWPN 地 址 的 长 度 是 64 位 ， 比 以 太 网 的 MAC 地 址 还 要 长 出 16 位 。 可 
见 FC 协议 很 有 信心 认为 FC 会 像 以 太 网 一 样 普及 , 全 球 会 产生 264 个 FC 接口 。 然而, 如果 8B 
长 度 的 地 址 用 于 高 效 路 由 的 话 ， 无 疑 是 梦 魔 ( IPv6 地 址 长 度 为 128b， 但 是 鉴于 Intemet 的 庞大 ， 
也 只 好 牺 性 速度 换 容量 了 )。 所 以 FC 协议 决定 在 WWPN 之 上 再 映射 一 层 寻 址 机 制 , 就 是 像 MAC 
和 IP 的 映射 一 样 , 给 每 个 连接 到 FC 网 络 中 的 接口 分 配 一 个 Fabric ID, 用 这 个 ID 而 不 是 WWPN 
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来 符 入 链 路 帧 中 做 路 由 。 这 个 ID 长 24 位 , 高 8 位 被 定义 成 Domain 区 分 符 , 中 8 位 被 定义 为 Area 
区 分 符 ， 低 8 位 定义 为 PORT 区 分 符 。 
这 样 ，WWPN 被 映射 到 Fabric ID， 一 个 Fabric ID 所 有 24b 又 被 分 成 Domain ID 、Area ID、 
Port ID 这 三 个 亚 寻 址 单元 。 
" ”Domain ID: 用 来 区 分 一 个 由 众多 交换 机 组 成 的 大 的 FC 网 络 中 每 个 FC 交换 机 本 身 。 一 
个 交换 机 上 所 有 接口 的 Fabric ID 都 具有 相同 的 高 8 位 , 即 Domain ID。Domain ID 同时 
也 用 来 区 分 这 个 交换 机 本 身 ， 一 个 Fabric 中 的 所 有 交换 机 拥有 不 同 的 Domain ID。 一 个 
多 交换 机 组 成 的 Fabric 中 ，Domain ID 是 自动 被 主 交换 机 分 配给 各 个 交换 机 的 。 根 据 
WWNN 号 和 一 系列 的 选举 帧 的 传送 ，WWNN 最 小 者 获胜 成 为 主 交换 机 ， 然 后 这 个 主 
交换 机 向 所 有 其 他 交换 机 分 配 Domain ID ， 这 个 过 程 其 实 就 是 一 系列 的 特殊 帧 的 传送 、 
解析 和 判断 。 
”Area ID: 用 来 区 分 同一 台 交换 机 上 的 不 同 端口 组 , 比如 1、2、3、4 端口 属于 Area 1，5、 
6、7、8 端口 属于 Area 2 等 。 其 实 Area ID 这 一 层 亚 寻 址 单元 意义 不 是 很 大 。 我 们 知道 ， 
每 个 FC 接口 都 会 对 应 一 块 用 来 管理 它 的 芯片 ,然而 每 个 这 样 的 芯片 却 可 以 管理 多 个 FC 
端口 。 所 以 如 果 一 片 芯片 可 以 管理 1、2、3、4 号 FC 端口 , 那么 这 个 芯片 就 可 以 属于 一 
个 Area， 这 也 是 Area 的 物理 解释 。 同 样 , 在 主机 端的 FC 适 配 卡 上 , 一 般 也 都 是 用 一 块 
芯片 来 管理 多 个 FC 接口 的 。 
里 Port ID: 用 来 区 分 一 个 同 Area 中 的 不 同 Port。 
经 过 这 样 的 3 段 式 寻 址 体系 ， 可 以 区 分 一 个 大 Fabric 中 的 每 个 交换 机 、 交 换 机 中 的 每 个 端口 
组 及 每 个 端口 组 中 的 端口 。 


3. 寻 址 过 程 


1) 地 址 映射 

既然 定义 了 两 套 编 址 体系 ,那么 一 定 要 有 映射 机 制 ， 就 像 ARP 协议 一 样 。FC 协议 中 地 址 映 
射 步骤 如 下 。 

当 一 个 接口 连接 到 FC 网 络 中 时 ， 如 果 是 Fabric 架构 ， 那 么 这 个 接口 会 发 起 一 个 登录 注册 到 
Fabric 网 络 的 动作 ， 也 就 是 向 目的 Fabric ID 地 址 FFFFFE 发 送 一 个 登录 帧 ， 称 为 ELOGIN。 

交换 机 收 到 地 址 为 FFFFFE 的 帧 之 后 ， 会 动态 地 给 这 个 接口 分 配 一 个 24b 的 Fabric ID， 并 记 
录 这 个 接口 对 应 的 WWPN， 做 好 映射 。 

此 后 这 个 接口 发 出 的 帧 中 不 会 携带 其 WWwPN， 而 是 携带 其 被 分 配 的 ID 作为 源 地 址 。 

提示 : 以 太 网 是 既 携带 MAC 地 址 ， 又 携带 PP 地址 ， 在 效率 上 打 了 折扣 。 

如 果 接 口 是 连 接 到 FC 仲裁 环 网 络 中 ， 那 么 整个 环 路 上 的 节点 会 选 出 一 个 临时 节点 (根据 
WWPN 号 的 数值 ， 最 小 的 优先 级 最 高 ) ， 然 后 由 这 个 节点 发 送 一 系列 的 初始 化 帧 ， 给 每 个 节点 
分 配 环 路 ID。 

提示 :FC 网 络 中 的 FCID 都 是 动态 的 , 每 个 设备 每 次 登录 到 Fabric 所 获得 的 ID 可 能 不 一 

样 。 同 样 ，FC 交换 机 维护 的 Fabric ID 与 WWPN 的 映射 也 是 动态 的 。 

图 8-8 所 示 的 是 FC 设备 登录 到 Fabric 过 程 示意 图 。 
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。 如 果 设 备 为 Fabric 横 式 ， 将 会 由 设备 首先 向 注册 服务 器 (FFFFFE) 发 送 注册 申请 
(FLOGI)， 由 注册 服务 器 应 答 (如 通则 发 送 端口 地 址 ) 

。 获得 许可 和 Fabric 地 址 后 向 名 称 服 务 器 发 送 端口 注册 请 求 ， 由 名 称 服 务 器 决定 ， 获 
得 许可 的 同时 将 同时 收 到 可 访问 设备 列表 (主动 设备 ) 


应 答 者 


图 8-8 FC 设备 登录 Fabric 网 络 的 过 程 


2 ) 寻 址 机 制 

编 址 之 后 就 要 寻 址 ， 寻 址 则 牵扯 到 路 由 的 概念 。 

一 个 大 的 FC 网 络 中 ,一 般 有 多 台 交 换 机 相互 连接 ,它们 可 以 链 式 级 联 ， 也 可 以 两 两 连接 ， 
甚至 任意 连接 ,就 像 PP 网 络 中 的 路 由 器 连接 一 样 ， 但 是 FC 网 络 不 需要 太 多 的 人 工 介 入 。 如 果 将 
几 台 交换 机 连接 成 一 个 FC 网 络 ， 则 它们 会 自动 地 协商 自己 的 Domain ID ， 这 个 过 程 是 通过 选举 
出 一 个 WWPN 号 最 小 的 交换 机 来 充当 主 交换 机 ， 由 主 交换 机 来 向 下 给 每 个 交换 机 分 配 Domain 
ID ， 以 确保 不 会 冲突 。 

对 于 寻 址 过 程 ， 这 些 交换 机 上 会 运行 相应 的 路 由 协议 。 最 广泛 使 用 的 路 由 协议 就 是 SPF ( 最 
短路 径 优先 ) 协议 ， 是 一 种 很 健壮 的 路 由 协议 。 比 如 用 于 IP 网 络 中 的 OSPF 协议 ，FC 网 络 也 应 
用 了 这 种 协议 。 这 样 就 可 以 寻 址 各 个 节点 ， 进 行 各 个 节点 无 障碍 地 通信 。 

IP 网 络 需要 很 强 的 人 为 介入 性 ， 比 如 给 每 个 节点 配置 IP 地 址 ， 给 每 个 路 由 器 配置 路 由 信息 
及 人 P 地址 等 , 这 样 出 错 率 会 很 高 。FC 网 络 中 自动 分 配 和 管理 各 种 地 址 , 避免 了 人 算 带 来 的 错误 。 
FC 采用 自动 分 配 地 址 的 策略 ,一 个 最 根本 的 原因 是 FC 从 一 开始 就 被 设计 为 一 个 专用 、 高 效 、 高 
速 的 网 络 ， 而 不 是 给 Internet 用 的 ， 所 以 自动 分 配 地 址 当然 适合 它 。 如 果 给 Internet 也 自动 分 配 地 
址 ， 那 么 后 果 不 堪 设想 。 

既然 要 与 目的 节点 通信 ， 怎 么 知道 要 通信 的 目标 地 址 是 多 少 呢 ? 我 们 知道 ，FC 被 设计 为 一 
个 专用 网 络 ， 一 个 小 范围 、 高 效 、 高 速 、 简 易 配 置 的 网 络 。 所 以 使 用 它 的 时 候 也 非常 简便 ， 就 像 
在 Windows 中 浏览 网 上 邻居 一 样 。 

每 个 节点 在 登录 到 FC 网 络 并 且 被 分 配 ID 之 后 , 会 进行 一 个 名 称 注册 过 程 , 也 就 是 接口 上 的 
设备 会 向 一 个 特定 的 目的 ID 发 一 系列 的 注册 帧 ,来 注册 自己 。 这 个 ID 实际 上 并 没有 物理 设备 与 
其 对 应 ， 只 是 运行 在 交换 机 上 的 一 套 名 称 服务 程序 而 已 ， 而 对 于 终端 FC 设备 来 说 ,会 认为 自己 
是 在 和 一 个 真实 的 FC 设备 通信 。 对 于 Windows 系统 来 说 , 每 台 机 器 启动 之 后 , 如 果 设 置 了 WINS 
服务 器 ， 会 向 WINS 服务 器 来 注册 自己 的 主机 名 和 了 P 地 址 。 


第 8 章 勇 破 难关 一 一 Fibre Channel 协 议 详解 @ 


每 台 机 器 都 这 么 做 , 所 以 网 络 中 的 WINS 服务 器 就 会 掌握 网 络 中 的 所 有 机 器 的 主机 和 IP。 同 
样 ，FC 交换 机 上 运行 的 这 个 名 称 服务 程序 ， 就 相当 于 WINS 服务 器 。 但 是 其 地 址 是 唯一 的 、 特 
定 的 , 不 像 WINS 服务 器 可 以 被 配置 为 任何 卫 地 址 。 也 就 是 说 在 FC 协议 中 , 这 个 地 址 是 大 家 都 
公认 不 会 去 改变 的 ， 每 个 节点 都 知道 这 个 地 址 ， 所 以 都 能 找到 名 称 服务 器 。 其 实 不 是 物理 的 服务 
器 ， 只 是 运行 在 FC 交换 机 上 的 程序 ， 也 可 以 认为 FC 交换 机 本 身 就 是 这 台 服 务 器 。 

节点 注册 到 名 称 服务 之 后 ,服务 便 会 将 网 络 上 存在 的 其 他 节点 信息 告诉 这 个 接口 上 所 连接 的 
设备 ， 就 像 浏 览 网 上 邻居 一 样 ， 所 以 这 个 接口 上 的 设备 便 知 道 了 网 络 上 的 所 有 节点 和 资源 。 

ZONE 为 了 安全 性 考虑 ,可 以 进行 人 为 配置 ,让 名 称 服务 器 只 告诉 某 个 设备 特定 的 节点 。 比 
如 网 络 上 存在 a、b、c、d 四 个 节点 ,可 以 让 名 称 服务 只 向 a 通告 bp、c 两 个 节点 的 存在 ， 而 隐藏 4 
节点 , 这样 4 看 不 到 d。 但 是 这 样 做 有 时 候 会 显得 很 不 保险 ， 因为 a 虽然 没有 通过 名 称 服务 得 到 d 
的 ID， 但 是 如 果 将 节点 d 的 ID 直接 告诉 节点 a 的 话 ， 那 么 它 就 可 以 和 主动 发 起 通信 。 而 这 一 
切 ， 交 换 机 不 做 干涉 ， 因 为 交换 机 傻 傻 的 认为 只 要 名 称 服务 器 没有 向 a 通告 d 的 ID ，a 就 不 会 和 
d 发 起 通信 。 

发 生 这 种 结果 的 原因 是 在 物理 上 节点 a 和 节点 d 并 没有 被 分 开 ，a 和 d 总 有 办 法 通信 。 就 像 
有 时 网 上 邻居 里 看 不 到 一 台 机 器 ， 但 是 它 明明 在 线 ， 那 么 如 果 此 时 知道 那 台 机 器 的 地 址 ， 照 样 可 
以 不 通过 网 上 邻居 ， 直 接 和 它 通信 。 如 果 两 个 节点 被 物理 隔 开 了 ， 那 么 就 真 的 无 能 为 力 了 。 前 者 
实现 隔离 的 方法 叫做 软 ZONE， 后 者 的 做 法 叫做 硬 ZONE。 

所 谓 ZONE, 即 分 区 的 意思 , 同一 个 分 区 内 的 节点 之 间 可 以 相互 通信 , 不 同 分 区 之 间 的 节点 
无 法 通信 。 软 ZONE 假设 大 家 都 是 守法 公民 , 名 称 服务 器 没有 通告 的 ID 就 不 去 连接 ; 而 硬 ZONE 
不 管 是 否 守法 都 会 从 底层 硬件 上 强制 隔离 ,即使 某 个 节点 知道 了 另外 分 区 中 某 个 节点 的 ID, 也 无 
法 和 对 方 建立 通信 ， 因 为 底层 已 经 被 阻 断 了 。 图 8-9 是 一 个 Fabric ZONE 的 示意 图 。 


| 


图 8-9 一 个 具有 三 个 ZONE 的 Fabric 
与 目标 通信 从 名 称 服务 器 得 知 网 络 上 的 节点 ID 之 后 ， 如 果 想 发 起 和 一 个 节点 的 通信 ， 那 么 
这 个 设备 需要 直接 向 目的 端口 发 起 一 个 N_PORT Login 过 程 来 交换 一 系列 的 参数 ， 然 后 再 进行 
Process Login 过 程 ( 类 似 于 TCP 向 特定 应 用 端口 发 送 握手 包 一 样 ) ， 即 进行 应 用 程序 间 的 通信 。 
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比如 , FC 可 以 承载 SCSI 协议 和 耳 协议 , 那么 Initiator 端 就 需要 向 Target 端 对 应 的 功能 发 起 请 求 ， 
比如 请 求 FCP 类 型 的 Process Login ,那么 Target 端 就 知道 这 个 连接 是 用 于 FCP 流量 的 .这 些 Login 
过 程 其 实 就 是 上 三 层 的 内 容 ， 属 于 会 话 层 ， 和 网 络 传输 已 经 没什么 关联 了 。 这 些 Login 的 帧 也 必 
须 经 过 FC 下 四 层 来 封装 并 传输 到 目的 地 ， 就 像 TCP 握手 过 程 一 样 。 

名 称 服 务 器 只 是 FC 提供 的 所 有 服务 中 的 一 个 ， 其 他 还 有 时 间 服 务 、 别 名 服务 等 ， 这 些 地 址 
都 是 事先 定 死 的 。 

Fabric 网 络 中 还 有 一 种 FC Control Service, 如 果 节点 向 这 个 服务 注册 , 也 就 是 向 地 址 FFFFFD 
发 送 一 个 State Change Registration (SCR ) 帧 ， 那 么 一 旦 整个 Fabric 有 什么 变动 ， 比 如 一 个 节点 
离线 了 ， 或 者 一 个 节点 上 线 了 、 或 者 一 个 ZONE 被 创建 了 等 ，Fabric 便 会 将 这 些 事件 封装 到 
Registered State Change Notification (RSCN ) 帧 里 发 送 给 注册 了 这 项 服务 的 所 有 节点 。 这 个 动作 
就 像 预 订 新 闻 一 样 ， 通 常 一 旦 节点 被 通知 有 这 些 事件 发 生 之 后 ， 节 点 需要 重新 进行 名 称 注册 ， 以 
便 从 名 称 服 务 器 得 到 网 络 上 的 最 新 资源 情况 ， 也 就 是 刷新 一 下 。 

这 些 众所周知 的 服务 都 是 运行 在 交换 机 内 部 的 ， 而 不 是 物理 上 的 一 台 服 务 器 。 当 然 如 果 愿 意 
的 话 , 也 完全 可 以 用 物理 服务 器 来 实现 , 不 过 这 样 做 的 话 , 在 增加 了 扩展 性 的 同时 也 增加 了 Fabric 
的 操作 难度 。 

以 上 描述 的 都 是 基于 FC 交换 架构 的 网 络 ， 即 Fabric ( FC 交换 网 络 ) 。 对 于 FC 仲裁 环 架构 的 
网 络 没有 名 称 注 册 过 程 ， 环 上 的 每 个 节点 都 对 环 上 其 他 节点 了 如 指 掌 ， 可 以 对 任何 节点 发 起 通信 。 


提示 : 有 些 机 制 可 以 把 环 路 和 交换 结构 融合 起 来 ， 比 如 形成 Private loop 、Public loop 等 ， 
这 方面 会 在 下 文中 介绍 。 


FC 的 链 路 层 和 网 络 层 被 合并 成 一 层 ， 统 称 FC2。 
8.1.4 传输 层 


FC 的 传输 层 同样 也 与 TCP 类 似 , 也 对 上 层 的 数据 流 进 行 Segment， 而 且 还 要 区 分 上 层 程序 ， 
TCP 是 利用 端口 号 来 区 分 ，FC 则 是 利用 Exchange ID 来 区 分 。 每 个 Exchange ( 上 层 程序 ) 发 过 
来 的 数据 包 , 被 FC 传输 层 分 割 成 
Information Unit， 也 就 相当 于 TCP 
分 割 成 的 Segment。 然 后 FC 传输 层 
将 这 些 Unit 提交 给 FC 的 下 层 进 行 
传输 。 下 层 将 每 个 segment 当 作 一 个 
Sequence, 并 给 予 一 个 Sequence ID , 
然后 将 这 个 Sequence 再 次 分 割 成 FC 
所 适应 的 帧 ， 给 每 个 帆 赋予 一 个 


Sequence Count， 这 样 便 可 以 保证 帧 | 2 | | | LS [| 
的 排列 顺序 。 接 收 方 接收 到 帧 之 后 ， [ET re EE 

会 组 合成 Sequence ， 然 后 根据 时 一 加 
Sequence ID 来 顺序 提交 给 上 层 协议 
处 理 。 图 8-10 显示 了 这 种 层次 结构 。 
图 8-11 为 FC 网 络 上 的 数据 帧 传输 


图 8-10 FC 协议 的 层次 结构 


第 8 章 勇 破 难关 一 一 Fibre Channel 协议 详解 @ 


Node A 


NodeZ 


NodeZ 


图 8-11 Fabric 网 络 上 的 帧 

传输 层 还 有 一 个 重要 角色 ， 就 是 适 配 上 层 协议 ， 比 如 IP 可 以 通过 FC 进行 传输 ，SCSI 指令 可 
以 通过 FC 来 传输 等 。FC 会 提供 适 配 上 层 协议 的 接口 ,就 是 IP over FC 及 SCSI over FC。 这 里 , FC 
只 是 给 一 和 SCSI 提供 了 一 种 通路 ， 一 种 传输 手段 ， 就 像 中 over Ethernet 和 IP over ATM 一 样 。 

FC 也 是 通过 发 送 ACK 帧 来 向 对 方 发 送 确认 信息 的 ， 这 个 和 TCP 的 实现 思想 一 样 。 只 不 过 
一 个 ACK 帧 是 24B 加 上 CRC、SOF、EOF, 一 共 36B， 而 TCP 的 ACK 帧 为 14+20+20=54B。 
两 者 差别 已 经 很 明显 了 ， 两 个 帧 看 不 出 来 ， 但 是 发 送 多 了 ， 差别 就 看 出 来 了 。 要 看 累积 效应 。 当 
然 这 么 算是 很 粗略 的 ， 还 需要 包括 进 链 路 控制 ， 帧 间隙 开销 等 。 

在 传输 层 上 ，FC 定义 了 几 种 服务 类 型 ， 也 就 是 类 似 TCP/IP 协议 中 规定 的 TCP、UDP。FC 
协议 中 的 Class 1 服务 类 型 是 一 种 面向 连接 的 服务 ， 即 类 似 电 路 交换 的 模式 ， 为 通信 的 双方 保留 一 
条 虚 电 路 ， 以 进行 可 靠 的 传输 。Class 2 类 型 提供 的 是 一 种 带 端 到 端 确认 的 保障 传输 的 服务 ， 也 就 
是 类 似 TCP。Class 3 类 型 不 提供 确认 , 类似 UDP。Class 4 类 型 是 在 一 条 连接 上 保留 一 定 的 带宽 资 
源 给 上 层 应 用 ， 而 不 是 像 Clas 1 类 型 那样 保留 整个 连接 ， 类 似 RSVP 服务 。 使 用 什么 服务 类 型 ， 
会 在 端口 之 间 进 行 PLogin 的 时 候 协 商 确定 。 

FC 传输 层 被 定义 为 FC4。 

8.1.5 上 三 屋 

FC 协议 的 上 三 层 表现 为 各 种 Login 过 程 、 包括 名 称 服务 等 在 内 的 各 种 服务 等 , 这 些 都 是 与 网 
络 传输 无 关 的 ， 但 是 的 确 属于 FC 协议 体系 之 内 的 ， 所 以 这 些 内 容 都 属于 FC 协议 的 上 三 层 。 
8.1.6 小 结 


综 上 所 述 ，FC 是 一 个 高 速 高 效 、 配 置 简单 ， 不 需要 太 多 人 为 介入 的 网 络 。 基 于 这 个 原则 ， 
为 了 进一步 提高 FC 网 络 的 速度 和 效率 ， 在 FC 终端 设备 上 ，FC 协议 的 大 部 分 逻辑 被 直接 做 到 一 
块 独立 的 硬件 卡片 当中 ， 而 不 是 运行 在 操作 系统 中 。 如 果 将 部 分 协议 逻辑 署 于 主机 上 运行 ， 会 占 
用 主机 CPU 内 存 资 源 。 

TCP/IP 就 是 一 种 运行 于 主机 操作 系统 上 的 网 络 协议 , 其 全 和 TCP 或 者 UDP 模块 是 运行 在 
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操作 系统 上 的 , 只 有 以 太 网 逻辑 是 运行 在 以 太 网 卡 芯 片 中 的 , CPU 从 以 太 网 卡 接收 到 的 数据 是 携 
带 有 也 头 部 及 TCP/UDP 头 部 的 ， 需要 运行 在 CPU 中 的 TCP/IP 协议 代码 来 进一步 处 理 这 些 头 
部 ， 才 能 生成 最 终 的 应 用 程序 需要 的 数据 。 

而 FC 协议 的 物理 层 到 传输 层 的 逻辑 ， 大 部 分 运行 在 FC 适 配 卡 的 芯片 中 ， 只 有 小 部 分 关于 
上 层 API 的 逻辑 运行 于 操作 系统 FC 卡 驱动 程序 中 , 这 样 就 使 FC 协议 的 速度 和 效率 都 较 TCP/IP 
协议 高 。 这 么 做 ,成 本 无 疑 会 增加 ,但 是 网 络 本 来 就 不 是 为 大 众 设计 的 ， 增 加 成 本 来 提高 速度 和 
效率 也 是 值得 的 。 


8.2 FC 协议 中 的 七 种 端口 类 型 


在 FC 网 络 中 ,存在 七 种 类 型 的 接口 ,其 中 N、L 和 NEL 端口 被 用 于 终端 节点 ，F、FL、E 和 
G 端口 在 交换 机 中 实现 。 


8.2.1 N 端口 和 F 端口 


N 端口 和 F 端 口 专 用 于 Fabric 交换 架构 中 。 连 入 FC 交换 机 的 终端 节点 的 端口 为 N 端口 , 对 
应 的 交换 机 上 的 端口 为 端口 。N 代表 Node, F 代表 Fabric。 用 N 端口 模式 连 入 F 端口 之 后 , 网 
络 中 的 N 节点 之 间 就 可 以 互相 进行 点 对 点 通信 了 。 图 8-12 所 示 的 是 N 端口 和 F 端口 的 示意 图 。 


图 8-12 N 端口 和 FE 端口 
8.2.2 上 端口 


L 端口 指 仲裁 环 上 各 个 节点 的 端口 类 型 (LOOP ) 。 环 路 上 的 所 有 设备 可 以 通过 一 个 FCAL 
的 集线器 相连 ， 以 使 得 布线 方便 ， 故 障 排除 容易 。 当 然 ， 也 可 以 使 用 最 原始 的 方法 ， 就 是 首尾 相 
接 。 图 8-13 所 示 的 是 利用 集线器 连接 的 拓扑 。 


图 8-13 基于 FCAL 集线器 的 FCAL 环 路 连接 
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1. 私有 环 


私有 环 ， 就 是 说 这 个 FC 仲裁 环 是 封闭 的 ， 只 能 在 这 个 环 中 所 包含 的 节点 之 间 相 互通 信 ， 而 
不 能 和 环 外 的 任何 节点 通信 。 


2. 开放 环 


这 个 环 是 开放 的 ， 环 内 节点 不 但 可 以 和 环 内 的 节点 通信 ,而 且 也 可 以 和 环 外 的 节点 通信 。 也 就 
是 说 可 以 把 这 个 环 作为 一 个 单元 连接 到 FC 交换 机 上 ， 从 而 使 得 环 内 的 节点 可 以 和 位 于 FC 交换 机 
上 的 其 他 N 节点 通信 。 如 果 将 多 个 开放 环 连 接 到 交换 机 ， 那 么 这 几 个 开放 环 之 间 也 可 以 相互 通信 。 

要 实现 开放 环 架构 ， 需 要 特殊 的 端口 ， 即 下 面 描述 的 NL 和 EL 端口 。 
8.2.3 ”NL 端口 和 FL 端口 

NL 端口 是 开放 环 中 的 一 类 端口 , 它 具 有 N 端口 和 工 端口 的 双重 能 力 。 换 而 言 之 ， NL 端口 


支持 交换 式 光纤 网 登录 和 环 仲裁 。 而 FL 端口 是 FC 交换 机 上 用 于 连接 开放 仲裁 环 结构 的 中 介 端 口 。 


开放 环 内 可 以 同时 存在 NL 节点 和 工 节点 ， 而 只 有 NL 节点 才能 和 环 外 的 、 位 于 FC 交换 结 
构 中 的 多 个 N 节点 或 者 其 他 类 型 节点 通信 。NL 节点 也 可 以 同时 和 L 节点 通信 。 图 8-14 为 NL 
和 FL 端口 示意 图 。 


私有 环 设备 [sa 
私有 环 设备 
图 8-14 NL 和 FL 端口 示意 图 


私有 环 设备 


开放 环 的 融合 机 制 


FC-SW 设备 的 工作 方式 是 它 会 登录 到 网 络 ( FLOGI ) , 并 在 Name Server 中 注册 (PLOGI ) 。 
设备 要 传输 数据 时 会 先 到 Name Server 查询 Target 设备 ， 然 后 到 目标 设备 进行 注册 (PRLI) ,最 
后 传输 数据 。 
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FC-AL 的 设备 工作 方式 与 此 完全 不 同 ， 在 环 路 的 初始 化 (LIP ) 过 程 中 ， 生 成 一 个 环 路 上 所 
有 设备 地 址 的 列表 ， 被 称 作 AL_PA， 并 存储 在 Loop 中 的 每 个 设备 上 。 当 设备 要 与 目标 主机 通信 
时 ， 会 到 AL_PA 中 查询 目标 主机 ， 然 后 根据 地 址 进行 通信 。 

要 让 一 个 私有 环 中 的 设备 和 Fabric 中 的 设备 达到 相互 通信 , 必须 采用 协议 转换 措施 , 因为 FC 
AL 和 FC Fabric 是 两 套 不 同 的 逻辑 体系 。 

提示 : 在 本 书 第 13 章 论述 了 关于 “协议 之 间 相互 作用 ” 即 “协议 杂 交 ” 方 面 的 内 容 。 如 

果 阅 读 到 那 一 章 ， 再 回头 来 研究 ， 我 们 可 以 发 现 ，NL 端口 和 FL 端口 之 间 ， 完 全 就 是 一 

种 Tunnel 模式, 它们 利用 FC AL 的 逻辑 ,承载 FC Fabric 的 逻辑 ,也 就 是 踩 着 AL 走 Fabric。 

比如 Flogin、PLogin 等 这 些 帧 ， 都 通过 AL 链 路 来 发 向 FL 端口 ， 而 整个 环 中 其 他 节点 ， 

对 这 个 动作 丝毫 不 知道 ， 也 不 必 知 道 。 


如 果 采 用 MAP 方式 达到 两 种 协议 形式 的 最 大 程度 的 融合 ， 也 是 完全 可 以 的 。 下 面 描述 的 这 
种 模式 ， 就 是 采用 了 MAP 的 思想 。 

这 种 MAP 的 模式 使 环 内 的 任何 工 节点 可 以 和 环 外 的 任何 N 节点 之 间 就 像 对 方 和 自己 是 同类 
一 样 通信 。 也 就 是 说 环 内 的 工 节点 看 待 环 外 的 N 节点 就 像 是 一 个 不 折 不 扣 的 工 节 点 。 反 过 来 , 环 
外 的 N 节点 看 待 环 内 的 工 节点 就 像 是 一 个 N 节点 一 样 。 这 个 功能 是 通过 在 交换 机 上 的 EL 端口 实 
现 的 , 这 个 端口 承接 私有 环 和 Fabric。 在 私有 环 一 侧 , 它 表 现 为 工 端 口 的 所 有 逻辑 行为 , 而 对 Fabric 
一 侧 ， 它 则 表现 为 N 端口 的 行为 ， 也 就 相当 于 一 个 N-L 端口 协议 转换 。 这 个 接口 可 以 把 环 外 的 
N 节点 “ 带 ” 到 私有 环 内 ， 同 时 把 环 内 的 节点 “ 带 ” 到 环 外 。 环 内 的 工 节点 根本 不 会 知道 它们 所 
看 到 的 其 实 是 环 外 的 N 节点 通过 这 个 特殊 的 工 端口 仿真 而 来 的 。 

当然 也 要 涉及 到 寻 址 的 MAP, 因为 Fabric 和 AL 的 编 址 方式 不 同 ,所 以 需要 维护 一 个 地 址 映 
射 , 将 环 内 的 节点 统统 取 一 个 环 外 的 名 字 , 也 就 是 将 工 端口 地 址 对 应 一 个 N 端口 地 址 , 而 这 些 地 
止 都 是 虚拟 的 ,不 能 和 环 外 已 经 存在 的 N 端口 地 址 重合 , 这 样 才能 让 环 外 节点 知道 存在 这 么 一 些 
新 加 入 Fabric 的 节点 ( 其 实 是 环 内 的 工 节 点 ) 。 而 要 让 环 外 节点 知道 这 些 新 节点 的 存在 ， 就 要 将 
这 些 新 的 节点 注册 到 名 称 服务 器 上 。 因 为 Fabric 架构 中 ， 每 个 节点 都 是 通过 查询 名 称 服务 器 来 获 
取 当 前 Fabric 中 所 存在 的 节点 的 。 同样, 要 让 环 内 的 节点 知道 环 外 的 N 节点 的 存在 ， 也 必须 给 每 
个 N 节点 取 一 个 AL 地 址 ,让 这 些 地 址 参与 环 的 初始 化 ,从 而 将 这 些 地 址 加 入 到 AL 地 址 列表 中 。 
这 样 ， 环 内 的 节点 就 能 根据 这 个 列表 知道 环 内 都 有 哪些 节点 了 。 

让 各 自 都 能 看 到 对 方 ， 知 道 对 方 的 存在 ， 这 只 是 完成 了 MAP 的 第 一 步 。 接 下 来 ， 还 要 进行 
更 加 复杂 的 MAP， 即 协议 交互 逻辑 的 MAP。 假 如 一 个 环 内 节点 要 和 一 个 环 外 节点 通信 ， 这 个 环 
内 节点 会 认为 它 所 要 通信 的 就 是 一 个 和 它 同 类 的 工 节点 ， 所 以 它 赢得 环 仲裁 之 后 ， 会 直接 向 这 个 
虚拟 AL 地 址 发 起 通信 。 

这 个 虚拟 AL 地 址 对 应 的 物理 接口 实际 上 是 交换 机 上 的 仿真 工 端口 ， 仿 真 工 端口 收 到 由 环 内 
节点 发 起 的 通信 请 求 之 后 ， 便 开始 MAP 动作 。 首 先 仿真 L 端口 根据 这 个 请 求 的 目的 地 址 ， 也 就 
是 那个 虚拟 地 址 ， 查 找 地 址 映射 表 ， 找 到 对 应 的 N 端口 的 Fabric 地 址 。 然 后 主动 向 这 个 N 端 
发 起 PLogin 过 程 ， 也 就 是 将 AL 的 交互 逻辑 最 终 映射 到 了 Fabric 的 交互 逻辑 。 即 AL 向 虚拟 地 址 
发 起 的 通信 请 求 , 被 仿真 工 端口 MAP 成 了 向 真正 的 N 端口 发 起 PLogin 请 求 , 这 就 是 协议 交互 逻 
辑 的 MAP。 请 求 成 功 之 后 , 仿真 工 端口 便 一 边 收集 环 内 工 节点 发 来 的 数据 , 一 边 将 数据 按照 Fabric 
的 逻辑 转发 给 真正 的 N 端口 。 反 之 亦 然 ，N 端口 的 逻辑 ,仿真 工 端口 同样 也 会 MAP 成 AL 环 的 
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有 逻辑。 这样， 不管 是 环 外 的 N 端口 还 是 环 内 的 工 端口 ， 它 们 都 认为 它们 正在 和 自己 的 同类 通信 。 


图 


同 
的 多 个 
它们 如 
即 先 要 
而 这 一 


8 一 15 所 示 为 开放 环 与 Fabric 融合 的 示意 图 。 


等 竺 
图 8-15 ”开放 环 融合 机 制 示意 图 

样 是 将 环 接 入 Fabric， 开 放 环 的 扩展 性 就 比 私 有 环 接 入 强 。 因 为 一 个 NL 端口 可 以 和 环 外 
N 端口 通信 。 也 就 是 说 ，NL 端口 和 FL 端口 可 以 看 成 是 隐藏 在 环 中 的 N 端口 和 F 端口 。 
果 要 通信 ， 不 能 像 直 连 的 N 和 F 端口 那 样 直 接 进行 Fabric 登录 ， 而 必须 先 突破 环 的 限制 ， 
赢得 环 仲裁 ， 再 按照 交换 架构 的 逻辑 进行 Fabric 登录 ， 接 着 N 端口 登录 ， 然 后 进程 登录 。 
切 ， 环 内 其 他 节点 不 会 感知 到 。 

具有 NL 端口 的 设备 既 能 和 环 内 的 工 端口 设备 通信 , 又 能 和 环 外 的 N 端口 设备 通信 , 同时 具 


有 IN 和 工 端口 的 逻辑 ， 这 一 切 都 不 需要 仿真 MAP， 只 需要 一 个 Tunnel 过 程 即 可 。 而 环 内 的 工 节 


点 如 果 想 与 环 外 的 N 端口 通信 ， 由 于 工 节点 自身 没有 N 端口 的 逻辑 ， 必 须 经 过 FL 端口 的 MAP 
过 程 。 所以, 称 具 有 NL 端口 的 设备 为 Public 设备 , 即 开放 设备 。 而 称 具 有 工 端 口 的 设备 为 Private 
设备 ， 即 不 开放 的 私有 设备 。 
8.2.4 E 端 口 

E 端口 是 专门 用 于 连接 交换 机 和 交换 机 的 端口 。 因 为 交换 机 之 间 级 联 ， 需 要 在 级 联 线 路 上 承 
载 一 些 控制 信息 ， 比 如 选举 协议 、 路 由 协议 等 。 
8.2.5 G 端 口 

G 端口 比较 特殊 ， 它 是 “万 能 ”端口 ， 它 可 以 转变 为 上 面 讲 到 过 的 任何 一 种 端口 类 型 ， 按 照 


所 连接 对 方 的 端口 类 型 进行 自动 协商 变 成 任何 一 种 端口 。 
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终端 节点 端口 编 址 规则 


各 种 终端 节点 端口 (N、NL、 工 ) 的 FC ID 地 址 都 是 24b (3B ) 长 。 但 是 N 端口 只 使 用 3B 
中 的 高 2B， 即 高 16b; 工 端口 只 使 用 3B 中 的 低 1B， 即 低 8b; NL 端口 使 用 全 部 3B。 没 有 被 使 用 
的 字 节 值 为 0。 

产生 这 种 编 址 机 制 不 同 的 原因 ， 是 3 种 端口 的 作用 方式 不 同 。L 端口 只 在 私有 环 内 通信 ， 而 
一 个 环 的 节点 容量 是 128 个 , 所 以 只 用 8b 就 可 以 表示 了 。N 端口 由 于 处 于 Fabric 交换 架构 中 , 节 
点 容量 很 大 ， 所 以 用 了 16b 表示 ， 最 大 到 65536 个 节点 。 而 NL 端口 ， 因 为 既 处 于 环 中 ， 又 要 和 
Fabric 交换 架构 中 的 节点 通信 ， 所 以 它 既 使 用 N 端口 的 编 址 ， 又 使 用 工 端口 的 编 址 ， 所 以 用 了 全 
部 3B。 图 8-16 为 端口 编 址 示意 图 。 


Fabric 设 备 Fabric 设 备 
开放 环 设备 开放 环 设备 


私有 环 设备 A 
| 私有 环 设备 
私有 环 设备 
图 8-16 三 种 FC 节点 类 型 的 编 址 异同 
任何 设备 都 可 以 接 入 FC 网 络 从 而 与 网 络 上 的 其 他 FC 设备 通信 ， 网 络 中 的 设备 可 以 是 服务 
器 、PC、 磁 盘 阵 列 、 磁 带 库 等 。 然 而 ， 就 像 以 太 网 要 求 设备 上 必须 有 以 太 网 接口 才能 连 入 以 太 网 
络 一 样 ， 设 备 上 必须 有 FC 接口 才 可 以 连 入 FC 网 络 。 


8.3 FC 适配器 


想 进 入 FC 网 络 ,没有 眼睛 和 耳 打 怎么 行 呢 ?FC 网 络 的 眼睛 就 是 FC 适配器 ， 或 者 叫做 FC 
主机 总 线 适配器 ， 即 FC HBA ( Host Bus Adapter ) 。 值 得 说 明 的 是 ，HBA 是 一 个 通用 词 ， 它 不 仅 
仅 指 代 FC 适配器 ， 而 可 以 指 代 任何 一 种 设备 ， 只 要 这 个 设备 的 作用 是 将 一 个 外 部 功能 接 入 主机 
总 线 。 所 以 ， PC 上 用 的 PCI/PCIE 网 卡 、 显 卡 、 声 卡 和 AGP 显卡 等 都 可 以 叫做 HBA。 


到 8 一 17 所 示 的 就 是 PCI 接口 的 FC 适配器 。 
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图 8-18 所 示 的 是 可 以 用 来 接 入 FC 网 络 的 各 种 线 线 , 可 以 看 到 SC 光纤 .DB9 铜 线 和 RJ-45/47 
线 线 , 它们 都 可 以 用 于 接 入 FC 网 络 ， 只 要 对 端 设备 也 具有 同样 的 接口 。 所 以 , 干 万 不 要 认为 FC 
就 是 光纤 ， 这 是 非常 滑稽 的 。 


图 8-17 FC 适 配 卡 图 8-18 各 种 接口 的 FC HBA 

同样 ， 也 不 要 认为 FC 交换 机 就 是 插 光 纤 的 以 太 网 交换 机 ， 这 是 个 低级 错误 。 称 呼 FC 为 光 
纤 的 习惯 误导 了 不 少 人 。FC 协议 是 一 套 完全 独立 的 网 络 协 议 ， 比 以 太 网 要 复杂 得 多 。FC 其 实 是 
Fibre Channel 的 意思 ， 由 于 Fibre 和 Fiber 相似 ， 再 加 上 FC 协议 普遍 都 用 光纤 作为 传输 线 线 而 不 
用 铜 线 , 所 以 人 们 下 意识 的 称 FC 为 光纤 通道 协议 而 不 是 网 状 通道 协议 。 但 是 要 理解 ，FC 其 实 是 
一 套 网 络 协议 的 称呼 ，FC 协议 和 光纤 或 者 铜 线 实际 上 没有 必然 联系 。 如 果 可 能 的 话 , 也 可 以 用 无 
线 、 微 波 、 红 外 线 或 紫外 线 等 来 实现 FC 协议 的 物理 层 。 同 样 以 太 网 协议 与 是 否 用 光纤 或 者 铜 线 、 
双 绞 线 来 传输 也 没有 必然 联系 。 

所 以 “FC 交换 机 就 是 插 光 纤 的 以 太 网 交换 机 ”的 说 法 是 错误 的 。 同 样 “以 太 网 就 是 双 绞 线 ” 
和 “以 太 网 就 是 水 晶 头 ”这 些 说 法 都 是 滑稽 的 。 

FC 适配器 本 身 也 是 一 个 小 计算 机 系统 ， 有 自己 的 CPU 和 RAM 以 及 ROM。ROM 中 存放 
Firmware， 加 电 之 后 由 其 上 的 CPU 载 入 运行 。 可 以 说 它 就 是 一 个 嵌入 式 设 备 ， 与 RAID 卡 类 似 ， 
只 不 过 不 像 RAID 卡 一 样 需要 那么 多 的 RAM 来 作为 数据 缓存 。 


8.4 ”改造 盘 阵 前 端 通路 一 一 SCSI 迁移 到 FC 


现在 是 考虑 把 原来 基于 并 行 SCSI 总 线 的 存储 网 络 架构 全 面 迁移 到 FC 提供 的 这 个 新 的 网 络 架 
构 的 时 候 了 ! 

但 是 FC 协议 只 是 定义 了 一 套 完整 的 网 络 传输 体系 , 并 没有 定义 诸如 SCSI 指令 集 这 样 可 用 于 
向 磁盘 存 取 数 据 的 通用 语言 。 而 目前 已 经 有 了 两 种 语言 ， 一 种 是 ATA 语言 (ATA 指令 集 ) ， 另 
一 种 就 是 SCSI 语言 (SCSI 指令 集 ) 。 那 么 FC 是 否 有 必要 再 开发 第 三 种 语言 ? 完全 没有 必要 了 。 
SCSI 指令 集 无 颖 是 一 个 高 效 的 语言 ,FC 只 需要 将 SCSI 语言 拿 来 用 就 可 以 , 但 必须 将 这 种 语言 承 
载 于 新 的 FC 传输 载体 进行 传送 。 

SCSI 协议 集 是 一 套 完整 而 不 可 分 的 协议 体系 ,同样 有 OSI 中 的 各 个 层次 。 物 理 层 使 用 并 行 
传输 。SCSI 协议 集 的 应 用 层 其 实 就 是 SCSI 协议 指令 ,这些 指令 带 有 强烈 应 用 层 语义 。 而 我 们 要 
解决 的 就 是 如 何 将 这 些 指令 帧 传送 到 对 方 。 早 期 并 行 SCSI 时代， 就 是 用 SCSI 并 行 总 线 技术 来 传 
送 指令 ， 这 个 无 疑 是 一 个 致命 的 限制 。 随 着 技术 的 发 展 ， 并 行 SCSI 总 线 在 速度 和 效率 上 已 经 远 
远 无 法 满足 要 求 。 好 在 SCSI-3 协议 规范 中 ,将 SCSI 指令 语义 部 分 (OSI 上 三 层 ) 和 SCSI 底层 
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传输 部 分 ( OSI 下 四 层 ) 分 割 开 了 ,使 得 SCSI 指令 集 可 以 使 用 其 他 网 络 传输 方式 进行 传输 ， 而 不 
仅仅 限于 并 行 SCSI 总 线 了 。 

FC 的 出 现 就 是 为 了 取代 SCSI 协议 集 的 底层 传输 模块 ， 由 FC 协议 的 底层 模块 担当 传输 通道 
和 手段 ， 将 SCSI 协议 集 的 上 层 内 容 传送 到 对 方 。 可 以 说 是 SCSI 协议 集 租 用 了 FC 协议 , 将 自己 
的 底层 传输 流程 外 包 给 了 FC 协议 来 做 。 

FC 协议 定义 了 在 FC4 层 上 的 针对 SCSI 指令 集 的 特定 接口 , 称 为 FCP, 也 就 是 SCSI over FC。 
由 于 是 一 个 全 新 的 尝试 , 所 以 FC 协议 决定 先 将 连接 主机 和 磁盘 阵列 的 通路 ， 从 并 行 SCSI 总线 蔡 
换 为 串 行 传输 的 FC 通路 。 而 盘 阵 后 端 连接 磁盘 的 接口 ， 还 是 并 行 SCSI 接口 不 变 。 

从 图 8-19 中 可 以 看 到 ， 连 接 主 机 的 前 端 接口 已 经 替换 成 了 FC 接口 ， 原 来 连接 在 主机 上 的 
SCSI 适配器 也 被 替换 成 了 FC 适配器 。 


前 端 FC 接口 ， 后 端 SCSI 接 口 的 磁 表 阵 列 。 通 过 点 对 点 FC 直 连 模式 和 主机 连接 


图 8-19 前 端 FC、 后 端 SCSI 架构 的 盘 阵 示意 图 
经 过 这 样 改造 后 的 盘 阵 ， 单 台 盘 阵 所 能 接 入 磁盘 的 容量 并 没有 提升 ， 也 就 是 说 后 端 性 能 和 容 
量 并 没有 提升 , 所 提升 的 只 是 前 端 性 能 。 因 为 FC 的 高 效 、 高 速 和 传输 距离 , 远 非 并 行 SCSI 可 比 。 
理解 :虽然 链 路 被 替换 成 了 FC, 但 是 链 路 上 所 承载 的 应 用 层 数据 并 没有 变化 ,依然 是 SCSI 
人 $ 集 ， 和 并 行 SCSI 链 路 上 承载 的 指令 集 一 样 ， 只 不 过 换 成 FC 协议 及 其 底层 链 路 和 接 
口 来 传输 这 些 指令 以 及 数据 而 已 


从 图 8-19 中 可 以 看 到 , 不 管 是 主机 上 的 FC 适配器 还 是 盘 阵 上 的 控制 器 , 都 没有 抛弃 SCSI 指 
令 集 处 理 模块 ， 被 抛弃 的 只 是 SCSI 并 行 总 线 传输 模块 。 也 就 是 抛弃 了 原来 并 行 SCSI 协议 集 位 于 
OSI 的 下 四 层 (用 FC 的 下 四 层 代 替 ) ， 保 留 了 整个 SCSI 协议 的 上 三 层 ， 也 就 是 SCSI 指令 部 分 。 

将 磁盘 阵列 前 端 接口 用 FC 替代 之 后 ， 极 大 地 提高 了 传输 性 能 以 及 传输 距离 ， 原 来 低 效 率 、 
低速 度 和 短 距离 的 缺点 被 彻底 克服 了 。 


8.5 引入 FC 之 后 


引入 FC 之 后 有 如 下 优势 。 
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1. 提高 了 扩展 性 


FC 使 存储 网 络 的 可 扩展 性 大 大 提高 。 如 图 8-20 所 示 , 一 台 盘 阵 如 果 只 提供 一 个 FC 前 端 接 
口 ， 同 样 可 以 连接 多 台 主机 ， 办 法 是 把 它们 都 连接 到 一 台 FC 交换 机 上 。 就 像 一 台 机 器 如 果 只 有 
一 块 以 太 网 卡 ， 而 没有 以 太 交 换 机 或 HUB 的 话 ， 那 么 只 能 和 一 台 机 器 相连 。 如 果 有 了 以 太 网 交 
换 机 或 HUB， 它 就 可 以 和 N 台 机 器 连接 。 使 用 FC 交换 机 的 道理 也 一 样 ， 这 就 是 引入 包 交 换 网 
络 化 所 带 来 的 飞跃 。 


图 8-20 多 主机 共享 盘 阵 

多 台 主 机 共享 一 台 盘 阵 同时 读 写 数据 ， 这 个 功能 在 并 行 SCSI 时 代 是 想 都 不 敢 想 的 。 虽 然 并 
行 SCSI 总 线 网 络 可 以 接 入 16 个 节点 , 比如 15 台 主 机 和 一 台 盘 阵 连 入 一 条 SCSI 总 线 , 这 15 台 主 
机 只 能 共享 这 条 总 线 的 带宽 , 假设 带宽 为 320MB/s, 如 果 15 台 主 机 同时 读 写 , 则 理论 上 平均 每 台 
主机 最 多 只 能 得 到 20MBA 的 带宽 。 而 这 只 是 理论 值 , 实际 加 上 各 种 开销 和 随机 IO 的 影响 , 估计 
每 台 主机 能 获得 的 吞吐 量 会 不 足 10MB/s。 再 加 上 SCSI 线 缆 最 长 不 能 超过 25 米 ， 用 一 条 宽 线 缆 
去 连接 十 几 台 主机 和 盘 阵 的 难度 可 想 而 知 。 

而 引入 FC 包 交换 网 络 之 后 ， 首 先是 速度 提升 了 一 大 截 ， 其 次 由 于 其 包 交换 的 架构 ， 可 以 很 
容易 地 实现 多 个 节点 向 一 个 节点 收发 数据 的 目的 。 


2. 增加 了 传输 距离 


FC 携带 有 现代 通信 的 特质 ， 比 如 可 以 使 用 光纤 。 而 这 就 可 以 使 主机 和 与 远 隔 几 百 米 甚 至 上 
干 米 ( 使 用 单 模 光 费 ) 之 外 的 盘 阵 相连 并 读 写 数据 。 


3. 解决 了 安全 性 问题 


可 能 很 多 人 还 会 有 疑问 ， 在 图 8-20 所 示 的 拓扑 中 ， 多 个 主机 共用 一 台 只 有 一 个 外 部 接口 的 
盘 阵 不 会 冲突 么 ? 当然 不 会 。 第 一 ,交换 机 允许 多 个 端口 访问 同一 个 端口 是 一 个 分 时 复 用 的 包 交 
换 过 程 ， 这 个 是 姓 良 置疑 的 。 第 二 ， 盘 阵 上 的 FC 前端 接口 允许 多 个 其 他 端口 进行 Port Login 过 
程 。 那 么 盘 阵 上 的 逻辑 磁盘 LUN 可 以 同时 被 多 个 主机 访问 么 ? 完全 可 以 。SCSI 指令 集中 有 一 个 
选项 ， 即 独占 式 访 问 或 者 共享 式 访问 。 

(1) 独占 式 访问 。 

即 只 允许 第 一 个 访问 某 个 目标 节点 的 节点 保持 对 这 个 目标 节点 的 访问 ， 第 二 个 节点 要 向 这 个 
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标 节点 发 起 访问 请 求 ， 则 不 被 允许 ， 除 非 上 一 个 节点 发 出 了 释放 指令 。 独 占 模式 下 ， 每 台 主机 
每 次 访问 目标 前 都 需要 进行 SCSI Reserve， 使 用 完 后 再 进行 SCSI Release 释放 SCSI 目标 , 这样 其 
他 节点 才能 访问 那个 目标 。 

(2 ) 共享 式 访问 ， 即 允许 任何 人 来 访问 ， 没 有 任何 限制 。 

所 以 ， 盘 阵 上 的 任何 LUN 都 可 以 被 多 台 主 机 通过 一 个 前 端 接口 或 者 多 个 前 端 接口 访问 。 这 是 
一 个 优点 ， 也 是 一 个 隐患 。 因 为 多 个 主机 在 没有 相互 协商 和 同步 的 情况 下 ， 一 旦 对 同一 个 LUN 都 
进行 写 操作 的 话 ， 就 会 造成 冲突 。 比 如 两 台 Windows 主机 正 处 于 运行 状态 ,它们 都 通过 FC 适 配 卡 
识别 到 了 磁盘 阵列 上 的 同一 个 LUN。 此 时 主机 A 向 这 个 LUN 上 写 了 一 个 文件 , 假设 主机 B 已 经 
将 文件 系统 的 元 数据 读 入 了 内 存 , 磁盘 上 的 数据 被 主机 A 更 改 这 个 动作 主机 B 是 感受 不 到 的 。 隔 一 
段 时 间 之 后 ， 主 机 B 可 能 将 文件 系统 缓存 Flush 到 磁盘 ， 此 时 可 能 会 抹 掉 这 个 文件 的 元 数据 信息 。 

所 以 ， 在 没有 协商 和 同步 机 制 的 两 台 主 机 之 间 共 享 一 个 LUN 是 一 件 可 怕 的 事情 。 要 解决 这 
个 问题 , 可 以 每 次 只 开 一 台 机 器 , 主机 B 想 访问 就 必须 把 主机 A 关机 或 卸载 该 卷 , 然后 主机 B 开 
机 或 挂 载 该 卷 ， 这 样 才 能 保证 数据 的 一 致 性 。 但 这 样 有 点 过 于 复杂 。 第 二 种 办 法 就 是 使 两 台 或 者 
多 台 机 器 同时 开机 或 同时 挂 载 该 卷 ， 而 让 机 器 上 的 文件 系统 之 间 相 互 协商 同步 ， 配 合 运作 。 我 写 
入 的 东西 会 让 你 知道 。 如 果 我 正在 写 入 ， 那 么 你 不 能 读 取 ， 因 为 你 可 能 读 到 过 时 的 信息 。 

在 文件 系统 上 增加 这 种 功能 ,需要 对 文件 系统 进行 修改 , 或 直接 安装 新 的 文件 系统 模块 。 这 
种 新 的 文件 系统 叫做 集群 文件 系统 ， 能 保证 多 个 机 器 共享 一 个 卷 ， 不 会 产生 破坏 。 

有 些 情况 确实 需要 让 两 台 机 器 同时 可 以 访问 同一 个 卷 ( 如 集群 环境 ) ， 但 是 大 多 数 情况 下 是 
不 需要 共享 同一 个 卷 的 , 每 台 机 器 拥有 各 自 的 卷 , 都 只 能 访问 属于 自己 的 卷 , 这 样 不 就 太平 了 么 ? 

是 的 ， 要 做 到 这 一 点 有 两 种 方法 。 分 析 从 主机 到 盘 阵 上 的 LUN 的 通路 ， 可 以 发 现 通路 上 有 
两 个 部 件 ， 第 一 个 部 件 是 FC 网 络 交换 设备 ， 第 二 个 部 件 就 是 磁盘 阵列 控制 器 。 可 以 在 这 两 个 间 
件 上 做 某 种 “隐藏 ”或 者 “欺骗 ”， 让 主机 只 能 对 属于 它 自己 的 LUN 进行 访问 。 

(3 ) 在 磁盘 阵列 控制 器 上 做 “手脚 ”。 

SCSI 指令 集中 有 一 条 指令 叫做 Report LUN， 也 就 是 在 SCSI 发 起 端 和 目标 端 通信 的 时 候 ， 
由 发 起 端 发 出 这 条 指令 ， 目 标 端 在 接收 到 这 条 指令 之 后 ， 就 要 向 发 起 端 报告 自己 的 LUN 信息 。 
可 以 在 这 上 面 做 些 手脚 ， 骗 发 起 端 一 把 。 当 发 起 端 要 求 Report LUN 的 时 候 ， 盘 阵 控 制 器 可 以 根 
据 发 起 端的 唯一 身份 (比如 WWPN 地 址 ) ， 提 供 相应 的 LUN 报告 给 它 。 

比如 针对 主机 A， 控 制 器 就 报告 给 它 LUN1、LUN2、LUN3。 虽然 盘 阵 上 还 配置 很 多 其 他 的 
卷 , 比如 LUN4、LUN5、LUN6 等 ,但 是 如 果 告 诉 控 制 器 ， 让 它 根 据 一 张 表 8-1 所 示 的 映射 表 
来 判断 应 该 报告 给 某 个 主机 哪个 或 哪些 LUN 的 话 ， 控 制 器 就 会 乖 稍 地 按照 指示 来 报告 相应 的 
LUN 给 相应 的 主机 。 


表 8-1 LUN 映射 表 

针对 哪个 主机 “WWPN 地 址 ) 
主机 AWWPN 地 址 : 00-16-E3-6E-78-05-0A--ED 
主机 BWWPN 地 址 : 00-16-E3-6E-78-05-0A-0A 
主机 CWWPN 地 址 : 00-16-E3-6E-78-05-0A-3B 


报告 哪个 或 者 哪些 LUN 
LUN1、LUN2、LUN3 


LUN4、 LUNS 


LUN6 
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如 果 某 个 主机 强行 访问 不 属于 它 的 LUN， 盘 阵 控制 器 便 会 拒绝 这 个 请 求 。 上 面 那 张 映射 表 
完全 需要 人 为 配置 ， 因 为 盘 阵 控制 器 不 会 知道 我 们 的 具体 需求 。 所 以 对 于 一 个 盘 阵 来 说 ， 要 想 实 
现 对 主机 的 LUN 掩蔽 ， 必 须 配置 这 张 表 。 

盘 阵 上 的 这 个 功能 叫做 LUN Masking ( LUN 掩蔽 ) , 也 就 是 对 特定 的 主机 报告 特定 的 LUN。 
这 样 可 以 避免 “越界 ”行为 ， 也 是 让 多 台 主 机 共享 一 个 盘 阵 的 方法 ， 从 而 让 多 台 主 机 和 平 共享 一 
台 盘 阵 资源 。 毕 觉 ， 对 于 容量 动 辑 几 TB 甚至 几 百 TB 的 大 型 盘 阵 来 说 ， 如 果 不 加 区 分 的 让 所 有 
连接 到 这 台 盘 阵 的 主机 都 可 以 访问 到 所 有 的 卷 是 没有 必要 的 ， 也 是 不 安全 的 。 

不 仅 FC 接口 盘 阵 有 这 个 功能 ，SCSI 前 端 接 口 盘 阵 照样 可 以 实现 这 个 功能 ， 因 为 这 是 SCSI 
指令 集 的 功能 ， 而 不 是 传输 总 线 的 功能 。 不 管用 什么 来 传输 SCSI 指令 集 ， 只 要 上 面 能 承载 SCSI 
指令 集 ， 那 么 指令 集中 所 有 功能 都 可 用 。 

磁盘 阵列 除了 可 以 将 某 些 LUN 分 配给 某 个 主机 之 外 , 还 可 以 配置 选择 性 地 将 某 个 或 某 些 LUN 
分 配 到 某 个 前 端 端口 上 。 也 就 是 说 ,设置 前 端 主机 只 有 从 某 个 盘 阵 端口 进入 才能 访问 到 对 应 的 LUN， 
从 盘 阵 前 端 其 他 端口 访问 不 到 这 些 LUN。 有 些 双 控制 器 的 盘 阵 可 以 定制 策略 将 某 些 LUN 分 配 到 某 
个 控制 器 的 某 些 端口 上 。LUN Masking 的 策略 非常 灵活 ， 只 要 有 需求 就 没有 开发 不 出 来 的 功能 。 

总 之 , 可 以 把 LUN 当 作 和 蛋糕 ， 有 很 多 食客 ( 主机 ) 想 吃 这 些 蛋糕 。 然 而 ,食客 要 吃 到 蛋糕 ， 
需要 首先 通过 迷宫 ( FC 网 络 ) ， 然 后 到 达 一 个 城堡 ( 磁盘 阵列 ) 。 城堡 有 好 几 个 门 ( 盘 阵 的 前 端 
接口 ) ， 如 果 城 堡 的 主人 很 宽松 ,会 把 所 有 和 蛋糕 分 配 到 所 有 门 中 ， 从 任何 一 个 门 进 入 都 可 以 吃 到 
所 有 和 蛋糕 。 如 果 主 人 决定 严格 一 些 ， 那 么 他 也 许 会 将 一 部 分 蛋糕 分 配 到 1 号 门 ， 另 一 部 分 蛋糕 分 
配 到 2 号 门 。 如 果 主人 非常 严格 ， 那 他 会 调查 每 个 食客 的 身份 ， 然 后 制定 一 个 表格 ， 根 据 不 同 身 
份 来 给 食客 不 同 的 蛋糕 。 

(4) 在 FC 交换 设备 上 做 “手脚 ”。 

我 们 前 面 提 到 过 ZONE。ZONE 的 功能 就 是 在 FC 网 络 交换 设备 上 阻 断 两 个 节点 间 的 通路 ， 
这 样 某 些 节 点 就 根本 无 法 获取 并 访问 到 被 阻 断 的 其 他 节点 ， 也 就 识别 不 到 其 上 的 LUN 了 。LUN 
masking 只 是 不 让 看 见 某 个 节点 上 的 某 些 LUN 而 已 ， 而 ZONE 的 做 法 更 彻底 ， 力 度 更 大 。 

ZONE 有 软 ZONE 和 硬 ZONE 之 分 。 软 ZONE 就 是 在 名 称 服务 器 上 做 手脚 ， 坎 骗 进 行 名 
称 注册 的 节点 ， 根 据 ZONE 配置 的 信息 向 登录 节点 通告 网 络 上 的 其 他 节点 以 及 资源 的 信息 。 硬 
ZONE 就 是 直接 把 交换 机 上 某 些 端 口 归 为 一 个 ZONE， 另 一 些 端口 归 为 另 一 个 ZONE， 在 两 个 
ZONE 之 间 完 全 底层 隔离 ， 端 口 之 间 都 不 能 通信 ， 如 图 8-21 所 示 。 


图 8-21 ZONE 示意 图 
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图 中 有 两 个 ZONE,FC 盘 阵 B 所 连接 的 交换 机 端口 既 在 左边 的 ZONE 中 ,又 在 右边 的 ZONE 
中 , 这 样 是 允许 的 。 这 个 例子 中 , 主机 C 是 无 法 和 盘 阵 A 通信 的 , 它 只 能 识别 到 盘 阵 B 上 的 LUN。 

有 了 LUN Masking 和 ZONE，EFC 网 络 的 安全 就 得 到 了 极 大 的 保障 ， 各 个 节点 之 间 可 以 按照 
事先 配置 好 的 规则 通信 。 


8.6 多 路 径 访问 目标 


再 来 看 一 下 图 8-22。 这 是 一 个 具有 双 控 制 器 的 盘 阵 ， 两 个 控制 器 都 连接 到 了 交换 机 上 ， 而 
且 每 个 主机 上 都 有 两 块 FC 适 配 卡 , 也 都 连接 到 了 交换 机 上 。 前 文 说 过 , 如 果 在 盘 阵 上 没有 做 LUN 
Masking 的 策略 ， 而 在 FC 交换 机 上 也 没有 做 任何 ZONE 的 策略 ， 则 任何 节点 都 可 以 获取 到 网 络 
上 所 有 其 他 节点 的 信息 。 
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图 8-22 多 路 径 访问 示意 图 

假设 盘 阵 上 有 一 个 LUN1 被 分 配给 控制 器 A, LUN2 被 分 配给 控制 器 B, 那么 可 以 计算 出 来 ， 
每 个 主机 将 识别 到 4 块 磁盘 。 因 为 每 个 主机 有 两 块 FC 适 配 卡 ， 每 个 适 配 卡 又 可 以 识别 到 控制 器 
A 上 的 LUN1 和 控制 器 B 上 的 LUN2。 也 就 是 说 ， 每 台 主 机 会 识别 到 双 份 元 余 的 磁盘 ， 而 主机 操 
作 系统 对 这 一 切 一 无 所 知 , 它 会 认为 识别 到 的 每 块 磁盘 都 是 物理 上 独立 的 , 这 样 很 容易 造成 混乱 。 

既然 会 造成 混乱 ， 那 么 为 何 要 在 一 台 主 机 上 安装 两 块 FC 适 配 卡 呢 ” 这 样 做 就 是 为 了 元 余 ， 
以 防止 单 点 故障 。 一 旦 某 块 FC 卡 出 现 了 故障 ， 另 一 块 卡 依然 可 以 维持 主机 到 盘 阵 的 通路 ， 数 据 
流 可 以 立即 转向 另外 一 块 卡 。 

如 何 解决 操作 系统 识别 出 多 份 磁盘 这 个 问题 呢 ? 办 法 就 是 在 操作 系统 上 安装 软件 ,这 个 软件 
识别 并 分 析 FC 卡 提交 上 来 的 LUN。 如 果 是 两 个 物理 上 相同 的 LUN， 软 件 就 向 操作 系统 卷 管理 
程序 提交 单 份 LUN。 如 果 某 块 FC 卡 故障 ， 只 要 主机 上 还 有 其 他 的 FC 卡 可 以 维持 到 FC 网 络 的 
通路 ， 那 么 这 个 软件 依然 会 向 操作 系统 提交 单 份 LUN。 一 旦 所 有 FC 卡 全 都 故障 了 ， 主 机 就 彻底 
从 FC 网 络 断 开 了 , 这 个 软件 也 就 无 法 提交 LUN 了 , 操作 系统 当然 也 识别 不 到 盘 阵 上 的 LUN 了 。 

此 外 ， 如 果盘 阵 的 某 个 控制 器 接口 发 生 故 障 ， 主 机 同样 可 以 通过 这 个 软件 立即 重 定向 到 另 一 
个 备份 控制 器 ， 使 用 备份 控制 器 继续 访问 盘 阵 。 

这 种 软件 叫做 “多 路 径 ” 软 件 ， 中 高 端 产品 的 开发 商都 会 提供 自己 适合 不 同 操作 系统 的 多 路 
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径 软 件 。 多 路 径 软件 除了 可 以 做 到 元 余 高 可 用 性 的 作用 之 外 ， 还 可 以 做 到 负载 均衡 。 因 为 主机 上 
如 果 安 装 了 多 块 FC 适 配 卡 ,数据 就 可 以 通过 其 中 任何 一 块 卡 到 达 目 的 ， 这 样 就 分 担 了 流量 。 


提示 : 多 个 存储 适配器 可 以 以 active/standby 模式 或 者 active/active 模式 以 及 
dual/multi active 模式 工作 。active/standby 模式 是 指 同一 时 刻 只 能 有 一 个 适配器 在 收发 数 
据 ，active/active 模式 是 指 同一 时 刻 多 个 适配器 可 以 共同 收发 针对 同一 个 LUN 的 数据 。 而 
dual/multi active 则 是 两 个 或 指 多 个 适配器 不 能 同时 针对 同一 LUN 收发 数据 ， 但 是 每 个 适 
配器 可 以 针对 不 同 的 LUN 收发 数据 。 


多 路 径 软 件 示例 


如 图 8-23 所 示 为 EMC 公司 针对 其 存储 产品 所 开发 的 多 路 径 软 件 PowerPath 的 配置 监控 界 
可 。 可 以 看 到 这 台 Windows 主机 上 安装 了 4 块 FC 卡 。 存 储 系统 向 这 台 主 机 共 映射 了 7 个 LUN， 
分 别 对 应 Disk 001 ~ 007。 

如 图 8-24 所 示 ， 其 中 一 个 LUN 存在 16 条 不 同 的 路 径 。 


一 一 | 
[gs EE ESE Cl 
图 8-23 PowerPath 界面 图 8-24 每 个 LUN 通过 16 条 路 径 被 访问 
如 图 8-25 所 示 ， 我 们 可 以 判断 出 整个 系统 的 拓扑 。 


”图 8-25 系统 拓扑 图 
如 图 8-26 所 示 , 一 块 FC 卡 出 现 故障 后 ， 系 统 界面 会 显示 出 来 。 如 图 8-27 所 示 ， 虽 然 一 块 
FC 卡 出 现 了 故障 ,但 是 每 个 LUN 也 只 是 丢失 了 16 条 路 径 中 的 4 条 ， 存 储 访问 依然 正常 。 
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图 8-26 一 块 FC 卡 出 现 故障 图 8-27 LUN 依然 可 以 通过 利 余 的 12 条 路 径 被 访问 

多 路 径 软件 与 阵列 控制 器 配合 切换 过 程 简介 

如 图 8-28 所 示 为 四 种 典型 的 连接 拓扑 下 各 种 链 路 故障 情况 的 示意 图 。RDAC ( Redundant 
Disk Array Controllers ) 是 Linux 下 的 一 个 多 路 径 软件 驱动 程序 ， 我 们 就 用 它 的 作用 行为 来 给 大 家 
做 介绍 。 多 路 径 软件 一 般 位 于 适配器 驱动 程序 之 上 ， 对 适配器 上 报 的 多 份 重复 的 LUN 进行 虚拟 ， 
虚拟 成 一 个 单一 的 逻辑 设备 然后 再 次 上 报 。 在 Windows 下 多 路 径 软 件 属于 一 种 过 滤 驱 动 程序 层 
( Filter Driver ) 。 


HBA1 HBA2 HBA1 HBA2 


图 8-28 四 种 典型 拓扑 下 的 多 路 径 切换 示意 图 

下 面 我 们 就 来 看 看 这 些 情 况 下 多 路 径 软 件 到 底 会 怎么 来 动作 。 

(1) 在 第 一 个 场景 中 ，LUN1 的 Owner ( 或 称 Prefer ) 控制 器 为 A， 而 LUN2 的 Owner 控制 
器 为 B。 主 机 从 两 条 路 径 分 别 认 到 了 这 两 个 LUN, 1 个 LUN1 和 1 个 LUN2。 多 路 径 软 件 会 从 
HBAI1 链 路 来 访问 LUN1， 从 HBA2 链 路 来 访问 LUN2。 某 时 刻 HBA2 连接 交换 机 的 链 路 发 生 故 
障 , 那么 此 时 对 LUN1 的 访问 路 径 不 受 影响 , 但 是 对 LUN2 的 访问 链 路 完全 中 断 ， 此 时 多 路 径 软 
件 必须 切换 到 HBA1 的 链 路 来 同时 承载 LUN1 与 LUN2 的 流量 。 由 于 LUN2 的 Owner 控制 器 为 
B， 所 以 此 时 有 两 种 办 法 可 以 继续 保持 对 LUN2 的 访问 : 第 一 种 办 法 就 是 主机 将 IO 通过 HBA1 
一 交换 机 A 传送 给 控制 器 A， 然 后 控制 器 A 将 IO 请 求 通过 控制 器 间 的 缓存 镜像 链 路 转发 到 控制 
器 B， 控 制 器 B 执行 完毕 后 将 结果 返回 给 控制 器 A， 之 后 原 路 返回 给 主机 ; 第 二 种 做 法 则 是 多 路 
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径 软 件 在 感知 到 故障 之 后 , 判断 出 只 能 从 HBA1 的 链 路 走 到 控制 器 A 了 , 那么 此 时 多 路 径 软 件 可 
以 向 控制 器 A 发 送 命令 ， 让 它 强 行 接管 对 LUN2 的 控制 权 , 接管 之 后 ， 针 对 LUN2 的 IO 就 无 需 
再 转发 给 控制 器 B 了 , 直接 由 控制 器 A 全 权 处 理 。 由 于 第 一 种 方式 需要 耗费 镜像 通道 的 带宽 , 所 
以 出 于 性 能 考虑 ， 一 般 都 会 使 用 第 二 种 方式 处 理 ， 即 切换 Owner 控制 器 。 

(2 ) 在 第 二 个 场景 中 ,阵列 的 双 控制 器 各 通过 一 条 链 路 连接 到 一 个 交换 机 上 。 此 时 主机 端 可 
以 看 到 共 4 个 LUN, 从 HBA1 链 路 看 到 一 个 LUN1 和 一 个 LUN2, 从 HBA2 链 路 看 到 一 个 LUN1 
和 一 个 LUN2。 某 时 刻 HBA1 链 路 故障 ， 那 么 此 时 毫 无 疑问 ， 多 路 径 软 件 一 定 要 切换 到 HBA2 链 
路 继续 收发 ID。 那么 阵列 控制 器 之 间 是 否 需要 切换 LUN 的 控制 权 呢 ? 不 需要 ， 因 为 主机 此 时 可 
以 从 HBA2 一 交换 机 B 来 看 到 分 别 被 控制 器 A 与 控制 器 B 管控 的 LUN1 与 LUN2。 

(3 ) 在 第 三 个 场景 中 , 有 两 台 主机 分 别 用 两 块 HBA 来 连接 交换 机 了 。LUN1 只 映射 给 主机 1， 

而 LUN2 只 映射 给 主机 2。 某 时 刻 , 主机 1 的 HBA1 链 路 故障 或 者 卡 件 / 接 口 故 障 , 同时 ,阵列 B 
连接 交换 机 B 的 链 路 也 发 生 故 障 。 此 时 , 主机 1 一 定 要 切换 到 HBA2 路 径 , 通过 交换 机 B 到 控制 
器 A 从 而 保持 对 LUNI1 的 访问 。 而 主机 2 则 根据 之 前 的 优选 路 径 来 判断 是 否 切 换 ， 如 果 之 前 的 优 
选 路 径 是 通过 HBA2 一 交换 机 B 一 控制 器 B 的 话 ， 那 么 此 时 就 需要 切换 到 HBA1， 走 交换 机 A 再 
到 控制 器 B 了 。 
(4) 在 第 四 个 场景 中 ，LUN1 与 LUN2 的 Owner 控制 器 均 属 于 控制 器 B,LUN1 只 映射 给 主 
机 1， 而 LUN2 只 映射 给 主机 2。 此 时 主机 2 的 HBA2 链 路 发 生 故障 ， 那 么 此 时 主机 1 不 受 影响 ， 
依然 走 HBA2 一 交换 机 B 一 控制 器 B 的 路 径 来 访问 LUN1; 而 主机 2 此 时 必须 切换 到 HBA1 来 收 
发 IO, 但 是 HBA1 到 控制 器 B 并 没有 直接 路 径 ， 必 须 通过 双 控制 器 之 问 的 镜像 路 径 ， 而 这 个 之 
前 也 说 过 ， 不 推荐 使 用 ， 虽 然 理论 上 是 可 以 做 到 的 。 那 么 此 时 主机 2 别 无 他 法 ， 只 能 通过 HBA1 
向 阵列 的 控制 器 A 发 送 命令 , 将 自己 所 要 IO 的 LUN2 的 Owner 控制 器 切换 到 控制 器 A 上 , 主机 
2 并 不 会 要 求 将 LUNI1 也 切换 , 因为 主机 2 只 能 感知 到 自己 所 访问 的 LUN, 也 只 会 要 求 切换 自己 
要 访问 的 LUN。 

(5) 如 图 8-29 所 示 的 第 五 个 场景 中 为 另外 一 种 情况 ， 即 阵列 控制 器 整 机 故障 的 情况 。 此 时 
另外 一 个 控制 器 会 通过 之 间 的 镜像 通道 ( 同时 也 充当 心跳 线 ) 感知 到 对 方 阵 列 已 死 ， 那 么 本 端 就 
会 强行 将 对 端 控 制 器 之 前 所 管控 的 所 有 LUN 无 条 件 接管 。 同 时 ， 主 机 端 多 路 径 软 件 也 需要 根据 
情况 改变 优选 路 径 到 控制 器 A 而 不 是 已 死 的 控制 器 B 了 。 


C6) 
主机 1 


HBA1 直 HBA2 I HBAL W HBA2 
换 机 A FC 汉 换 市 

Tr 

| 石 


图 8-29 阵列 控制 器 整 机 故障 场景 
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(6 ) 第 六 个 场景 中 , 阵列 控制 器 B 连接 本 地 磁盘 扩展 柜 的 链 路 故障 ,这样 就 导致 控制 器 B 认 
不 到 本 地 下 挂 的 所 有 磁盘 了 , 但 是 依然 可 以 认 到 控制 器 A 处 的 磁盘 ( 控制 器 B 有 链 路 连接 到 控制 
器 A 下 面 的 磁盘 柜 ) 。 此 时 控制 器 B 可 以 有 两 种 做 法 : 第 一 种 则 是 将 原本 处 于 其 下 挂 磁 盘 上 的 
LUN2 的 Owner 管控 权 交 给 控制 器 A, 并 且 在 其 前 端 强行 unmap 掉 LUN2, 这 样 主机 端的 多 路 径 
软件 就 可 以 感知 到 LUN2 的 消失 ， 自 动 切换 到 另 一 条 路 径 走 控 制 器 A; 第 二 种 做 法 就 是 不 让 主机 
端 多 路 径 软 件 感知 到 任何 变化 ， 主 机 针对 LUN2 的 IO 依然 下 发 到 控制 器 B， 而 控制 器 B 接收 到 
IO 之 后 ， 将 其 通过 双 控 之 间 的 镜像 路 径 转 发 到 控制 器 A 处 理 ( 控制 器 A 依然 可 以 访问 到 挂 在 控 
制 器 B 后 面 的 磁盘 ) ， 然 后 控制 器 A 将 结果 返回 给 控制 器 B， 之 后 控制 器 B 再 返回 给 主机 。 一 般 
情况 下 可 以 针对 不 同 场景 做 出 选择 ， 多 路 径 切换 过 程 会 影响 主机 侧 应 用 程序 ， 但 是 不 切换 的 话 ， 
数据 都 走 镜像 通道 ， 性 能 会 有 所 下 降 。 


8.7 ”FC 交换 网 络 节点 4 次 Login 过 程 简 析 


每 个 FC 节点 连 到 FC Fabric 网 络 里 需要 经 历 4 次 Login 过 程 。 

第 一 次 Login 相当 于 TCPIP 网 络 里 的 DHCP 过 程 ，FC 交换 机 需要 为 每 个 FC 节点 分 配 一 个 
Fabric ID， 相 当 于 IfP 地 址 ， 有 了 这 个 DD， 数据 包 才 能 被 FC 交换 机 正确 地 交换 ，FC 交换 机 是 根 
据 Fabric ID 而 不 是 WWPN ( 相当 于 以 太 网 的 MAC 地 址 ) 作 交 换 的 。 

第 二 次 Login 过 程 , 相当 于 Windows 里 的 WINS 服务 器 注册 和 资源 发 现 过 程 , 我 们 熟知 的 网 
上 和 邻居， 有 两 种 访问 方式 ， 一 种 是 广播 方式 ， 另 一 种 是 所 有 Windows PC 都 向 WINS 服务 器 ( 其 
IP 地 址 预先 在 每 台 PC 上 被 配置 好 ) 注册 ， 双 击 网 上 邻居 时 候 每 台 PC 都 会 从 WINS 服务 器 拉 取 
目前 网 络 上 的 PC 信息 。FC 也 有 这 个 过 程 ，FC 节点 在 FC Fabric 里 的 第 二 次 Login 过 程 ， 就 是 向 
Name Server 注册 自己 ， 并 拉 取 目前 FC 网 络 里 的 所 有 Target 节点 信息 (只 有 FC Initiator 节点 才 
会 主动 拉 取 资源 ，Target 节点 只 注册 不 拉 取 ) ， 在 第 二 次 Login 的 过 程 中 ， 其 实 包含 了 两 次 “ 子 
Login” 过 程 ， 每 个 FC 节点 要 注册 到 Name Server， 必 须 先 向 Name Server 发 起 Port Login 过 程 ， 
Port Login 其 实 是 指 FC 网 络 底层 端口 级 别 的 Login ,一 个 Fabric ID 所 在 的 端口 要 与 另 一 个 Fabric ID 
所 在 的 端口 发 起 通信 ， 必 须 先 Port Login， 成 功 之 后 ,再 发 起 Process Login， 所 谓 “Process Login” 
就 是 进程 级 别 的 Login， 就 是 发 起 端的 程序 要 向 对 方 表明 我 将 与 你 处 运行 的 哪个 程序 通信 ， 这 就 
相当 于 TCPIP 的 端口 号 ， 到 底 要 连接 对 方 的 哪个 端口 ， 每 个 端口 都 有 一 个 上 层 应 用 程序 在 监听 ， 
向 Name Server 注册 , 那么 Name Server 上 一 定 要 运行 一 个 管理 注册 过 程 和 资源 列表 的 程序 , 发 起 
端 就 是 在 声明 要 与 这 个 程序 连通 ， 从 而 注册 自己 ， 所 以 要 向 对 方 的 FC 底层 协议 栈 声明 “请 将 数 
据 包 发 送 给 注册 和 资源 管理 这 个 Process”， 所 以 才 叫 做 “Process Login”， 与 TCPIP 向 某 端口 的 
三 次 握手 机 制 类 似 。 经 过 这 两 次 子 Login, 发 起 端 才 真正 地 与 Name Server 上 的 程序 进行 数据 交互 ， 
从 而 完成 注册 和 资源 拉 取 过 程 。 

第 三 次 Login 过 程 ， 就 是 FC Initiator 节点 向 所 有 自己 看 到 的 Target 节点 发 起 Port Login。 

成 功 之 后 ， 就 开始 第 四 次 Login， 也 就 是 向 Target 节点 发 起 Process Login， 这 里 的 “Process” 
一 定 就 是 对 方 的 FCP Target 程序 了 ， 这 个 程序 被 集成 在 了 FC 卡 的 Port Driver 的 下 层 。 


第 9 章 


天 翻 地 覆 一 一 FC 协议 的 巨大 力量 


"Fibre Channel 


» SCSI 
"前端 

=。 ”后 端 

" 机 头 
”扩展 柜 
"FC 磁盘 


话说 FC 协议 横 空 出 世 ， 在 江湖 上 引起 了 轩然大波 ， 
各 门派 纷纷 邀请 FC 协议 来 参与 存储 磁盘 阵列 的 制造 ， 用 
FC 协议 实现 盘 阵 与 主机 的 连接 

以 前 并 行 SCSI 的 时 代 已 经 结束 ， 终 于 可 以 将 那 又 宽 
又 短 的 电缆 彻底 抛弃 ， 取 而 代 之 的 是 细 长 的 光纤 。 

然而 ，FC 的 出 现 并 没有 终结 这 场 革命 ，SAS 的 二 次 
革命 又 要 到 来 ! 
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9.1 FC 交换 网 络 替 代 并 行 SCSI 总 线 的 必然 性 


历史 是 不 断 前 进 的 ,事物 也 是 不 断 发 展 的 ,新 技术 必定 取代 旧 技 术 。FC 取代 并 行 SCSI 总 线 
有 两 个 根本 原因 。 


9.1.1 面向 连接 与 面向 无 连接 


在 并 行 SCSI 总 线 时 代 并 没有 复杂 的 链 路 层 协议 ，“ 连 ”就 体现 在 线 绕 上 ,就 像 连 接 CPU 和 
北桥 之 间 的 铜 线 一 样 ， 只 不 过 SCSI 线 费 被 做 成 了 柔软 的 外 置 线 缆 而 已 。 基 本 在 这 种 短线 缆 上 可 
以 不 必 考 虑 通信 层面 的 内 容 ， 因 为 距离 很 得， 线路 是 稳定 的 ， 不 需要 加 入 诸如 传输 保障 机 制 之 类 
的 东西 。 同 时 ， 这 种 情况 也 相当 于 面向 连接 的 电路 交换 ， 通 信 的 双方 要 预先 建立 一 条 物理 上 的 通 
路 ( 虚 电 路 ) ， 不 管 有 没有 数据 流 ， 这 条 通路 总 是 存在 ， 且 带宽 冉 定 ， 别 人 也 抢 不 走 这 条 电路 | 
使 用 权 ， 这 就 给 通信 双方 提供 了 最 大 的 质量 和 稳定 性 保证 。 在 这 样 的 链 路 上 ， 不 需要 过 多 的 底 
传输 协议 开销 。 

相反 ,在 面向 无 连接 的 包 交换 网 络 中 ,数据 流 被 封装 成 数据 包 ， 传 输 保障 和 流量 控制 等 因素 
就 显得 十 分 重要 了 。 因 为 此 时 网 络 是 共享 的 ， 网 络 按照 Best Effort 尽力 而 为 地 转发 数据 包 。 以 太 
网 和 FC 交换 网 络 都 属于 这 种 面向 无 连接 的 技术 ( FC 中 Classl 类 型 服务 除外 ) 。 

而 电话 交换 网 、 并 行 SCSI 总 线 网 就 属于 面向 连接 的 网 络 。 当 你 提 机 拨号 的 时 候 ， 电 话 局 的 
电话 交换 机 便 会 在 你 和 你 通信 的 对 方 之 问 建 立 起 一 条 物理 电路 ， 从 而 使 双方 通信 。 

提示 : 大 家 可 以 观察 一 下 电话 交换 机 ， 每 当 有 外 线 拨 入 的 时 候 ， 就 可 以 听 到 交换 机 里 有 

吧 噶 吧 噶 的 声音 ， 这 就 是 交换 机 在 做 继电器 开 合 动作 。 


对 于 并 行 SCSI 总 线 ， 当 通信 发 起 者 需要 和 某 个 节点 通信 的 时 候 ， 它 会 申请 总 线 仲裁 ， 在 获 
得 总 线 资源 之 后 ， 便 直接 和 对 方 发 起 通信 ， 此 时 并 没有 一 个 显 式 的 连接 建立 的 过 程 。 物 理 通路 总 
是 存在 的 ， 在 任意 两 点 之 间 都 存在 ， 只 不 过 此 通路 是 个 总 线 ， 是 大 家 共享 的 ， 需 要 通过 仲裁 来 获 
得 总 线 使 用 权 , 也 就 等 价 于 建立 独 享 连接 。SCSI 指令 和 数据 可 以 直接 在 这 个 总 线 上 传递 , 并 不 需 
要 过 多 的 额外 的 协议 开销 。 


1. 面向 连接 的 致命 弱点 


但 是 面向 连接 的 通信 有 三 个 致命 弱点 。 

面向 连接 网 络 的 第 一 个 弱点 ， 就 是 资源 浪费 。 特 别 是 在 交换 环境 中 ， 由 于 不 管 路 径 上 有 没有 
数据 传输 ， 这 条 预先 建立 的 连接 必须 保持 并 且 只 给 特定 的 通信 双方 使 用 ， 其 他 节点 的 通信 不 管 数 
据 多 么 拥塞 都 不 能 使 用 这 条 路 径 。 面 向 连接 的 网 络 好 比 一 个 城市 的 公交 系统 ， 每 条 公交 线路 都 是 
固定 的 ， 不 管 这 条 线路 上 的 客流 量 多 少 ， 就 算 没有 人 坐 这 条 线路 了 ， 公 交 车 也 要 来 回 跑 。 而 面向 
无 连接 的 网 络 就 好 比 出 租车 。 在 没有 人 的 时 候 ， 出 租车 可 以 等 待 客 人 到 来 。 一 旦 有 客人 到 来 ， 出 
租车 便 会 上 路 ， 而 且 路 线 不 是 固定 的 ， 司 机 可 以 按照 目前 道路 流量 情况 ， 选 择 空闲 的 道路 前 往 目 
的 地 。 

面向 连接 网 络 的 第 二 个 弱点 是 维持 和 维护 这 条 连接 所 耗费 的 成 本 高 。 通 信 双 方 距离 近 时 ， 没 
什么 问题 ， 但 是 一 旦 距离 很 远 ， 要 维持 这 条 物理 连接 ， 就 需要 很 高 的 成 本 。 要 解决 长 距离 传输 的 


登 


ol 


第 9 章 天 翻 地 覆 一 FC 协议 的 巨大 力量 @ 


干扰 问题 、 需 要 中 继 等 ， 这 也 是 长 途 电 话费 居 高 不 下 的 一 个 原因 。 

面向 连接 网 络 的 第 三 个 弱点 , 就 是 缺乏 高 可 用 性 。 一 旦 建立 好 的 虚 电路 因为 某 种 原因 断 开 了 ， 
就 需要 通信 发 起 者 重新 建立 电路 才能 继续 双方 的 通信 。 这 种 现象 在 打 长 途 电 话 的 时 候 经 常 遇 到 ， 
此 时 不 得 不 重新 拨打 。 而 对 于 包 交换 网 络 ， 通 信 双 方 没有 一 条 固定 的 数据 流 路 径 ， 交 换 或 路 由 设 
备 会 自行 判断 数据 流 应 当 通过 哪 条 路 径 到 达 对 方 。 一 旦 某 条 动态 的 路 径 不 再 可 用 ， 交 换 设备 会 立 
即 选用 其 他 可 以 到 达 对 方 的 路 径 ， 而 这 个 短 时 的 中 断 所 造成 的 影响 会 交 给 通信 双方 运行 的 传输 保 
障 协议 来 处 理 ， 丢 失 的 数据 包 会 被 重 传 。 而 用 户 对 此 不 必 关 心 ， 最 多 会 感觉 有 短暂 延迟 ， 而 不 必 


2. 面向 无 连接 的 优势 


面向 无 连接 的 包 交 换 网 络 比 面向 连接 的 网 络 有 很 多 优势 。 面 向 无 连接 的 包 交 换 网 络 是 
信 的 一 种 趋势 ,目前 的 VOIP、IPTV 等 应 用 都 是 想 利 用 包 交 换 网 络 来 代替 普通 的 电话 交换 
有 线 电视 网 络 。 

不 要 把 “面向 无 连接 ”和 “TCP 是 有 连接 的 ”混淆 在 一 起 。TCP 是 一 个 端 到 端的 协议 ， 它 
运行 于 通信 双方 , 而 不 是 通信 所 经 过 的 网 络 设备 上 。TCP 的 连接 不 是 物理 连接 而 是 逻辑 连接 。TCP 
其 实 就 是 一 个 状态 ， 本 身 保持 一 个 状态 机 用 来 侦 测 双方 的 数据 流 是 否 成 功 发 送 或 者 接收 。 实 际 通 
信 两 点 间 的 连接 可 以 经 过 包 交换 网 络 , 同样 也 可 以 经 过 面向 连接 的 网 络 。 也 就 是 说 ，“ 面 向 连接 ” 
和 “面向 无 连接 ”是 指 链 路 层 的 概念 ， 而 TCP 是 传输 层 的 概念 。 

9.1.2 ” 捉 行 和 并 行 

串 行 传输 在 长 距离 高 速 传输 方面 ， 也 必 将 取代 并 行 传输 。 

并 行 SCSI 总 线 就 是 一 种 面向 连接 的 并 行 的 共享 总 线 技术 。 其 趋势 就 是 必 将 被 高 速 串 行 的 、 
面向 无 连接 的 网 络 通信 技术 所 取代 。 取 代 之 后 的 结果 ， 必 将 使 这 个 网 络 的 扩展 性 大 大 增强 ， 使 存 
储 系统 和 主机 系统 可 以 远 隔 干 里 进行 通信 。 

得 益 于 FC 带 来 的 诸多 好 处 , 现在 人 们 终于 可 以 摆脱 存储 系统 和 主机 必须 放 在 一 起 的 限制 了 。 
如 主机 在 北京 ， 而 盘 阵 可 以 在 青岛 ， 它 们 之 间 通 过 租用 ISP 的 光缆 线路 进行 连接 ， 在 这 条 线路 上 
承载 FC 协议 ， 从 而 达到 主机 和 盘 阵 之 间 的 通信 。 这 样 ， 在 北京 的 主机 上 就 可 以 直接 认 到 远 在 青 
岛 的 盘 阵 上 的 LUN 逻辑 盘 。 

由 于 FC 接口 速度 可 以 是 1Gb/s、2Gb/s、4Gb/s 甚至 8Gb/s， 并 且 盘 阵 前 端 可 以 同时 提供 多 
个 主机 接口 ， 所 以 它们 的 带宽 之 和 远 远 高 于 后 端 连接 磁盘 的 并 行 SCSI 总 线 提供 的 速度 。 这 样 ， 
就 可 以 在 盘 阵 的 后 端 增加 更 多 的 SCSI 通道 ,以便 接 入 更 多 的 磁盘 来 饱和 前 端 FC 接口 的 速率 。 


9.2 不 甘 示 弱 一 一 后 端 也 升级 换代 为 FC 


在 将 主机 与 盘 阵 之 间 的 接口 、 链 路 都 蔡 换 成 FC 协议 之 后 ， 人 们 不 断 增 加 磁盘 阵列 后 端 磁盘 
的 数量 , 以 达到 前 端 众多 FC 接口 的 饱和 速率 。 但 是 此 时 瓶颈 出 现 了 , 后 端 每 增加 一 个 SCSI 通道 ， 
最 多 能 接 入 15 块 磁盘 ， 数 量 太 少 了 。 增 加 SCSI 通道 也 不 是 一 个 最 终 解 决 办 法 ， 能 否 找到 一 种 彻 
底 的 解决 办 法 呢 ? 
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抛弃 老 节 车 一 一 让 SCSI 搭乘 高 速 专列 


要 解决 这 个 问题 , 就 要 彻底 抛弃 盘 阵 后 端的 SCSI 并 行 传输 总 线 网 络 , 就 像 当 初 抛弃 前 端 
SCSI 总 线 一 样 。 而 且 不 仅仅 要 使 接 入 硬盘 的 数量 增加 ， 还 要 高 速 、 稳 定 。 既 然 已 经 将 前 端 传 
输 网 络 替换 成 了 FC 交换 网 络 ， 那 么 是 否 可 以 将 后 端 网 络 也 从 并 行 SCSI 替换 成 FC 呢 ? 理论 
上 是 完全 可 行 的 。 

由 于 FC 协议 系统 提供 了 两 种 网 络 拓扑 架构 ， 所 以 要 考察 后 端 存储 网 络 到 底 使 用 哪 种 架构 比 
较 合 适 。 首 先 交换 式 架构 Fabric 是 一 种 包 交 换 网 络 ， 寻 址 容量 大 ， 交 换 速 度 快 ， 各 个 节点 间 可 以 
同时 进行 线 速 交换 ， 无 阻塞 通信 ， 但 是 成 本 较 高 。 其 次 是 FC-AL 仲裁 环 架构 ， 带 宽 共享 ， 每 个 
环 寻 址 容量 128， 最 关键 的 一 点 是 ， 它 实现 起 来 比 交 换 架 构 简单 ， 而 且 成 本 也 低 很 多 。 


提示 : 第 7 章 讲 的 FC 的 一 些 登录 、 注 册 等 过 程 ， 都 是 在 Fabric 架构 中 才 发 生 的 ， 而 在 
FC-AL 则 是 另外 一 套 环 初始 化 过 程 。 
如 果 把 每 个 磁盘 都 作为 一 个 节点 连接 到 Fabric 交换 网 络 中 , 性 能 绝对 是 无 可 挑剔 的 ， 由 共享 
总 线 变 成 了 点 对 点 交换 式 通信 ， 性 能 也 会 提升 很 大 。 但 是 这 样 做 ， 不 但 要 在 盘 阵 的 后 端 实现 一 个 
FC 交换 矩阵 ， 而 且 要 在 每 块 磁盘 上 实现 FC 拓扑 中 的 N 端口 ， 这 两 部 分 成 本 是 非常 巨大 的 。 为 
了 降低 成 本 ， 只 能 选择 性 能 稍 差 ， 但 是 成 本 低 的 FC-AL 仲裁 环 架构 来 连接 磁盘 阵列 的 控制 器 和 
磁盘 ， 而 且 在 每 块 磁盘 上 都 实现 FC 拓扑 中 的 工 端口 。 
虽然 这 样 做 性 能 会 比 Fabric 架构 差 ， 但 是 至 少 比 并 行 SCSI 总 线 强 多 了 。 对 于 并 行 SCSI 总 
线 来 说 ， 目 前 最 高 的 标准 是 Ultra 320， 裸 速率 320MB/s， 实 际 最 大 传输 率 大 概 能 有 85% 的 效率 ， 
也 就 是 280MB/s 左右 。 有 人 做 过 实验 , 在 Ultra 160 ( 裸 速率 160MB/s ) 的 总 线 上 ,， 按 4KB 数据 
块 随机 访问 6 块 SCSI 硬盘 时 ，SCSI 总线 的 实际 访问 速度 为 2.74MB/s, IOPS 大 约 700 次 /s。 这 种 
情况 下 ，SCSI 总 线 的 工作 效率 仅 为 总 线 带宽 的 1.7%。 在 完全 不 变 的 条 件 下 ， 按 256KB 的 数据 块 
对 硬盘 进行 顺序 读 写 , SCSI 总 线 的 实际 访问 速度 为 141.2MB/s, IOPS 大 约 564 次 /s，SCSI 总 线 的 
工作 效率 高 达 总 线 带宽 的 88% 。 
由 于 FC-AL 目前 刚刚 普及 到 4Gb 的 带宽 , 裸 速率 400MB/s, 这 样 就 比 Ultra 320 的 带宽 要 高 。 
不 仅 在 速率 上 ，FC 在 效率 上 也 比 Ultra 320 并 行 总 线 要 高 。 但 是 2G 速率 的 FC-AL， 其 裸 速率 仅 
200MB/s, 比 Ultra 320 低 很 多 。 而 在 4G 的 FC-AL 出 来 之 前 ,很 多 磁盘 阵列 就 已 经 用 2G 的 FC-AL 
替代 后 端的 Ultra 320 总 线 了 。 为 何 这 些 产 品 宁 愿 忍受 2G 速率 FC 相对 Ultra 320 一 半 的 速度 ， 也 
要 将 其 后 端 替 换 为 FC 架构 呢 ? 
其 因素 主要 有 三 个 。 
(1) 可 扩展 性 。 受 并 行 SCSI 总 线 仲裁 机 制 本 身 的 限制 ,决定 了 一 条 总 线 上 不 会 有 太 多 的 节 
点 ，16 个 节点 的 数量 已 经 达到 它 的 可 管理 极限 了 。 而 FC-AL 仲裁 环 则 不 然 ， 它 的 极限 
是 128 节点 ,这 就 比 SCSI 总 线 强 多 了 。 这 个 限制 的 突破 ， 使 后 端 可 以 连接 更 多 的 磁盘 ， 
很 容易 就 可 以 在 单 台 磁 盘 阵 列 上 实现 上 TB 或 者 几 十 TB 的 容量 ( 通过 连接 扩展 柜 ) 。 
虽然 一 个 FC-AL 环 的 速度 比 一 条 Ultra 320 总 线 低 ， 但 是 多 条 总 线 和 多 个 后 端 通道 可 以 
集成 在 一 个 控制 器 上 。 而 并 行 SCSI 接口 和 线 缆 都 很 宽大 ， 想 集成 在 一 个 小 的 空间 上 很 
难 。FC 由 于 是 串 行 传输 ， 两 条 线 一 收 一 发 足够 了 。 接 口 也 很 小 ， 如 SFP 光纤 接口 ， 只 
有 指头 肚 一 样 大 小 ， 可 以 很 方便 地 在 后 端 上 实现 多 个 通道 。 
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(2) IOPS 值 比 并 行 SCSI 总 线 的 架构 显著 增加 。 为 什么 这 么 说 呢 ? 我 们 分 析 一 下 。 高 IOPS 
通常 意味 着 IO SIZE 值 比较 小 的 情况 下 ， 如 果 使 用 并 行 SCSI 总 线 ， 由 于 可 接 入 节点 数 
量 较 少 , 磁盘 数量 少 , 每 秒 可 接受 的 IO 请 求 就 少 ; 而 FC-AL 的 后 端 , 一 个 通道 可 以 连 
接 120 多 个 磁盘 , 可 以 做 成 很 多 Raid Group, 每 秒 可 接受 的 IO 请 求 就 比 并 行 SCSI 多 得 
多 。 所 以 , 虽然 2Gb 带宽 的 FC 网 络 传输 在 持续 传输 速率 上 比 不 过 Ultra 320 的 320MB/s 
的 速度 ,但 是 IOPS 却 比 Ultra 320 总 线 高 很 多 。 在 特定 条 件 下 ,2Gb 的 FCAL 链 路 在 IOPS 
和 吞吐 带宽 指标 上 都 会 超越 Ultra 320 的 SCSI 总 线 。 
现在 的 大 部 分 应 用 都 是 要 求 高 IOPS 的 ， 它 们 产生 的 一 个 IO SIZE 一 般 都 比较 小 ， 而 
且 随 机 IO 居多 。 但 是 对 于 视频 编辑 等 领域 , 无 疑 是 要 求 高 传输 带宽 的 。 面 对 这 种 应 用 ， 
可 以 通过 在 盘 阵 后 端 加 入 多 个 FC-AL 环 来 解决 ， 后 端 带宽 总 和 等 于 环 数 乘 以 环 带宽 。 

(3 ) 双 逻 辑 端口 元 余 。 由 于 FC 的 串 行 方式 使 得 数据 针脚 数量 降低 ， 相 同 的 空间 内 很 容易 做 
成 双 逻 辑 端口 元 余 。 双 逻辑 端口 磁盘 可 以 有 效 保证 当 其 中 一 个 端口 发 生 故 障 之 后 ， 磁 盘 
可 以 继续 使 用 另外 一 个 备用 端口 接受 IO 请求。 


9.3 ”FC 革命 一 一 完整 的 盘 阵 解决 方案 


FC 在 盘 阵 的 前 端 接 口技 术 的 革命 成 功 之 后 ， 又 在 后 端的 接口 技术 上 取得 了 成 功 。FC 技术 的 
两 种 拓扑 ， 一 个 称霸 前 端 ， 一 个 称霸 后 端 ， 在 磁盘 阵列 领域 发 挥 得 淋漓 尽 致 。 

与 此 同时 ， 磁 盘 生产 厂家 也 在 第 一 时 间 将 FC 协议 中 的 工 端 口 和 FC 硬件 芯片 做 到 了 磁盘 驱 
动 器 上 ， 取 代 了 传统 的 SCSI 端口 。 同 时 ,根据 FC 协议 的 规定 编写 了 新 的 Firmware， 用 于 从 FC 
数据 帧 中 提取 SCSI 指令 和 数据 ， 完 成 FC 协议 通信 逻辑 。 

提示 : 并 行 SCSI 磁盘 以 及 其 他 设备 目前 仍 有 比较 广泛 的 应 用 ,尤其 是 服务 器 本 地 磁盘 。 

服务 器 本 地 磁盘 一 般 只 安装 操作 系统 ,一 般 情 况 下 应 用 数据 都 会 放 到 SAN 的 磁盘 阵列 上 ， 

所 以 对 本 地 磁盘 的 性 能 要 求 不 高 ， 使 用 Ultra 320 磁盘 足 侨 。 另 外 ， 普 通 独 立 磁带 机 一 般 

也 用 Ultra SCSI 320 作为 其 外 部 接口 。 只 有 在 大 型 磁带 库 设备 上 ， 为 了 将 其 接 入 FC SAN 

才 会 使 用 FC 接口 。 

因为 要 把 每 块 磁盘 都 连接 到 FC-AL 网 络 中 ， 所 以 磁盘 上 要 做 上 一 个 FC 接口 。 由 于 磁 
盘 阵 列 背 板 需要 连接 众多 的 磁盘 ， 所 以 就 注定 不 可 能 用 柔软 纤细 的 光纤 来 连接 磁盘 到 背 板 ， 
必须 使 用 硬 质 铜 线 ， 让 磁盘 的 FC 接口 用 铜 线 来 接触 盘 阵 背 板 上 的 电路 ， 这 样 才能 做 到 方便 
地 插 拔 。 


9.3.1 FC 磁盘 接口 结构 
FC 磁盘 的 接口 为 SCA2 形式 的 40 针 插口 ， 如 图 9-1 所 示 。 
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SCA-2 Fibre Channel 


Dimension mm Dimension mm C1 
H 26.1max W 101.640 25 PCB parts side -一 2 1 
| oooooodoo od 
N [wy) M 508t05 CC—— 
Pp 4.640.5 


40 21 


图 9-1 SCA2 接口 规格 
从 图 9-1 中 可 以 看 出 , FC 磁盘 的 接口 与 Ultra 320 SCSI 磁盘 的 接口 形状 完全 相同 。 但 是 在 接 
口上 的 物理 信号 定义 和 承载 的 上 层 协议 是 完全 不 同 的 :FC 磁盘 接口 是 承载 的 FC-AL 协 议 , 而 SCsI 
磁盘 接口 承载 的 是 并 行 SCSI 总 线 协议 。 图 9-2 是 FC SCA2 型 接口 的 信号 定义 表 。 


-EN Bypass Port 1 12V 
12V 加 GND (12V Return) 
12V GND (12V Return) 
12V +IN1 
-Parallel ESI -IN1 
GND GND (12V Return) 
ACTLED +IN2 
Reserved -IN2 
START1 GND (12V Return) 
START2 +OUT1 
-EN Bypass Port 2 -OUT1 
SEL6 GND (5V Return) 
SEL5 +OUT2 
SEL4 -OUT2 
SEL3 GND (5V Return) 
FLTLED SEL2 
DEVCTRL2 SEL1 
DEVCTRL1 SELO 
5V DEVCTRLO 
5V 5V 


图 9-2 FC 接口 SCA2 针脚 信号 定义 表 
9.3.2 一 个 磁盘 同时 连 入 两 个 控制 器 的 Loop 中 
图 9-3 和 图 9-4 分 别 给 出 了 一 串 磁盘 以 单 Loop 和 双 Loop 接 入 的 情形 。 


从 图 中 可 以 看 出 来 , 原来 这 个 物理 接口 中 共 包含 了 两 套 逻 辑 接口 , 可 以 分 别 接 入 一 个 FC-AL 
的 环 路 中 。 
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FC-AL interface cable 


Host 
FC-AL interface cable 
PA EE 一 一- 
mi 
Pona J[Pone PonA [Pens] [PotA][Pots 
|Ultrastar 10K300 A Ultrastar 10K300 |Unrastar 10K300 
bcpower 
GND 
ano 
图 9-3 单 Loop 连接 示意 图 图 9-4 双 Loop 连接 示意 图 


9.3.3 ”共享 环 路 还 是 交换 一 -SBOD 芯片 级 详解 


革命 之 后 ,被 并 行 SCSI 总 线 技术 禁 钢 多 年 的 存储 系统 终于 解放 了 , 迎 来 了 全 FC 架构 的 春天 。 

各 个 厂家 分 别 推出 了 自己 的 产品 。 由 于 虽然 一 
条 FC-AL 环 最 多 能 接 120 多 块 磁盘 ,但 是 有 人 测试 
过 ， 环 上 节点 的 数量 在 最 大 值 的 二 分 之 一 时 ， 性 能 
达到 最 大 化 。 再 增加 节点 数量 ， 性 能 不 升 反 降 。 究 
其 原因 ， 可 能 是 因为 60 个 左右 的 节点 ， 已 经 达到 
FC-AL 环 的 仲裁 性 能 以 及 带宽 共享 限制 的 极限 了 ， 
如 图 9-5 所 示 。 如 果 再 增加 节点 ， 那 么 用 于 仲裁 所 1 11 21 31 41 51 61 71 81 91 101111 
耗费 的 资源 ， 就 会 影响 性 能 的 发 挥 了 。 这 也 是 仲裁 ee 
环 或 者 总 线 的 通病 。 对 于 Fabric 架构 ， 就 没有 这 种 A 
限制 。 

思考 : 节点 数量 和 仲裁 / 帧 转发 效率 是 一 对 矛盾 系统 ， 只 能 在 二 者 之 问 进行 折 中 选择 。 在 

60 节点 数量 左右 , 能 达到 最 大 IOPS。 如 果 还 想 增加 节点 数量 , 增加 盘 阵 所 提供 的 总 容量 ， 

那 就 只 能 牺牲 IOPS 性 能 。 同 样 , 每 个 环 上 的 磁盘 数量 也 不 能 太 少 , 太 少 的 话 将 达 不 到 最 

高 IODPS， 虽 然 此 时 仲裁 和 帧 转发 速度 快 。 

有 没有 可 能 将 后 端的 共享 FC-AL 环 路 架构 , 改变 为 交换 式 架 构 呢 ? 改 为 交换 式 架 构 是 可 以 ， 
但 是 不 能 改 为 Fabric， 因 为 其 成 本 相对 偏 高 ， 而 且 Fabric 的 一 些 特 性 对 于 后 端 来 说 是 用 不 到 的 。 

Emulex 公司 发 布 的 InSpeed SOC422 芯片 、PMC-Sierra 公司 的 PM8378 芯片 等 就 是 运行 
FC-AL 协议 但 物理 架构 是 交换 架构 的 芯片 。 然 而 这 个 交换 架构 绝 非 Fabric， 因 为 其 遵循 的 上 层 逻 
辑 依然 是 FC-AL 逻辑 ， 只 是 在 物理 连接 上 用 点 对 点 交换 架构 ， 替 代 了 “节点 大 串联 ”的 Loop 结 
构 ， 使 节点 与 节点 之 间 传 输 的 数据 可 以 通过 交换 矩阵 直达 ， 而 不 是 在 环 路 上 一 跳 一 跳 的 中 继 。 然 
而 ， 这 些 芯片 依然 可 以 用 在 Fabric 交换 机 上 ， 只 要 经 过 一 定 改造 并 且 在 上 层 运行 对 应 的 Firmware 
即 可 。 

其 实 就 是 用 星 型 连接 取代 串联 ， 而 电路 运行 的 逻辑 依然 是 FC-AL 仲裁 过 程 ， 因 为 位 于 控制 
器 上 的 FC 适配器 依然 会 执行 FC-AL 仲裁 等 逻辑 , 只 不 过 这 个 仲裁 过 程 变 得 非常 简单 , 不 再 需要 
所 有 磁盘 参与 ， 而 由 这 块 芯片 来 进行 仲裁 。 此 外 ， 某 节点 同一 时 刻 依 然 只 能 与 一 个 节点 通信 ， 节 
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点 感觉 不 到 底层 电路 架构 的 变化 。 由 于 同一 时 刻 还 是 只 能 存在 一 对 节点 进行 通信 ， 所 以 链 路 带宽 
依然 是 共享 的 。 因 此 ， 这 种 交换 架构 做 的 并 不 彻底 ， 它 没有 过 渡 到 包 交 换 或 者 所 有 端口 无 阻塞 全 
交换 架构 ， 虽 然 物理 上 已 经 可 以 实现 点 对 点 的 通路 。 

图 9-6 所 示 的 为 传统 FC-AL 架构 和 半 交 换 式 FC-AL 架构 示意 图 。 我 们 可 以 看 到 左边 的 拓 
扑 完全 就 是 磁盘 串 ， 而 右边 则 变 成 了 星 型 的 架构 ， 中 间 由 一 个 ESH 交换 模块 辐射 出 来 。 


To Next Shelf A To Next Shelf B 


To Next Shelf A To Next eit B 
图 9-6 传统 FC-AL 环 和 半 交 换 式 FC-AL 环 

目前 高 端 盘 阵 后 端 控制 芯片 几乎 全 部 采用 半 交 换 式 架构 了 。 半 交换 式 架构 有 以 下 好 处 。 

”控制 节点 与 所 有 其 他 节点 间 都 是 点 对 点 矩阵 直 连 架构 , 相对 于 环 路 架构 减 小 了 数据 传输 
时 的 延迟 。 数 据 帧 不 需要 一 跳 一 跳 的 转发 ， 可 以 直接 从 发 起 者 到 达 目 标 。 

， ”可 以 快速 侦 测 和 隔离 某 个 节点 的 故障 而 不 影响 其 他 节点 。 

" ”由 于 降低 了 链 路 延迟 , 增加 了 效率 ,所 以 在 性 能 可 接受 的 前 提 下 , 一 条 链 路 可 接 入 的 节 
点 数 大 大 增多 。 

" ”相对 于 纯 环 路 架构 ， 半 交换 架构 提高 了 传输 速度 和 IOPS。 

纯 环 路 架构 的 扩展 柜 中 ， 连 接 硬 盘 的 背 板 只 是 一 个 FC-AL 环 路 连接 装置 ， 而 升级 到 半 交 换 
架构 的 硬盘 扩展 柜 的 ,其 连接 硬盘 的 背 板 上 就 有 了 Switch 芯片 (其实 这 个 芯片 一 般 存 在 于 从 背 板 
单独 接 出 的 扩展 模块 上 ) ， 可 以 级 联 多 个 扩展 柜 。 在 逻辑 上 ， 这 些 级 联 扩展 柜 中 的 所 有 磁盘 属于 
一 个 逻辑 上 的 Loop, 前 者 被 称 为 JBOD( Just Bunch Of Disks ) , 后 者 被 称 为 SBOD( Switched Bunch 
Of Disks ) 。 


提示 : 关于 这 些 模块 的 实物 图 ， 请 参照 本 书 第 6 章 的 相关 章节 。 


1. PMC-Sierra 公司 PM 系列 芯片 简介 

下 面 以 PMC-Sierra 公司 的 PM8368 和 PM8378 两 款 芯片 为 例 来 详细 解释 一 下 这 种 芯片 的 作 
用 方式 。 
1) PBC 芯片 

在 传统 模式 的 FC-AL 架构 下 ， 所 有 环 路 上 的 节点 ( adapter 和 磁盘 ) 都 通过 串联 架构 串 接 到 
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了 一 起 。 针 对 这 个 架构 的 PM8368 芯片 是 一 款 具有 18 个 2Gb/s 的 FC 接口 的 带 有 PBC( Port Bypass 
Control ) 功能 的 芯片 ， 相 当 于 一 个 Loop 串联 器 ， 并 且 带 有 端口 Bypass 功能 ， 可 防止 某 个 端口 故 
障 引发 的 全 Loop 断 开 。 图 9-7 所 示 为 PM8368 芯片 的 方 框图 。 其 18 个 端口 中 ,通常 用 16 个 连 
接 磁 盘 ， 其 他 两 个 连接 上 位 芯片 和 (或 ) 下 位 芯片 。 这 种 不 带 有 交换 逻辑 的 普通 Loop 芯片 , 业 
界 一 般 称 为 PBC 芯片 ， 即 旁 路 控制 芯片 。 


ROIPII7) 
ROIN['7 
TDOPIO) 
TDoONIO] 


TRUST MODE 一 -| 
MON_BYP_PORT 一 一)>| 
BYPAss81170| 一 上 | 


图 9-7 PM8368 芯片 方 框图 
图 9-8 所 示 的 是 将 PM8368 芯片 与 PM8372 芯片 ( 一 款 只 有 4 个 FC 口 的 PBC 环 路 集 线 芯 片 ) 
搭配 在 一 起 而 实现 的 扩展 柜 级 联 , 每 扩展 柜 有 16 块 盘 。 引入 PM8372 芯片 的 原因 是 将 其 作为 一 个 
二 级 级 联 桥 来 减缓 一 级 芯片 (PM8368 ) 的 端口 耗 尽 问题 。 一 级 芯片 需要 连接 最 终 硬盘 等 设备 。 


a 
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1.0625Gbits or 
2.125 Gbivs 
FC Link 


1.0625Gbivs or 

2.125 Gbits 
FCLink 
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图 9-8 利用 PM8368 芯片 与 PM8372 芯片 级 联 扩展 柜 


2) CTS 芯片 

图 9-9 所 示 为 
PM8378 芯片 的 方 框 
图 。 此 芯片 为 新 一 代 
的 CTS 芯片 ，CTS 
为 ”Cut Through 
Switch 的 简称 。 这 款 
芯片 具有 交换 逻辑 ， 
IO 性 能 相对 于 PBC 
芯片 大 大 增加 ， 而 延 
迟 大 大 降低 。 这 块 芯 
片 可 以 接 入 18 个 
4Gb/s 的 FC 接口 设 
备 。 在 上 部 的 模块 中 ， 
可 以 看 到 三 个 模块 : 
Am Mgmt ( 仲裁 管理 
模块 ) 、AL_PA Table 
(AL-PA 地 址 端口 映 
射 表 模块 )、Cut Thru 
Mgmt ( 捷径 交换 模 
块 ) 。 


Frame Comparator 


TDoNI0] 
TDopIo] 
TDON[1] 
TDoP[1] 


TDON[17] 
TDOP[17] 


be 


图 9-9 PM8378 芯片 方 框图 
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= ”Ar Mgmt( 仲裁 管理 模块 ) : 前 面 曾经 说 过 , 一 个 交换 芯片 必须 感知 FCAL 的 仲裁 逻辑 ， 
才能 作为 一 个 中 心 仲裁 器 总 揽 仲 裁 权 ， 而 不 用 Loop 上 所 有 的 节点 都 参与 进来 。 这 个 仲 
裁 管理 模块 实现 的 就 是 这 个 功能 。FC 适配器 只 要 发 出 仲裁 请 求 ， 芯 片 就 会 马上 通过 ， 
适配器 立即 就 获得 了 使 用 权 ， 加 快 了 仲裁 的 速度 。 如 果 某 时 刻 多 个 设备 都 发 起 仲裁 ， 则 
芯片 会 根据 自己 的 逻辑 来 处 理 这 些 请 求 ， 比 如 根据 优先 级 等 。 

”AL _PA Table ( AL-PA 地 址 端口 映射 表 模 块 ) : 传统 的 FCAL 环 路 上 ， 数 据 从 通信 源 被 
发 送 到 对 应 AL-PA 地 址 的 目的 设备 ， 数 据 帧 需要 一 站 一 站 地 向 下 接力 传送 。 交 换 芯片 
的 另 一 个 作用 就 是 抛弃 这 种 低 效 的 传输 方式 ， 使 数据 可 以 一 站 直达 目的 。 芯 片 使 用 一 张 
映射 表 来 维护 交换 逻辑 ,这 就 和 以 太 网 交换 机 维护 一 张 MAC- 端 口 表 一 样 。FCAL 交换 
芯片 每 收 到 一 帧 数据 ， 就 会 根据 这 个 AL_PA Table 来 查找 帧 中 的 AL-PA 地 址 所 对 应 的 
芯片 针脚 是 哪 一 个 ， 然 后 直接 将 此 帧 转发 到 对 应 的 针脚 上 , 也 就 传送 到 了 针脚 所 连接 的 
磁盘 FC 接口 上 。 

”Cut Thru Mgmt ( 捷径 交换 模块 ) : 这 个 模块 其 实 就 是 执行 交换 过 程 的 。 每 当 有 帧 需要 
交换 , 这 个 模块 就 会 发 送 一 个 信号 到 图 9-9 中 部 的 那个 矩阵 上 , 改变 矩阵 当前 的 通路 布 
局 ， 从 而 将 数据 从 源 传 向 目的 设备 。 

图 9-10 是 利用 PM8378 芯片 实现 的 磁盘 扩展 柜 级 联 示 意图 18 个 端口 中 有 16 个 连接 了 磁盘 ， 

另外 两 个 分 别 连 接 了 上 位 和 下 位 芯片 。 


16 Disk SEOD/MBOD/JBOD 站 
[| Na Eachagnaloonll 
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图 9-10 扩展 柜 级 联 示 意图 
还 可 以 将 PBC 芯片 和 CTS 芯片 组 合 在 一 起 来 级 联 扩展 柜 。 如 图 9-11 所 示 ， 为 了 降低 成 本 ， 
使 用 了 18 口 的 PBC 芯片 来 连接 磁盘 , 然后 用 一 个 4 端口 的 CTS 芯片 来 作为 二 级 级 联 桥 。 在 这 种 
情况 下 ， 每 个 扩展 柜 中 的 磁盘 之 间 为 普通 Loop 串联 ， 但 是 扩展 柜 与 扩展 柜 之 间 却 是 交换 拓扑 ， 
这 样 就 相当 于 把 整个 Loop 上 的 节点 划分 成 域 ,每 个 扩展 柜 就 是 一 个 共享 域 ( 冲突 域 ) 。 现 在 流 
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行 的 做 法 是 : 磁盘 连接 到 CTS 芯片 中 , 而 柜子 与 柜子 之 间 是 PBC 芯片 , 所 以 图 9-11 所 示 的 恰好 


相反 ， 这 一 点 请 读者 注意 。 


17 Disk Shelf for 
Colorado Design Center Storage 


MM 
Additional 
Disk Racks 


图 9-11 PBC 与 CTS 的 组 合 

如 图 9-12 所 示 ， 这 种 方式 使 用 了 高 成 本 的 CTS 芯片 组 成 了 全 交换 架构 的 Loop。 整 个 Loop 

上 的 节点 之 间 都 形成 了 交换 架构 ， 但 这 个 交换 架构 并 不 是 无 阻塞 多 路 同时 交换 的 架构 ， 依 然 是 同 
时 只 允许 两 点 间 通 信 的 上 层 FC-AL 逻辑 的 架构 。 
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9-12 全 CTS 架构 
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SBOD 控制 模块 上 的 芯片 不 只 有 PBC 或 CTS， 还 包括 其 他 各 种 功能 的 芯片 ， 在 图 中 并 没有 


给 出 ， 下 面 会 一 一 介绍 。 
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2. SCSI Enclosure Service 简介 


SCSI Enclosure Service 简称 为 SES， 从 字面 上 理解 就 是 SCSI 协议 中 用 于 查询 磁盘 扩展 柜 
(Enclosure ) 各 种 状态 的 一 种 服务 (协议 ) 。 扩 展柜 上 有 很 多 组 件 需要 被 监控 ， 比 如 电源 模块 、 风 
扇 散 热 模块 、 各 种 指示 灯 、 温 度 传 感 器 等 。 这 些 组 件 都 通过 某 种 总 线 (比如 PC、GPIO ) 方式 连 
接 到 某 个 芯片 , 然后 这 块 芯片 再 通过 PC 等 连接 到 单片机 或 CPU。 或 者 通过 外 部 传感器 直接 连接 
到 高 集成 度 的 单一 芯片 上 。SCSI 客户 端 程序 ( 也 就 是 SCSI Initiator 端 程序 ) 通过 发 送 SES 协议 规 
定 的 各 种 指令 来 查询 Enclosure 上 各 个 组 件 的 状态 信息 。 

SES 服务 模块 就 是 指 扩展 柜上 的 CPU， 其 中 运行 着 处 理 SES 的 代码 。 这 个 CPU 可 以 是 主 控 
CPU, 也 可 以 是 独立 的 芯片 。 存储 设备 机 头 主 控制 器 有 两 种 方式 将 SES 指令 传输 给 这 个 CPU, 如 
下 所 述 。 

1 ) 独立 SES 服务 模块 

如 图 9-13 所 示 , 独立 的 SES 服务 模块 独占 一 个 LUN ID ( 十 六 进 制 的 0D ) ,可 以 直接 寻 址 。 
也 就 是 说 , SES 服务 模块 就 相当 于 一 个 FCAL Loop 上 的 ID , 机 头 直接 将 SES 指令 传输 给 这 个 ID。 
对 应 电路 层面 ， 主 交换 芯片 收 到 目标 为 此 ID 的 帧 ， 便 会 直接 转发 给 这 个 ID 所 连接 的 设备 ， 这 里 
就 是 SES 处 理 芯 片 。 


图 9-13 独立 SES 服务 模块 示意 图 


2 ) 附属 的 SES 服务 模块 

如 图 9-14 所 示 , 附属 的 SES 服务 模块 往往 会 利用 一 个 已 经 存在 的 设备 的 地 址 来 与 自己 共用 。 
而 物理 接口 上 ， 这 个 设备 一 般 会 有 一 条 旁 路 来 连接 到 SES 服务 模块 ， 比 如 目前 FC 磁盘 普遍 使 用 
的 SCA2 接口 中 就 有 对 应 的 ESI( Enclosure Service Interface ) 接 口 来 连接 到 SES 服务 模块 上 ( CPU )。 
存储 设备 的 主 控 机 头 首先 将 一 条 SES 可 用 性 探 询 指令 发 送 到 这 个 已 经 被 磁盘 占用 的 ID , 如 果 这 个 
ID 对 应 的 模 位 上 有 连接 设备 ,上 且 该 设备 支持 转发 SES 帧 , 则 该 设备 会 返回 一 个 确认 帧 , 帧 中 携带 
有 特定 Page 的 值 ， 主 控 机 头 收 到 之 后 便 会 分 析出 这 个 设备 是 否 支 持 SES 转发 。 机 头 随后 发 出 纯 
SES 指令 ,磁盘 收 到 之 后 ,会 通过 ESI 接口 将 SES 帧 发 送 给 ESI 接口 的 对 端 ， 当 然 就 是 SES 处 理 
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营 片 了 ,芯片 收 到 SES 指令 之 后 ， 便 通过 PC ( 或 者 其 他 类 型 总 线 ) 总 线 去 查询 外 部 传感器 的 信 
息 , 然后 封装 成 SES 返回 帧 , 通过 ESI 接口 发 送 至 磁盘 , 磁盘 再 转发 给 主 控 机 头 。 磁 盘 的 Firmware 
必须 支持 转发 SES 帧 。 


图 9-14 附属 的 SES 服务 模块 示意 图 
3.SBOD 上 的 CPU 
1) PMC-Sierra 公司 的 PM8393 芯片 
这 是 一 款 基于 MIPS32 架构 的 单片机 ， 内 建 有 128KB 的 RAM， 外 部 时 钟 为 106.25 MHz， 可 


以 将 其 连接 到 上 文 所 属 的 PM8378 Switch 芯片 中 。 这 款 芯 片 又 名 Sotrage Management Controller， 
简称 SMC。 图 9-15 为 其 方 框图 。 


PM8393 
Storage Management Controller 


图 9-15 PM8393 芯片 方 框图 
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图 9-16 是 PM8393 芯片 充当 扩展 柜 总 控 CPU， 用 PM8378/PM8379 充当 交换 芯片 来 连接 磁 
盘 ， 再 加 上 其 他 一 些 芯片 共同 组 成 的 一 个 完整 的 扩展 柜 控制 模块 架构 。 
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图 9-16 用 PM8393 做 为 扩展 柜 总 控 CPU 
2 ) Qlogic 公司 的 GEM359 芯片 
图 9-17~ 图 9-19 所 示 为 这 款 芯 片 的 方 框图 。 
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图 9-17 GEM359 臣 片 方 框图 (1) 
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图 9-18 ”GEM359 芯片 方 框图 (2) 图 9-19 GEM359 芯片 方 框图 (3) 
4. SBOD 上 的 ROM 和 RAM 


SBOD 扩展 柜上 的 CPU 需要 执行 Firmware 中 的 代码 来 完成 一 系列 的 动作 ， 如 SES 服务 等 。 
所 以 ，Firmware 编写 的 质量 直接 决定 了 扩展 柜 是 否 能 向 机 头 上 的 控制 器 稳定 和 迅速 地 报告 扩展 柜 
上 所 发 生 的 一 切 事件 。 

Firmware 一 般 存在 于 扩展 柜 控 制 模块 上 的 ROM 芯片 (如 Flash 芯片 ) 中 ,并且 可 以 随时 将 
升级 之 后 的 Firmware 通过 FC 接口 直接 写 入 芯片 。 这 种 直接 通过 实际 数据 链 路 来 升级 系统 控制 数 
据 的 方式 叫做 ip-band 升级 ， 即 “ 带 内 升级 ”。 如 果 用 一 种 单独 的 通道 来 访问 Flash 芯片 并 做 升级 
动作 就 叫做 out-band 升级 ， 也 就 是 带 外 升级 。 

SBOD 控制 模块 上 一 般 都 有 外 置 的 RAM 芯片 ， 有 些 内 置 了 RAM 的 单片机 除外 。 


5. PATA、SATA 和 SAS 磁盘 怎么 办 


PATA (IDE ) 盘 和 SATA 盘 相 对 于 FC 盘 和 SAS 盘 来 说 , 成 本 降低 了 很 多 ， 且 可 以 实现 高 容 
量 , 现在 已 经 有 了 1TB 的 SATA 磁盘 。 对 于 一 些 对 IO 性 能 要 求 不 高 的 环境 来 说 ,使 用 SATA 盘 
无 疑 是 很 合适 的 。 但 是 面 对 不 同 的 接口 ， 不 同 的 指令 ， 单 独 对 这 些 磁盘 实现 一 套 盘 柜 和 控制 器 体 
系 实在 是 不 方便 。 且 现在 企业 都 要 求 高 度 整合 ， 统 一 分 配 ， 方 便 管 理 。 根 据 这 个 需求 ， 各 种 适 配 
器 和 转换 逻辑 出 现 了 。 图 9-20 所 示 为 一 个 SATA-SCA2 接口 转换 器 。SATA 磁盘 只 要 接 上 这 块 
PCB， 就 可 以 从 物理 上 融入 FC 盘 柜 中 ， 也 就 变 成 了 所 谓 的 FATA 盘 。 除 此 之 外 ,还 有 很 多 其 他 
类 型 的 转 接 电 路 ， 比 如 PATA-SCA2、SAS-SCA2 等 。 

物理 上 融入 了 ,在 逻辑 上 也 需要 进行 转换 。SATA 磁盘 使 用 ATA 指令 系统 ，FC 和 SAS 磁盘 
使 用 SCSI 指令 系统 ， 二 者 不 兼容 。 所 以 需要 有 一 个 中 央 艺 片 负责 在 两 种 逻辑 之 问 互相 转换 。 

Sierra Logic 的 SR1216 芯片 是 一 款 高 集成 度 的 芯片 。 这 款 芯 片 将 ATA-SCSI 转换 逻辑 以 及 两 
个 MicroProcessor 做 到 了 一 块 单一 的 芯片 中 。MicroProcessor 就 是 微型 CPU， 用 来 运行 外 部 Flash 
芯片 中 的 Hrmware， 从 而 实现 SES 等 扩展 柜 管理 程序 。 
图 9-21 所 示 为 SR1216 芯片 实物 图 。 
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图 9-20 SATA-SCA2 转 接 电路 板 图 9-21 SR1216 芯片 实物 图 
图 9-22 和 图 9-23 所 示 为 用 SR1216 来 充当 SATA 桥 和 总 控 CPU 所 形成 的 扩展 柜 控制 模块 
架构 图 ，PBC 表示 FC Loop 旁 路 控制 芯片 ，SES Processor 表示 用 来 收集 外 部 传感器 的 专用 芯片 。 


DAIA 


FE Imo parter controler 


"ee 
图 9-22 SR1216 架构 的 扩展 柜 控制 模块 (1) 图 9-23 SR1216 架构 的 扩展 柜 控制 模块 (2) 

另外 ，PMC-Sierra 公司 也 有 多 款 多 端口 SATA 复 用 芯片 ， 不 过 有 一 些 需 要 搭配 额外 的 
ATA-SCSI 转换 桥 芯 片 。 图 9-24 为 其 示意 图 。 
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图 9-24 PMC-Sierra 的 SATA 盘 柜 控制 模块 架构 
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9.4 ”SAS 大 革命 


SAS 技术 是 近 一 两 年 来 才 被 普遍 使 用 的 技术 ， 其 相对 FC 技术 有 多 种 优点 ， 也 有 其 缺点 。 本 
节 向 大 家 介绍 一 下 SAS 技术 的 底层 架构 。 


9.4.1 SAS 物理 层 


适用 于 存储 系统 的 网 络 不 止 FC 一 个 ， 同 档次 的 网 络 传输 系统 还 有 一 个 叫做 SAS 的 ,全称 为 
Serial Attached SCSI， 即 串 行 SCSI。FCP 也 属于 串 行 SCSI，SAS 只 是 一 个 名 称 , 不 要 太 较 真 。SAS 
是 于 2001 年 被 Compaq、IBM、LSI Logic、Maxtor 和 Seagate 联合 提 上 日 程 的 。 大 家 都 知道 , 现在 
普遍 用 于 PC 的 SATA 硬盘 ,也 是 从 2001 年 之 后 才 逐 渐 氏 露 头角 的 。 的 确 ， 当 时 几 大 厂家 在 开发 


串 行 ATA 时 就 考虑 到 : 为 何不 将 SCSI 一 同 纳 本 
入 开发 范围 呢 ? 于 是 SAS 便 悄 悄 的 被 开发 了 。 | 
正 是 由 于 这 种 因缘 关系 ， 今 天 普遍 用 于 PC 服 。 oy pnyacank 


务 器 和 小 型 机 的 本 地 硬盘 的 SAS 磁盘 的 接口 形 。 “seal atached Se 
状 与 SATA 盘 是 相同 的 ， 只 是 比 SATA 盘 多 了 ER 
一 个 数据 接口 ， 像 FC 磁盘 一 样 用 来 连接 两 路 Er 
控制 器 。 第 二 数据 接口 位 于 第 一 数据 接口 靠背 Serial ATA ee one pels 
的 位 置 ,需要 翻 过 来 才能 看 到 ,如 图 9-25 所 示 。 

SAS 网 络 与 FC 有 一 个 本 质 区 别 , 即 SAS 9-25 SAS 和 SATA 接口 的 区 别 
为 全 交换 式 架 构 ， 不 像 FC 一 样 有 Fabric 和 FCAL 两 种 架构 。 如 果 让 一 个 控制 器 ( Initiator ) 和 多 
块 磁盘 作为 网 络 节点 直接 连接 到 SAS 网 络 中 的 话 , 那么 控制 器 和 所 有 磁盘 之 间 都 是 全 双 工 线 速 无 
阻塞 交换 的 ， 控 制 器 可 以 直接 向 任何 一 块 磁盘 收发 数据 ; 同样 ， 磁 盘 也 可 以 在 任何 时 刻 直接 向 控 
制 器 发 送 数据 。 这 一 切 过 程 都 是 没有 冲突 的 ， 也 不 需要 像 FCAL 那样 的 仲裁 机 制 ， 而 且 每 个 节点 
都 独 享 传输 带宽 ， 系 统 整体 带宽 = 节点 数量 x 每 个 节点 享有 的 带宽 。 
在 SAS 网 络 中 ,每 一 个 物理 接口 都 需要 有 一 套 底层 编 解 码 器 负责 对 数据 进行 8/10b 编 解码 。 
每 个 物理 接口 又 称 为 PHY , 即 Physical 的 简写 .SAS 1.0 时 代 , 每 个 物理 接口 的 编 解 码 速度 为 3Gb/s， 
SAS 2.0 时 代 ( 2010 年 初 才 有 产品 正式 宣布 ) , 这 个 速率 被 提升 至 6Gb/s。 换算 一 下 就 可 得 知 , SAS 
1.0 的 每 个 接口 数据 带宽 为 300MB/s，SAS 2.0 则 翻 倍 。 相 比 之 下 ， 同 时 代 的 FC 接口 物理 速率 已 
经 普遍 为 4Gb/s， 而 且 8Gb/s 的 产品 已 经 上 市 ，SAS 慢 了 一 小 步 ， 而 且 还 相差 2Gb/s。 但 是 SAS 
的 一 项 设计 却 比 FC 走 到 了 前 面 ， 即 可 以 将 多 个 PHY 捆绑 成 一 个 逻辑 接口 ， 数 据 并 行 地 在 多 个 
PHY 中 传输 ， 就 像 PCI-E 一 样 ， 每 个 PHY 速率 2.5Gb/s，4XPCIE 便 是 4 个 PHY 拥 绑 。4X 的 
SAS 接口 ， 其 速率 就 变 成 了 12Gb/s ( SAS 1.0 ) 或 者 24Gb/s ( SAS 2.0 ) 。 而 目前 FC 是 做 不 到 这 一 
点 的 。 多 个 PHY 经 过 拥 绑 之 后 形成 的 逻辑 端口 称 为 “ 宽 端 口 ”, 不 拥 绑 的 独立 单一 PHY 称 为 “ 窒 
端口 ”。 宽 端口 一 般 用 于 主机 SAS 适配器 连接 SAS 接口 外 置 磁盘 阵列 时 使 用 ， 因 为 宽 端 口 可 以 提 
供 更 高 的 带宽 ， 消 除 瓶 颈 ， 同 时 ， 连 接 使 用 的 线 缆 也 借用 了 Infiniband 网 络 的 设计 。 如 图 9-26 所 
示 为 一 个 4X 宽 端 口 所 用 的 线 缆 接 头 实物 图 。 
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图 9-26 SAS 的 4X 宽 端口 
图 9-27 所 示 的 是 一 块 主机 SAS 适 配 卡 的 连接 示意 图 。 此 适 配 卡 有 两 个 SAS 通道 ， 每 个 通道 
又 有 4 个 PHY, 其 中 一 个 通道 用 于 连接 主机 箱 内 部 的 SAS 或 者 SATA 磁盘 , 通过 线 费 连 接 到 转 接 
背 板 上 , 然后 4 块 磁盘 可 以 以 热 插 拔 方式 插 到 背 板 上 对 应 的 接口 。 另 一 个 通道 使 用 上 文 所 述 的 4 权 
SAS 线 费 连 接 外 置 SAS 接口 的 磁盘 阵列 。 如 果 在 这 块 SAS 卡 上 设计 有 独立 的 Raid 芯片 或 者 直接 
集成 到 SAS IO Processor 中 ， 那 么 这 块 卡 就 变 为 了 一 块 可 接 SAS 或 者 SATA 硬盘 的 Raid 卡 了 。 


4 Lane Exlermal PCB Receplacde & Cable 
SFF-8470 一 with Jackscrews 


图 9-27 SAS 适配器 内 部 连 线 示意 图 
由 于 SAS 和 SATA 硬盘 的 接口 是 相同 的 ,所 以 自然 想到 是 否 SATA 硬盘 也 可 以 接 入 SAS 网 络 
呢 ? 答案 是 肯定 的 。SAS 协议 利用 STP ( SATA Tunneling Protocol ) 来 兼容 SATA 协议 , 对 SATA 
节点 的 数据 收发 ，SAS 是 将 数据 封装 在 SAS 协议 帧 中 传递 的 ， 数 据 到 达 SATA 节点 后 ， 解 封装 ， 
然后 再 由 SATA 节点 处 理 。 这 一 点 FC 自身 是 无 法 做 到 的 , 而 需要 一 个 SCSI-ATA 协议 转换 器 ( 前 


文 所 述 的 SR1216 芯片 ) 以 及 一 个 SATA-FC 接口 转换 器 ( 前 文 所 述 的 SATA-SCA2 转换 板 ) 来 
实现 。 


提示 : 对 于 物理 接口 转换 器 ， 有 一 点 需要 了 解 ， 即 SATA 盘 只 有 一 个 数据 接口 ,而 FC 磁 
盘 有 两 个 逻辑 数据 接口 (包含 在 一 个 物理 SCA2 接口 中 ) ,所 以 接口 转换 器 又 被 称 为 Port 
Multiplexer， 即 前 端 实现 两 个 逻辑 接口 ( 对 于 FC 来 讲 ) 或 者 两 个 物理 PHY ( 对 于 SAS 来 
讲 ) ， 而 后 端 连接 同一 个 SATA 物理 接口 ， 转 换 器 将 前 端的 所 有 接口 都 映射 到 后 端的 一 
个 接口 ， 并 且 在 前 端 虚拟 出 两 个 物理 接口 地 址 以 用 于 前 端 网 络 的 寻 址 操作 。 这 种 接口 转 
换 板 又 被 某 些 厂家 称 为 “Dongle”。 
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SAS 作为 一 个 交换 网 络 ， 那 么 理所当然 的 就 应 该 有 对 应 的 交换 媒介 ， 即 交换 机 ,或 者 交换 芯 
片 。 让 我 们 来 看 一 张 PMC-Sierra 公司 所 设计 的 一 款 36 端口 SAS 交换 芯片 (PM8387 ) 的 架构 ， 
如 图 9-28 所 示 。 


图 9-28 SAS 交换 芯片 架构 

图 中 XBAR 代表 Crossbar， 即 这 款 芯 片 内 包含 一 个 基于 Crossbar 架构 的 交换 矩阵 用 来 在 各 
个 PHY 之 间 进 行 高 速 交 换 。XBAR 左 侧 连接 了 36 个 PHY, 每 个 PHY 前 端 是 8/10b Serdes ( 串 
化 解 串 化 器 ) ， 由 于 数据 在 芯片 内 部 都 是 并 行 传递 的 ， 到 芯片 外 部 之 前 都 需要 经 过 串 化 过 程 和 
8/10b 编码 过 程 ， 而 从 芯片 外 部 到 内 部 的 数据 则 执行 相反 过 程 。SXL 表示 SAS Expander Link， 
其 中 Expander 就 表示 SAS 交换 芯片 , 因为 交换 芯片 可 以 让 众多 节点 所 连接 并 且 通 信 , 所 以 又 叫 
做 Expander， 即 扩展 器 。 芯 片 中 包含 的 另 一 个 部 件 为 一 个 32b 的 MIPS 核心 处 理 器 ， 这 个 处 理 
器 执行 Firmware 以 实现 SES、SMP ( 下 文 描述 ) 和 其 他 一 些 外 部 信号 ( 比如 指示 灯 、Debug 接 
口 、 监 控 ) 处 理工 作 。XBAR 右 侧 为 各 种 信号 总 线 和 接口 。XBAR 中 的 Arbiter， 即 仲裁 器 ， 负 
责 协调 各 个 PHY 之 间 发 起 的 通信 并 控制 Crossbar 将 数据 交换 到 正确 的 目的 。 这 里 不 要 被 其 名 称 
所 误导 ，SAS 不 使 用 仲裁 共享 方式 ， 具 体 数据 收发 方式 后 文 描述 。 
9.4.2 ”SAS 链 路 层 

对 于 SAS 的 链 路 层 协 议 内 容 ， 比 如 帧 的 组 成 结构 、 帧 同步 、 链 路 错误 恢复 等 由 于 太 过 底层 ， 
请 想 了 解 的 读者 自行 参考 SAS 协议 文本 ( 大 部 分 帧 结构 都 与 FC 类 似 ) 。 这 里 只 简要 介绍 一 下 SAS 
链 路 层 与 FC 的 一 个 最 大 的 不 同 之 处 以 及 速率 适 配 方面 。 

SAS 在 链 路 层 使 用 面向 连接 的 交换 技术 。Initiator 向 Target 发 起 通信 之 前 必须 建立 好 连接 ， 
但 是 要 与 传输 层 的 端 到 端 连接 相 区 别 开 ( SAS 的 传输 层 也 有 连接 ， 下 文 描述 ) 。SAS 链 路 层 的 连 
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接 指 的 是 在 一 个 SAS 网 络 内 的 两 个 PHY 的 通信 路 径 中 的 所 有 Expander 内 部 ， 都 将 为 这 条 通信 保 
持 相应 的 资源 ,比如 Crossbar 和 矩阵 内 的 交换 路 径 。 某 个 Initiator 和 Target 对 初次 收发 数据 时 ,Crossbar 
上 的 Arbiter， 或 者 叫 Connection Manager 会 检测 并 且 在 Crossbar 内 新 建 一 条 路 径 ， 以 便 将 它们 之 
间 的 数据 通过 恒定 的 路 径 发 送 到 下 一 条 Expander 的 端口 ， 下 一 条 Expander 再 做 相同 的 动作 直到 
数据 达到 最 终 Target。 连 接 是 在 每 个 PHY 之 间 建 立 的 ， 如 果 使 用 宽 端 口 ， 则 每 个 PHY 之 间 都 会 
为 对 应 的 OPEN 请 求 建立 连接 , 因为 每 个 PHY 之 间 都 有 链 路 , 所 以 需要 保留 对 应 的 资源 和 路 径 。 
具体 连接 发 起 和 结束 的 过 程 如 下 。 
(1 ) Initiator 端的 链 路 层 首先 通过 PHY 接口 向 其 连接 的 Expander 发 起 一 个 OPEN 帧 ， 帧 中 
携带 的 是 Target 端 PHY 的 SAS 地 址 。 
(2 ) 本 地 Expander 收 到 之 后 ,首先 返回 AIP 帧 ( Arbitration In Progress ) ， 这 期 间 ，Expander 
会 为 这 个 请 求 分 配 资源 。 由 于 Expander 需要 维持 很 多 Initiator 和 Target 的 连接 ， 有 时 资 
源 不 够 的 话 ， 分 配 的 资源 会 相 冲 突 , 需要 根据 SAS 地 址 来 判断 连接 的 优先 级 以 便 有 限 分 
配 高 优先 级 连接 的 资源 ， 这 个 过 程 就 是 仲裁 ， 但 是 它 与 FCAL 的 仲裁 有 着 本 质 的 不 同 。 
(3 ) Arbitration 成 功 之 后 ， 在 Expander 内 为 其 保留 恒定 资源 和 Crossbar 路 径 ， 然 后 将 这 个 帧 路 
由 到 Target 所 在 的 Expander， 途 中 经 过 的 所 有 Expander 都 会 为 这 个 初始 连接 分 配 恒定 资 
源 和 路 径 。 
(4 ) Target 端的 链 路 层 接收 到 OPEN 请 求 之 后 ,向 Initiator 端 返回 一 个 OPEN_ACCEPT 帧 。 
连接 建立 。 
需要 关闭 连接 的 时 候 ，Initiator 端 发 送 CLOSE 帧 。 
图 9-29 所 示 为 连接 发 起 和 接收 期 间 的 步骤 。 


OPEN SOAF idle dwords 
address|8 data dwords 
frame EOAF 
idle 
dwords AIP 
idle dwords 
AlIP 
idle dwords 
AlP 
idle dwords 


OPEN_ACCEPT 
Or OPEN_REJECT 


图 9-29 SAS 连接 发 起 和 接收 过 程 
对 于 适 配 不 同 速率 的 设备 ，SAS 的 链 路 层 通过 在 快速 链 路 上 插入 对 应 长 度 的 ALIGN 元 余 数 
据 来 保持 速率 适 配 ， 如 图 9-30 所 示 。 
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Physical link A Physical link B Physical link C 
30 Gbps 15 Gbps 0 Gbps 
physical regotiated physical regotiated physical 
link rate inkrate ink rate 
(inserts (removes (inserts (removes 
ALIGNs) ALIGNs) ALIGNs) ALIGNs) 
1.5 Gbps 1,5 Gbps 15Gbps 
connection connection connection 
外 rate mte 


图 9-30 SAS 的 速率 适 配 


9.4.3 ”SAS 网 络 层 


作为 一 个 网 络 ，SAS 当然 也 需要 编 址 和 寻 址 。SAS 网 络 中 的 每 个 节点 使 用 的 地 址 与 FC 网 络 
类 似 , 也 是 一 个 64b 长 度 的 定 长 地 址 , 也 叫做 WWN; 但 是 与 FC Fabric 不 同 的 是 ,SAS 直接 使 用 
这 个 64b 地 址 来 路 由 数据 包 ， 而 FC Fabric 则 使 用 另外 分 配 的 24b 的 Fabric ID 来 路 由 数据 包 。 编 
址 是 为 了 寻 址 , 寻 址 就 需要 有 地 址 表 , 或 者 叫做 路 由 表 。 每 个 Expander 上 运行 着 一 种 协议 ， 用 来 
执行 整个 系统 中 的 Expander 发 现 以 及 路 由 条 目 学 习 , 这 种 协议 叫做 SMP, 全 称 为 Serial Management 


Protocol。 


我 们 首先 来 看 只 有 一 个 SAS 交换 机 或 者 交换 芯片 (或 者 SAS Expander ) 的 情况 下 ，SAS 


终端 节点 ， 就 属于 直 连 模式 ，Expander 在 获取 到 它们 的 地 址 之 后 ， 会 将 这 些 地 址 加 入 路 由 表 ， 并 
标明 路 由 条 目的 模式 属于 “D” 类 型 ， 即 Direct。 如 图 9-31 所 示 , 一 个 12 端口 的 SAS Expander 
上 接 入 了 4 块 SAS 磁盘 ，SAS 磁盘 为 终端 设备 ，Expander 会 将 这 4 条 记录 收录 到 路 由 表 中 , 并 标 
明 为 D 类 型 。 图 中 的 SMP 表示 Serial Management Protocol, SMP 在 这 里 是 一 个 抽象 的 对 象 , 它 作 
为 一 个 实体 路 由 协议 和 管理 程序 运行 在 每 个 Expander 上 , 所 以 这 里 用 它 来 代表 每 个 Expander。 由 
于 目前 的 Expander 是 系统 中 唯一 的 一 个 , 所 以 编号 为 SMP0, 并 且 对 应 了 一 个 虚拟 的 PHY12 (第 
13 个 PHY 并 不 存在 ) 。 

此 时 ， 我 们 再 增加 一 个 Expander， 将 这 两 个 Expander 级 联 起 来 ， 并 且 在 第 二 个 Expander 上 
也 连接 4 块 SAS 磁盘 。 此 时 的 路 由 表 如 图 9-32 所 示 。 
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HDD4 HDDS HDD6 HDD7 


WWN 地 址 | 次 A 
os es ooo vl ss www | mmr | xn | 

1 PHYIL HDDL D 0 HDDo PHYO oD 0 HoD4 PHYO op 

a PHY2 Hpo2 o 1 HDol PH op 1 nop5 Phml ob 

3 PHY3 HDD3 D 2 HDD2 PHY2 D 2 HDD6 PHY2 D 

4 i i 记 3 Hoo3 Prv3 oD 3 Hop7 Prv3 D 

4 Hoo4 Phv4s67 T 4 Hopo PHvasal0l TT 

5 HDD5 PHY45.67 TT 5 HDDL PHY8.91011 7 

5 Hoo6 PHY4567 T 5 Hop2 PHva910l  T 

7 HDD7 PHY45.67 TT re HOD3 PHY8,9101 TT 

spo Pm2 po SMPL 日 

HDDO HDD1 HDD2 HDD3 9 SMP1 PHY45.67 D 9 SMPO PHY8.94041 DD 

图 9-31 SAS 的 寻 址 图 9-32 SAS 级 联 时 的 路 由 表 


上 图 中 出 现 了 一 种 新 的 路 由 类 型 ，T 类 型 ， 意 思 是 Table Routes， 暗 指 这 种 类 型 的 路 由 条 目 
是 通过 路 由 协议 学 习 而 得 来 的 ， 并 非 自己 本 地 直 连 的 路 由 条 目 。SMP1 表示 新 加 入 的 Expander 本 
身 。 然 而 ， 是 否 觉得 缺 了 点 什么 呢 ? 是 的 ， 磁 盘 和 磁盘 之 间 是 不 会 通信 的 ， 磁 盘 只 是 作为 Target 
端 来 等 待 mitiator 端 来 发 起 指令 。 很 显然 Expander 不 是 这 个 Initiator。 我 们 需要 向 这 个 由 两 交换 机 
(芯片 ) 组 成 的 网 络 中 添加 一 个 SAS Initiator， 如 图 9-33 所 示 。 


[rs Touts 
Freer 

o HODO PHYO D HDD4 PHYO oD 
1 HODL PHYL D 1 HDD5 PHYL D 
|3 HDD2 PHY2 D 2 HDD6 PHY2 D 
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4 HDO4 PHY4567 TT EJ HODO PHYB910 TT 
5 HDD5 PHY4567 TT 5 HDDi PHY891011 7 
[3 HDD6 PHY4567 TT 6 HOD2 PHYa910N TT 
7 HDD7 PHY4567 TT 7 MDD3 PHY8.9.0 1 
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图 9-33 SAS Initiator 的 引入 

上 图 中 ，Expander0 的 路 由 表 中 增加 了 一 个 条 目 ， 即 它 所 连接 的 有 一 个 直 连 终端 , HOSTO 上 
的 SAS 适 配 卡 ， 路 由 类 型 为 “D,S”，D 为 直 连 类 型 。S 即 Subtrmactive， 意 义 为 默认 路 由 ， 即 ， 如 
果 某 个 数据 帧 无 法 从 D 或 者 工 类 型 的 路 由 条 目 中 找到 目的 地 址 , 那么 统统 向 S 类 型 路 由 条 目 对 应 
的 PHY 接口 转发 出 去 。SAS 卡 和 Expander0 之 间 同 样 运行 着 SMP 协议 ，Expander0 会 学 习 到 SAS 
卡 为 mitiator 端 ， 所 以 ，Expanderl 也 会 学 习 到 这 条 路 由 ， 但 是 Expanderl 的 路 由 表 中 的 默认 路 由 
显然 应 该 设置 为 SMP0， 即 将 具体 路 由 未 知 的 数据 帧 从 连接 SMP0 的 PHY 转发 出 去 。 另 外 ， 
Expanderl 也 会 同时 学 习 到 HOST0 路 由 条 目 , 但 是 不 将 其 作为 S 类 型 , 因为 S 类 型 路 由 存在 的 意 
义 是 可 以 在 路 由 表 中 不 保存 HOST 端的 条 目 ， 在 主机 数量 很 大 的 时 候 ， 有 利于 保证 路 由 效率 。 
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SAS 协议 规定 , 可 以 由 多 个 Expander 任意 连接 而 组 成 一 个 SAS 网 络 , 但 是 这 个 网 络 可 以 接 入 
的 最 大 的 终端 节点 不 能 超过 128 个 , 这 个 一 级 SAS 网 络 中 所 有 的 Expander 组 成 一 个 Expander set。 
如 果 要 达到 更 大 的 接 入 容量 ,需要 一 个 核心 Expander， 这 个 Expander 可 以 最 多 具有 128 个 PHY， 
可 以 接 入 最 多 128 个 上 述 的 Expander Set。 此 核心 Expander 称 为 “Fanout Expander”， Expander Set 
中 的 Expander 称 为 “Edge Expander”。 这 样 ， 最 大 的 SAS 网 络 中 可 接 入 的 总 容量 为 128 x 128 再 
减 掉 Expander 互联 所 耗费 的 端口 数 。 图 9-34 所 示 为 Fanout Expander 与 Edge Expander 的 互联 示 
意图 。Fanout Expander 作为 整个 SAS 网 络 的 核心 , 其 上 不 允许 再 有 S 类 型 的 路 由 , 只 能 有 D 和 工 
类 型 的 路 由 。Edge Expander 连接 Fanout Expander 的 PHY ,对 应 这 个 PHY 的 路 由 皆 为 $ 类 型 路 由 ， 
因为 Edge Expander 只 能 将 未 知 条 目 转 发 给 核心 。 


图 9-34 Fanout 与 Edge 的 互联 
每 个 独立 的 SAS 网 络 被 称 为 一 个 Domain。 


9.4.4 ”SAS 传输 层 和 应 用 层 


SAS 网 络 目前 有 3 种 应 用 协议 : 一 是 SSP ( Serial SCSI Protocol ) , 二 是 STP ( SATA Tunneling 
Protocol ) ， 三 是 SMP ( Serial Management Protocol ) 。 说 它们 为 应 用 层 协 议 既 恰当 又 不 恰当 ， 
为 相对 于 SAS 本 身 来 讲 ， 它 们 确实 是 处 于 应 用 层 ， 但 是 相对 于 整体 系统 来 讲 ， 它 们 又 都 处 于 传输 
层 (SSP 和 STP ) 或 网 络 层 ( SMP ) 。 这 三 种 协议 在 传输 数据 之 前 都 需要 首先 由 Initiator 向 Target 
端 发 起 连接 请 求 ， 这 种 上 层 的 连接 请 求 也 同时 被 映射 到 了 链 路 层 ， 链 路 层 也 会 建立 相应 的 连接 ， 
如 前 文 所 述 。 


1..SSP 


SSP 是 一 套用 于 在 Initiator 和 Target 之 间 传 输 SCSI 指令 的 传输 保障 协议 , 与 FC 中 的 FCP 层 
充当 相同 的 角色 。 我 们 知道 SCSI3 规范 已 经 将 SCSI 上 层 指令 与 底层 传输 系统 相 分 离 , SSP 在 此 就 
作为 SCSI 指令 的 传输 系统 , SSP 会 保障 SCSI 指令 和 数据 以 及 对 指令 的 响应 成 功 地 被 传送 和 接收 。 
9-35 所 示 为 SSP 的 帧 结构 。 图 9-36 所 示 为 SSP 的 帧 类 型 ， 包 含 COMMAND、TASK、 
XFER_RDY、DATA、RESPONSE 五 种 类 型 。 
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图 9-35 SSP 的 帧 结构 
图 9-37 所 示 为 SSP 执行 TSAK 管 
SSP 发 起 SCSI 指令 时 的 步骤 。 


9-36 SSP 的 帧 类 型 
理 任务 时 所 发 送 的 指令 和 返回 流程 步骤。 图 9-38 所 示 为 


SSP niiator port SSP target port 
SSP initiator port SSP target port 
SendSCS| | 一 COMMAND fame—» | SCSI Command Receved 中 
Send Task ny i Command () 
Management | 一 一 fame—> | Management 
Request () Request 
Received () 
Command 
ee TRESPONSE fame— | Song Command Complete ( 
Recelved Task | RESPONSE frame— Task 
Management Management 
Function Function 
Executed () Executed () 
fime time tm v time 


图 9-37 SSP 设备 控制 指令 步骤 


图 9-38 SSP 发 起 SCSI 指令 时 的 步骤 


图 9-39 所 示 为 SSP 执行 SCSI Read 指令 时 的 步 又。 图 9-40 所 示 为 SSP 执行 SCSI Write 指 


令 时 的 步骤 。 
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Received |) Received () 
time VY time ime ™ lime 
图 9-39 SSP 执行 SCSI Read 指令 时 的 步骤 图 9-40 SSP 执行 SCSI Write 指令 时 的 步骤 
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2. STP 


STP 是 一 套用 于 在 Initiator 和 Target 之 间 传 送 SATA 指令 的 传输 保障 协议 。 由 于 SATA 协议 


与 SCSI 协议 完全 是 两 套 上 层 协议 ， 不 仅 指令 描述 方式 和 结构 不 同 ， 
不 同 , 所 以 STP 就 是 将 SATA 协议 的 底层 传输 逻辑 拿 了 过 来 ， 并 将 其 承载 于 SAS 底层 ( 物理 层 + 


而 且 在 底层 传输 的 控制 上 也 


链 路 层 + 网 络 层 ) 进 行 传输 。 其 实 这 里 说 SATA Tunneling 也 具有 一 定 的 误导 性 , 可 能 会 误 认为 SCSI 


就 不 需要 Tunneling。 其 实 不 管 是 SCSI 还 是 SATA， 它 们 都 是 以 不 同 


程度 的 Tunnel+Map 的 方式 


被 承载 于 SAS 网 络 上 传递 。 可 以 参考 本 书后 面 章 节 来 了 解 协议 之 问 的 相互 作用 问题 。 图 9-41 所 


示 为 STP 执行 SATA 指令 时 的 步 又。 


SNTASYNC SATA_SYNC 
Request = SATAJX_RDY 
permisslon 
SATA_R_RDY 
Grant 
Sa permission 
Data dwords 
fram 
sR wal 


dle SATA_SYNC 


SATA_SYNC 


图 9-41 STP 执行 SATA 指令 时 的 步骤 


3. SMP 


SMP 是 一 种 对 SAS 网 络 内 所 有 Expander 进行 管理 的 协议 ， 包 括 Expander 拓扑 发 现 和 路 由 协 
议 。 由 Initiator 端 建立 连接 后 向 Target 端 发 起 查询 请 求 ，Target 只 能 响应 Initiator 的 查询 而 不 能 主 
动向 Initiator 发 送 消 息 。 这 里 大 家 可 能 有 个 疑问 , 即 不 管 是 SSP 中 的 Target 还 是 STP 中 的 Target， 
它们 都 是 有 实在 的 物理 存在 的 东西 来 对 应 的 ， 比 如 SSP 的 Target 就 是 某 PHY 后 面 的 SAS 磁盘 ， 
STP 的 Target 就 是 某 PHY 后 面 的 SATAC 盘 。 那 么 SMP 中 的 Target 到 底 是 什么 呢 ? 上 文 讲 SAS 
路 由 表 时 曾经 提 到 过 一 个 Expander 上 的 虚拟 PHY， 对 应 了 一 个 SMP 设备 ， 其 实 SMP 的 Target 
就 是 整个 Expander 本 身 ，Expander 接收 到 针对 这 个 Target 的 消息 , 就 会 自己 做 处 理 而 不 是 转发 到 


其 他 某 个 PHY。 图 9-42 所 示 为 SMP 的 请 求 和 查询 步骤 。 


SMP initiator phy SMP target phy 


OPEN_ACCEPT 
Send 
equest 


ep SOF 
SMP_REQUEST frame 


EOF 

idle dwords 
SOF 
SMP_RESPONS 
EOF 
Idle dwords (optlonal) 
CLOSE 

CLOSE 


图 9-42 ”SMP 的 请 求 和 查询 步骤 
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9.4.5 ”SAS 的 应 用 设计 和 实际 应 用 示例 


SAS Expander 芯片 有 多 种 Phy 接口 数量 可 供 选 择 ， 比 如 16/24/32/36 等 。 提 供 不 同 的 Phy 数 
量 是 为 了 满足 磁盘 阵列 厂商 所 设计 的 不 同 盘 位 的 扩展 柜 。 每 个 SAS 磁盘 扩展 柜 里 面 基本 上 有 两 个 
SAS Expander, 这 两 个 Expander 各 自 连接 到 这 个 柜子 中 的 所 有 SAS 磁盘 ,每 个 SAS 盘 两 个 SAS Phy。 
这 两 个 Expander 还 分 别 要 连接 到 上 行 和 下 行 的 其 他 扩展 柜 或 者 机 头 , 最 项 上 是 机 头 , 机 头 里 也 要 
有 Expander (做 Table Routing ) ， 用 来 连接 SAS 控制 器 芯片 以 及 扩展 柜 里 的 Expander。 机 头 中 的 
Expander 相当 于 一 个 总 桥 ， 总 桥 再 分 别 出 4 个 Phy 连接 到 上 行 外 部 主机 和 下 行 扩展 柜 中 的 
Expander，12 盘 位 的 可 以 估算 它 的 扩展 柜 单 片 SAS Expander 芯片 接口 规格 : 12+4 x 2=20 口 芯片 ， 
24 盘 位 的 则 使 用 36Phy 的 SAS Expander 芯片 扩展 柜 与 扩展 柜 之 间 用 SAS 线 缆 连 起 来 , 一 般 都 是 4 
个 Phy 并 联 的 宽 端 口 。 
如 图 9-43 所 示 ， 在 磁盘 扩展 柜 中 使 用 SAS Expander 而 不 是 FC Loop Switch 芯片 ， 其 他 设计 
保持 相同 , 那么 一 款 SAS 扩展 柜 就 被 打造 出 来 了 。 多 个 扩展 柜 通 过 Expander 间 的 级 联 就 可 以 扩大 
到 比较 可 观 的 容量 。 主 机 接口 以 及 Expander 间接 口 都 使 用 4X 宽 端 口 以 保持 级 联 带宽 ， 这 样 ， 系 
统 吞吐 量 上 也 可 以 保持 高 水 准 。 总 体 来 讲 ，SAS 比 FC 实惠 、 量 足 。 

如 图 9-44 所 示 为 HDS 公司 AMS2000 系列 磁盘 阵列 的 后 端 架构 图 ， 很 明显 它 使 用 PMC 
公司 的 Expander 芯片 。 


From hos 
expander| 


we 二 : 
| 
图 9-43 SAS 控制 器 图 9-44 AMS2000 的 控制 器 后 端 
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9.4.6 ”SAS 目前 的 优势 和 面临 的 挑战 


1. SAS 目前 相对 于 FC 的 优势 


SAS 能 够 使 用 宽 端 口 来 提供 较 高 的 带宽 ， 这 一 点 已 经 可 以 与 8Gb FC 接口 媲美 并 且 超出 了 后 
者 50% 的 速率 。 另 外 ，SAS 使 用 STP 协议 来 承载 SATA 协议 ,使 得 SAs 和 SATA 磁盘 可 以 同时 存 
在 于 同一 个 存储 系统 中 ， 甚 至 可 以 混 插 在 同一 个 磁盘 柜 中 ， 这 一 切 都 不 需要 上 层 做 过 多 的 更 改 ， 
只 要 在 Initiator 端的 上 层 协议 处 理 模 块 中 加 入 ATA 支持 即 可 , 或 者 统一 使 用 SCSI, 然后 在 其 下 层 
增加 一 个 SCSI-ATA 翻译 层 。 FC 在 理论 上 当然 也 可 以 被 开发 承载 SATA 协议 , 但 是 目前 FC 尚未 
提供 类 似 FCP 的 映射 层 来 适 配 SATA 协议 。 

SAS 相对 于 FC 来 说 ， 其 成 本 较 低 ， 体 现在 SAS Expander 和 SAS 磁盘 上 。 目 前 一 片 12 端口 
3Gb/s 的 Expander 芯片 的 价格 大 概 在 35 美元 左右 。 而 SAS 硬盘 在 盘 片 、 转 速 、 机 械 辟 、 磁 头等 
的 设计 参数 和 用 料 上 与 高 端 FC 硬盘 相同 ， 唯 一 的 区 别 就 在 于 外 部 接口 使 用 的 协议 不 同 ， 所 以 设 
计 也 不 相同 ， 但 是 SAS 磁盘 却 比 FC 磁盘 廉价 。 由 于 磁盘 主要 的 瓶颈 在 于 平均 寻 道 时 间 和 平均 旋 
转 延 迟 以 及 转速 , 加 上 存储 控制 器 对 后 端 所 有 磁盘 的 Raid 化 和 虚拟 化 之 后 , 实际 使 用 的 时 候 , 在 
外 部 接口 速率 相差 不 大 的 情况 下 ， 磁 盘 接口 速率 对 系统 整体 性 能 影响 不 大 。 


2. SAS 目前 面临 的 挑战 


SAS 的 一 个 最 大 挑战 是 其 连接 线 缆 。 目 前 的 产品 都 是 使 用 铀 缆 ， 这 就 导致 其 传输 距离 非常 受 
限 ， 通 常 最 大 距离 被 限制 在 10 米 。 而 且 线 缆 较 粗 较 硬 ， 不 利于 布线 。 这 种 限制 直接 限制 了 SAS 
的 发 展 。 比 如 实现 前 端 网 络 化 的 时 候 ， 多 台 主 机 与 多 台 磁 盘 阵 列 都 需要 连接 到 SAS 交换 机 
(Expander ) 上 ， 而 由 于 较 粗 较 短 较 硬 的 线 缆 的 限制 ，SAS 交换 机 就 显得 很 蓝 粹 ， 所 以 SAS 交换 机 
也 一 直 没有 实际 产品 。 这 些 因素 导致 了 SAS 目前 被 应 用 的 范围 非常 窗 ,， 比 如 ， 普 遍 应 用 于 主机 本 
地 内 置 磁盘 。 在 用 于 磁盘 阵列 设计 的 时 候 ， 主 要 使 用 在 后 端 ， 而 前 端 依然 为 EC， 比如 HDS 公司 
AMS2000 产品 。 但 是 也 有 一 些 前 端 后 端 都 使 用 SAS 的 产品 , 但 是 这 些 产 品 均 被 定位 于 低 端 , 比如 
IBM DS3200, 由 于 前 端 只 能 连接 一 台 或 者 两 台 主 机 ( 一 个 或 两 个 SAS 宽 端口 ) , 其 扩展 性 被 限制 ， 
所 以 只 能 被 定位 到 低 端 。 
SAS 的 另外 一 个 挑战 是 其 单 PHY 的 速率 ,当前 普遍 使 用 的 SAS 接口 磁盘 速率 为 单口 3Gb/s， 
相对 于 FC 的 4Gb/s 来 讲 还 是 相差 了 25%。 但 是 ， 目 前 6Gb/s 的 单 PHY 速率 刚刚 露头 并 有 了 实 
际 产 品 ， 令 人 欣慰 的 是 ， 在 尚未 有 8Gb/s FC 接口 的 磁盘 产品 出 现 之 前 ， 已 经 出 现 了 SAS 6Gb/s 
接口 的 磁盘 ， 这 充分 说 明 SAS 的 发 展 是 飞快 的 ， 而 FC 又 处 于 了 一 种 是 走 是 留 还 需要 观望 的 状 
态 之 中 。 而 SAS 下 一 个 目标 是 单 PHY 速率 12Gb/s。 照 SAS 目前 的 发 展 速 度 ,FC 的 卫冕 之 路 将 
会 更 加 艰难 。 

不 过 , 在 2010 年 新 发 布 的 存储 系统 比如 HDS VSP 及 IBM Storwize V7000， 以 及 包括 EMC 
的 新 一 代 CX 存储 系统 中 , FC 磁盘 已 经 悄悄 地 从 这 些 存 储 系统 的 支持 列表 中 消失 了 。 但 是 存储 前 
端 供 主机 访问 的 网 络 类 型 ，FC 依然 处 于 主导 地 位 。 相 信 在 光 连 接 的 SAS 出 现 之 后 ， 前 端 也 很 有 
可 能 彻底 被 SAS 革 掉 。FC 革 掉 了 SCSI，SAS 又 把 FC 从 后 端 革 掉 了 。 
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9.5 ”中 高 端 磁盘 阵列 整体 架构 简 析 


图 9-45 所 示 为 NetApp 的 FAS6000 系列 实物 图 ， 其 中 间 部 分 为 两 个 机 头 ， 其 余 均 为 扩展 柜 。 
中 高 端 盘 阵 一 般 都 会 配 有 两 个 控制 器 ， 不 但 可 以 作为 元 余 ， 而 且 可 以 分 担 后 端 不 同 的 环 路 。 
图 9-46 是 一 个 典型 的 双 控 制 器 ， 且 前 后 端 均 为 FC 架构 的 磁盘 阵列 拓扑 示意 图 。 


前 沽 FC 接口 以 大 朵 接口 和 亲 济 FC 接口 
《N 半 型 ) COMD (本 到 用 ) 《N 英 型 ) 


| RR 
ER ET 
(Ls EY 


二 一 本 = 
T ' T 
LLILILLLI L1111I 

Ce ef ee ed ee ed Bee 

i 电源 用 


图 9-45 NetApp 公司 FAS6070 磁盘 阵列 9-46 ”全 FC 架构 磁盘 阵列 
图 9-46 所 示 的 机 头 〈 控制 器 所 在 的 机 柜 ) 中 不 包含 磁盘 。 实 际 产 品 中 ， 有 些 由 于 控制 器 主 
板 比较 小 , 机 头 本 身 也 可 以 放 入 若干 磁盘 。 但 是 有 些 高 端 产品 的 控制 器 主板 做 得 比较 大 ,IO 适 配 
器 比较 多 ， 再 加 上 电源 模块 和 风扇 模块 ， 造 成 机 头 内 部 空间 不 足以 放下 多 余 的 磁盘 。 
如 图 9-46 所 示 ， 每 个 控制 器 上 有 4 个 前 端 FC 接口 和 4 个 后 端 FC 接口 。 每 个 后 端 FC 接口 
可 以 连接 到 一 个 FC-AL 环 路 。 为 了 宛 余 ,两 个 控制 器 的 后 端 FC 端口 必须 连接 到 相同 的 扩展 柜上 ， 
所 以 这 台 盘 阵 可 以 连接 的 FC-AL 的 Loop 总 容量 为 4 个 。 
其 实 ， 磁 盘 阵 列 控制 器 本 身 就 是 一 个 现代 计算 机 系统 ， 它 由 IO 设备 、 运 算 器 、 存 储 器 、 软 
件 组 成 。 
" IO 设备 : 包括 后 端 FC 适配器 、 前 端 FC 适配器 、 管 理 用 COM 口 、 以 太 网 口 、LCD 液 
晶 显 示 板 、 指 示 灯 以 及 各 种 适 配 卡 。 控 制 器 从 后 端的 磁盘 上 提取 数据 , 经 过 虚拟 化 之 后 ， 
发 送 给 前 端的 主机 。 控 制 器 从 前 端的 FC 端口 处 接收 主机 发 送 的 指令 和 数据 ， 经 过 去 虚 
拟 化 运算 之 后 , 通过 后 端 FC 端口 写 入 扩展 柜 中 的 磁盘 。 这 就 是 控制 器 工作 的 基本 原理 。 
" ”运算 器 : 完成 上 述 虚拟 化 和 去 虚拟 化 过 程 所 需要 的 运算 单元 。 控制 器 可 以 选用 通用 CPU 
来 作为 运算 器 ， 也 可 以 选用 或 辅 以 专用 ASIC 芯片 来 完成 运算 。 随 着 现代 盘 阵 系统 虚拟 
化 功能 的 日 益 强 大 , 软件 逻辑 越发 复杂 起 来 , 通用 CPU 加 软件 就 成 了 普遍 使 用 的 组 合 。 
至 于 ASIC 等 硬件 只 是 作为 一 种 IO 设备 而 存在 , 辅助 CPU 进行 专用 逻辑 的 运算 , 并 把 
结果 返回 给 CPU， 目 的 是 将 CPU 从 这 种 专用 运算 中 解脱 出 来 。 
"存储器: 包括 高 速 缓存 存储 器 和 外 部 低速 永久 存储 器 。 现 代 中 高 端 盘 阵 几 乎 都 是 使 用 带 
ECC 错误 纠正 的 DDR SDRAM 作为 高 速 缓存 。 这 个 高 速 缓存 既 充 当 虚 拟 化 软件 运行 时 
的 空间 ， 又 充当 两 端 数 据 流 的 缓存 空间 。 
" ”软件 : 由 于 虚拟 化 引擎 越 来 越 强大 ,新 的 功能 和 概念 层出不穷 ， 单 纯 使 用 精简 的 内 核 和 
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精简 的 代码 已 经 远 远 不 能 满足 功能 需求 和 开发 难 易 度 需求 。 所 以 目前 很 多 磁盘 阵列 控制 
器 都 是 基于 某 种 操作 系统 内 核 的 , 比如 Linux、VxWorks、Windows、UNIX 等 。 操 作 系 
统 不 但 提供 了 硬件 管理 层 ， 还 提供 了 方便 的 API。 这 些 层次 的 划分 使 开发 人 员 只 需要 专 
心 设 计 上 层 虚 拟 化 程序 而 不 是 全 盘 兼 顾 。 盘 阵 的 操作 系统 和 应 用 程序 可 以 被 存放 在 后 端 
的 磁盘 上 ,也 可 以 用 专门 的 外 部 存储 设备 存放 -NetApp 的 FAS 系列 产品 就 是 用 一 块 Flash 
卡 来 存放 其 操作 系统 和 应 用 程序 的 。 


图 


9-46 的 下 方 是 一 个 扩展 柜 ， 其 中 插 了 16 块 FC 接口 的 磁盘 。 左 边 控制 器 的 第 一 个 FC 接 


口 通过 光纤 连接 到 了 扩展 柜 左 边 的 接口 (一 般 为 SFP 接口 ) ， 线 路 将 扩展 柜 内 所 有 16 块 磁盘 囊 
接 起 来 形成 了 一 个 Loop。 然 而 ，16 块 磁盘 是 远 远 不 够 的 ， 怎 么 在 这 个 Loop 中 接 入 更 多 磁盘 呢 ? 
肯定 是 要 增加 扩展 柜 的 数量 ， 还 必须 将 多 个 扩展 柜 中 的 磁盘 都 串 接 到 一 个 Loop 上 。 所 以 在 每 个 
扩展 柜 的 左边 接口 板 上 都 有 两 个 SFP 光纤 接口 ， 一 个 进 ， 一 个 出 。 这 样 就 可 以 把 多 个 扩展 柜 中 的 
磁盘 都 电 在 一 起 形成 一 个 Loop， 接 入 控制 器 的 一 个 后 端 FC 接口 。 

扩展 柜 右 边 的 接口 板 与 左边 构造 和 连接 方法 相同 ,只 不 过 右边 的 接口 需要 连接 到 机 头 右边 的 
控制 器 上 ， 形 成 元 余 。 这 样 一 旦 左边 的 控制 器 故障 ， 右 边 的 控制 器 可 以 立即 接管 所 有 工作 。 


提示 : 扩展 柜 虽然 说 通常 是 一 个 JBOD, 但 是 随 着 SBOD 技术 的 普及 , 扩展 柜 也 变 得 复杂 


起 
供 


来 。 SBOD 技术 需要 一 系列 智能 芯片 。 柜 子 中 的 磁盘 首先 要 插 到 一 个 背 板 上 , 背 板 上 提 
了 一 系列 的 SCA2 型 母 槽 。 在 背 板 上 一 定 有 某 种 接口 来 连接 这 一 系列 的 芯片 。 通 常 都 


是 将 这 些 功 能 芯片 单独 做 到 一 个 模块 上 ， 然 后 将 这 个 模块 与 背 板 对 接 ， 进 而 与 磁盘 接口 


对 接 通 信 。 


这 样 ， 如 果 为 了 实现 更 多 的 功能 ， 可 以 只 通过 更 换 模块 来 升级 ， 而 不 用 大 动 


王 戈 更 换 整 个 背 板 。 所 以 目前 几乎 所 有 三 家 的 盘 阵 扩展 柜 都 采用 这 种 设计 ， 在 柜子 后 面 


可 以 看 到 两 个 互 为 宛 余 的 模块 ， 它 们 都 连接 到 了 同一 个 磁盘 背 板 上 。 
9.5.1 IBM DS4800 和 DS5000 控制 器 架构 简 析 
1.DS4800 控制 器 架构 简介 
在 图 9-47 中 可 以 看 到 两 个 供电 模块 、 两 个 控制 器 模块 和 一 个 背 板 模块 ， 两 个 控制 器 都 连接 


到 了 背 板 上 。 


Controller Support Modules 
(Fans, power supplies) 


Interconnect Module 
(batteries, midplane) 


图 9-47 DS4800 机 头 三 维 示意 图 
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图 9-48 是 IBM DS4800 磁盘 阵列 的 双 控 制 器 机 头 的 背面 接口 图 。 图 中 的 Drive-side 
connections 代表 这 些 FC 端口 是 用 来 连接 磁盘 扩展 柜 的 ，Host-side connections 代表 这 些 FC 端口 
是 用 作 前 端 主 机 的 。 可 以 看 到 上 下 两 个 控制 器 是 互 为 元 余 的 ， 它 们 同时 插 在 机 头 的 背 板 上 ， 之 间 
有 专门 的 链 路 进行 通信 以 交互 各 自 的 信息 。 


4 Drive-side connections 


2 Ethemet connections 


(Controler A) 


(Controller B) 


图 9-48 DS4800 机 头 后 视图 
图 9-49 是 用 这 台 机 头 挂 接 16 个 扩展 柜 , 并 且 全 宛 余 的 架构 图 。 我 们 可 以 看 到 ， 每 个 控制 器 
的 后 端 接口 都 连接 了 4 个 扩展 柜 ， 这 4 个 扩展 柜 中 的 磁盘 同时 位 于 主 控制 器 的 一 个 Loop 和 备用 
控制 的 一 个 Loop 上 。 


Loop Pair 1 Loop Pair 2 Loop Pair 3 


图 9-49 DS4500 连接 16 个 扩展 柜 

一 旦 机 头 上 的 主 控制 器 发 生 故障 ， 备 份 控制 器 可 以 立即 接管 所 有 工作 ， 继 续 执行 IO 请 求 。 
因为 备份 控制 器 与 主 控制 器 一 样 与 所 有 扩展 柜 都 有 连接 。 
同样 , 一 旦 某 个 扩展 柜 发 生 故障 ,比如 电源 故障 ,整个 环 路 从 一 方 来 看 , 是 被 断 开 的 。 但 是 ， 
其 他 扩展 柜 依 然 可 以 被 访问 到 ， 办 法 就 是 通过 机 头 上 的 备用 控制 器 从 尾部 访问 被 故障 扩展 柜 隔 断 
的 底下 的 扩展 柜 ， 同 时 主 控制 器 从 头 部 访问 上 面 的 控制 器 。 
图 9-50 所 示 为 每 个 扩展 柜 组 中 都 有 一 个 扩展 柜 故 障 , 但 是 剩余 的 扩展 柜 依然 可 以 继续 使 用 ， 
方法 就 是 让 主 控制 器 和 备用 控制 器 同时 工作 。 
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Loop Pair 1 Loop Pair2 Loop Pair 3 Loop 5 


图 9-50 扩展 柜 整 柜 故障 时 的 拓扑 
可 以 发 现 , 如 果 某 个 Raid Group 的 磁盘 全 部 在 一 个 扩展 柜 中 , 那么 一 旦 这 个 扩展 柜 故障 ， 
这 个 Raid Group 将 不 可 用 。 所 以 控制 器 为 了 获得 高 度 可 靠 性 ， 一 般 会 尽量 跨 扩展 柜 做 Raid 
Group， 即 一 个 Raid Group 中 的 所 有 磁盘 各 属于 不 同 的 扩展 柜 。 这 样 ， 即 使 一 个 扩展 柜 失效 ， 
那么 对 于 一 个 Raid Group 来 说 ， 只 是 失去 一 块 磁 盘 而 不 是 全 部 失效 ，Raid Group 还 可 以 继续 


工作 。 目 前 几乎 所 有 中 高 端 盘 阵 都 提供 这 种 支持 。 
图 9-51 是 DS4800 盘 阵 控制 器 内 部 简单 架构 图 。 
mid-plane 
tereonnect be 
i i 
Controller A 只 1 ControllerB | 一 controller 
Drivepots 4 3 2 1 Drivepots 1 2 34 
Channel 。 Channel Channel 。 Channel 
1 2 3 4 
图 9-51 DS4800 机 头 控制 器 简单 架构 图 
从 图 中 可 以 看 到 如 下 部 件 : FC Chip、Loop Switch、Channel 及 Interconnect Module。 其 中 ， 


FC Chip 是 处 理 FC 协议 逻辑 的 主要 芯片 ， 全 部 的 FC 逻辑 都 在 此 芯片 内 实现 。Loop Switch 在 这 
里 可 以 使 用 上 文 所 述 的 PBC 一 类 的 芯片 ， 当 然 也 可 以 使 用 交换 架构 的 芯片 。 其 后 端 连接 两 个 FC 
接口 ， 前 端 分 别 连接 位 于 两 个 控制 器 上 的 两 块 FC Chip， 这 样 做 的 目的 是 为 了 充分 见 余 。Channel 
的 意思 就 是 指 连接 到 一 个 Loop Switch 上 的 两 个 FC 端口 ， 两 个 端口 组 成 一 个 Channel， 没 有 实际 
物理 意义 。Interconnect Module 其 实 是 一 个 背 板 ， 用 于 控制 器 之 间 的 通信 。 

ASIC 芯片 负责 数据 在 前 端 和 后 端的 流动 , 还 负责 用 于 Raid 5/6 的 XOR 运算 , 由 于 其 XOR 
运算 引擎 被 固化 于 ASIC 电路 中 ,所 以 运算 速度 远 快 于 使 用 普通 X86 CPU。 控 制 器 中 还 有 一 个 Intel 
Xeon CPU ( Control Processor ) ， 这 个 CPU 主要 用 来 运行 VxWork 操作 系统 , 一些 上 层 功 能 软件 
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比如 Remote Mirror、Snapshot ( FlashCopy ) 以 及 其 他 总 控 程 序 比 如 监控 、 用 户 接口 等 ， 皆 运行 于 
VxWork 操作 系统 内 ， 由 Control Prosessor 负责 执行 。 控 制 器 为 ASIC 与 Control Prosessor 各 单独 
配备 了 RAM。 


推论 : 假设 某 一 时 刻 , 左边 控制 器 下 方 那个 FC Chip 失效 ， 则 控制 器 A 的 4 号 FC 接口 与 
这 个 Chip 的 通路 便 会 断 掉 。 此 时 只 能 通过 控制 器 B 的 1 号 FC 接口 访问 最 左边 的 4 个 扩 
展柜 。 查 看 一 下 连 线 ， 可 以 发 现 控制 器 B 的 1 号 FC 接口 其 实 是 通过 Interconnect Module 
连接 到 了 控制 器 A 的 上 面 的 FC Chip。 


提示 : 所 以 ， 最 终 数 据 通过 控制 器 B 右边 的 Loop Switch 流向 Interconnec Module， 然 后 流 

到 控制 器 A 上 面 的 FC Chip。 也 就 是 说 ,最 终 达 到 了 同一 个 控制 器 内 部 两 个 FC Chip 之 间 

的 元 余 备 份 。 而 此 时 对 前 端 主机 来 说 并 没有 影响 ， 主 机 还 是 连接 控制 器 A 来 读 写 数据 。 

同样 ， 如 果 控 制 器 A 上 的 某 个 Loop Switch 失效 ， 则 数据 全 部 通过 控制 器 B 对 应 的 Loop 

Switch 流向 Interconnect Module， 最 后 还 是 流 回 到 控制 器 A， 对 主机 并 没有 影响 。 

但 是 ， 如 果 同 一 个 控制 器 上 的 两 个 FC Chip 或 两 个 Loop Switeh 都 失效 了 ， 甚 至 整个 控制 

器 故障 了 ，, 那么 所 有 IO 访问 就 都 要 转移 到 另外 的 一 个 控制 器 上 。 此 时 ,对 主机 端 就 会 产 

生 影 响 ， 需 要 多 路 径 软 件 和 盘 阵 端 配合 参与 故障 切换 的 动作 。 

实际 上 ，DS4800 的 控制 器 不 一 定 是 上 述 的 切换 模式 。 但 是 在 理论 上 ， 所 有 产品 的 设计 都 应 
该 尽量 不 切换 控制 器 ， 因 为 切换 控制 器 会 对 主机 端 造成 影响 。 

图 9-52 为 DS4800 扩展 柜 连 接 示 意图 。 


图 9-52 DS4800 扩展 柜 连接 通路 示意 图 
图 9-53 是 DS4800 控制 器 的 内 部 详细 架构 图 。 
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图 9-53 DS4800 控制 器 详细 架构 图 
说 明 如 下 : 
”2.4 GHz Xeon processor 运行 Vxworks 实时 操作 系统 。 
， 每 个 控制 器 2、4、8GB 数据 缓存 RAM 一 一 数据 专用 。 
， ”每 个 控制 器 512MB RAM 系统 缓存 一 一 操作 系统 运行 内 存 。 
" ”XOR ASIC Engine 专用 芯片 ,硬件 RAID 运算 引擎 。 
a ”64b/133MHz 一 一 1GB/s 带宽 的 PCIX 总 线 。 


2. DS5000 控制 器 架构 简介 


2008 年 IBM 发 布 了 新 一 代 的 中 端 传统 磁盘 阵列 系统 DS5000 系列 。 其 基本 架构 设计 与 DS4000 
系列 大 致 相同 ,但 是 在 总 线 速度 和 数量 方面 成 倍 提升 ， 直 接 就 导致 了 整体 吞吐 量 飙 升 。DS4000 
时 代 使 用 PCI-X 作为 数据 IO 总 线 , 而 且 前 后 端 各 4 个 4Gb ( 1.6GB/s ) 速率 的 FC 端口 各 共享 一 
条 PCI-X (1GB/s ) 总 线 ， 直接 导致 狂人 颈 ,系统 处 理 能 力 受 到 很 大 限制 。DS5000 时 代 彻 底 解 脱 了 
FC Chip 的 容 境 , 每 个 FC Chip 独 享 一 条 PCIE 8X ( 2GB/s ) 总 线 直 连 到 核心 ASIC, 每 个 FC Chip 
管控 4 个 4Gb 的 FC 接口 , 加 之 每 控制 器 的 4 个 4 口 无 阻塞 交换 的 Loop Switch， 这样， 系统 各 处 
都 不 存在 瓶颈 。 系 统 吞吐 量 的 提升 ， 需 要 更 大 容量 的 缓存 助阵 ， 所 以 DS5000 系列 的 缓存 容量 也 
比 DS4000 系列 上 了 一 个 台阶 。 

如 图 9-54 所 示 为 DS5000 单 控制 器 架构 简 图 。 可 以 与 DS4000 系列 架构 简 图 作 一 个 对 比 。 


第 9 章 ”天翻地覆 一 FC 协议 的 巨大 力量 @ 


Disk channel chips Datacache Hostchannelchips 
bus 17Gbps 
下 中 忆 Mee 
J ee 
和 
8 
4 Ghls SFP 
Hoet rtertacoe 
目 
告 
8 
~ PCl-e 8x buses 
本 
ZIP ASIC a 
(XOR engine) ty. 
Intel Xeon USB flash Control processor 
controlprocessor ~ backup memory memory 


图 9-54 DS5000 控制 器 示意 图 
图 9-55 所 示 的 是 DS5000 双 控 制 器 组 成 的 整体 控制 架构 图 和 各 模块 介绍 。 


者 特制 的 ASIC 芯片 包含 内 时 
硬件 RAID 5/6 协 处 理 器 

才 多 个 PCLE x X8 总 线 连接 
ASIC 芯片 和 外 部 接口 芯片 


图 专属 数据 缓存 动态 分 配 读 写 缓存 配 
额 ， 控 制 缓存 不 占用 数据 缓存 空间 
二 与 局 的 PCI-Ex X8 级 在 镜 像 
总 线 


© 16 个 后 端 扒 通 首 
图 9-55 各 模块 介绍 
图 9-56~ 图 9-58 所 示 为 单 控制 器 内 部 各 个 模块 简介 。 


| [TE * 2.8 GHz Intel Xeon 管理 器 芯片 
gagjlaeagal .2 GB 专用 管理 器 缓存 ， 不 占用 数据 缓存 
* 专业 ASIC 芯片 内 署 硬 件 RAID 处 理 
* 主要 处 理 XOR (RAID 5) 和 P+Q 
(RAID 6) 
* 数据 绥 存 完全 用 于 数据 而 不 是 系统 开销 》 
*ASIC 和 各 外 围 端口 或 芯片 采用 2 GB/s 
PCI-Express X8 总 线 连接 
* 两 个 用 于 主机 端口 ， 两 个 用 于 磁盘 扩展 柜 
。 0 主机 端 和 对 磁盘 端 都 是 4Gb/s 内 部 
带宽 
.两 个 专用 2GB/s PCI-E X8 
总 线 用 于 缓存 镜像 
* 即使 在 大 配置 情况 下 ， 依 然 保持 极 低 的 
Ea] 镜像 时 迁 


图 9-56 内 部 各 模块 介绍 (一 ) 


FCH FCH 
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。 最 多 两 个 服务 器 端 接口 卡 
， 千 4 端口 
* 当前 支持 4 Gb FC， 以 后 支持 8Gb 和 10Gb iSCSI 
两 个 端口 46bps FC 磁盘 端口 芯片 
* 1 个 专用 于 本 地 控制 器 的 端口 


> 4 个 "loop switch" 交换 芯片 链接 到 元 余 
对 的 SFP 槽 位 
* 每 个 " switch" 芯片 有 专用 通道 链接 到 另 
-个 控制 器 上 


图 9-57 内 部 各 模块 介绍 (二 ) 


: 每 个 控制 器 4、8 或 16GB 专用 数据 缓存 
* 动态 读 写 缓存 调整 

* 意外 断 电 时 缓存 数据 保存 到 USB 口 的 闪存 
前 


， 电池 用 于 复制 数据 到 内 部 办 存盘 
， 避 免 了 长 时 间 停电 造成 数据 丢失 的 风险 
* 缓存 到 ASIC 芯 片 的 连接 是 专用 17 GB/s 
总 绕 
* 单 控 16GB 缓存 将 在 2009 年 发 布 
， 两 个 168 千 兆 以 太 网 管理 端口 
* 每 个 连接 有 自己 的 RJ-45 连接 
* 支持 IPv6 和 IPv4 
* 传统 DB9 serial 端口 仍然 在 


卡 之 间 的 数据 流程 。 


图 9-59 所 示 为 DS5000 双 控 制 器 连接 扩展 柜 拓 扑 图 。 图 9-60 所 示 为 后 端 接口 卡 与 前 端 接 


图 9-59 连接 扩展 柜 示意 图 图 9-60 前 后 端 10 流程 
图 9-61 所 示 为 单个 控制 器 在 接收 到 一 个 1MB 大 小 的 写 IO 时 的 处 理 动作 。 假 设 写 IO 对 应 


的 Raid Group 中 的 磁盘 都 在 同一 个 扩展 柜 中 ， 而 且 Raid Group 的 条 带宽 度 恰好 为 1IMB (不 包含 
Parity Segment ) ， 则 控制 器 上 的 ASIC 逻辑 电路 会 自动 将 这 1MB 的 数据 切 分 成 4 部 分 , 并 且 计 算 


好 Parity 数据 。 然 后 将 这 4 块 +Parity 数据 按照 奇偶 分 类 分 别传 送 给 后 端 两 个 FC Chip， 
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Chip 将 数据 从 本 地 的 Loop Switch 发 出 并 传送 给 对 应 扩展 柜 写 入 磁盘 , 另 一 个 Chip 则 通过 背 板 上 

的 导线 将 数据 传送 给 另 一 个 控制 器 上 的 Loop Switch, 然后 发 送 到 同一 个 扩展 柜 中 对 应 的 磁盘 。 这 

样 就 可 以 做 到 充分 的 负载 均衡 ， 这 里 的 负载 均衡 只 是 底层 硬件 芯片 处 理 能 力 的 负载 均衡 而 不 是 控 

制 器 自身 整体 处 理 能 力 的 负载 均衡 ， 试 想 ， 如 果 将 所 有 Loop Switch 放 到 同一 个 控制 器 上 ， 对 整 
个 系统 性 能 没有 影响 。 当 然 ， 你 也 可 以 认为 是 供电 负载 均衡 了 。 


Dem Layeet 
DEEOP ET 


图 9-61 处 理 1MB 的 写 10 
如 图 9-62 所 示 ， 如 果 Raid Group 中 的 磁盘 不 在 同一 个 扩展 柜 中 , 那么 FC Chip 传输 数据 的 
路 径 就 会 有 所 变化 ， 会 使 用 多 个 后 端 Loop Switch 来 传输 到 对 应 的 扩展 柜 。 


图 9-62 处理 写 I0 的 另 一 种 流程 
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图 9-63 所 示 的 是 DS5000 单个 控制 器 的 俯视 图 .最 左 侧 为 专 供 Control Processor 的 一 条 内 存 。 
右 侧 为 USB 闪存 ， 用 于 在 系统 以 外 掉 电 时 将 Data Cache 中 的 内 容 写 入 Flash 中 保存 ， 以 待 下 次 启 
动 之 后 完成 未 完成 的 工作 。 下 部 的 左右 两 个 卡 为 前 端 主机 接口 卡 ， 其 上 各 有 一 个 FC Chip， 每 个 
卡 上 各 有 4 个 4Gb/s 的 FC 接口 。 上 部 右 侧 分 布 在 黑色 散热 片 两 边 的 为 数据 Cache。 每 条 按照 2GB 
算 , 最 大 可 以 支持 16GB 的 Data Cache。 所 有 内 存 都 插 在 一 块 单独 的 插 板 上 ， 黑 色散 热 片 下 面 履 
盖 的 是 内 存 播 板 控制 芯片 。 


iM 
© MINN © 
WN . 


- al 


图 9-63 控制 器 内 部 俯视 图 
图 9-64 所 示 为 将 主机 接口 卡 和 内 存 插 板 拿 掉 之 后 露出 来 的 主 底板 上 的 部 件 ， 两 个 白色 散热 
片 覆 盖 的 为 后 端 磁盘 FC Chip 芯片 。 下 部 为 4 个 整齐 排列 的 Loop Switch 芯片 。 左 侧 大 的 白色 散 
热 片 覆盖 的 是 Control Processor， 即 Intel Xeon CPU。 小 一 些 的 白色 散热 片 覆 盖 的 是 核心 ASIC 芯 
片 。 没 有 散热 片 的 大 黑色 芯片 为 系统 桥 芯 片 。 
如 图 9-65 所 示 为 DS5000 控制 器 机 柜 + 扩展 柜 组 成 的 存储 系统 整体 前 视图 。 
(AN 
(OIA 
A 


Be ed 。- 
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图 9-64 ”控制 器 底部 人 视图 图 9-65 整体 前 视图 
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9.5.2 ”NetApp FAS 系列 磁盘 阵列 控制 器 简 析 


1. FAS2050 磁盘 阵列 


图 9-66 为 FAS2050 磁盘 阵列 控制 器 的 后 视图 。 
从 图 9-66 中 可 以 看 到 上 下 两 个 控制 器 ， 每 个 控制 器 各 有 两 个 FC 接口 。 


图 9-66 ”FAS2050 控制 器 实物 后 视图 


2. FAS3050 磁盘 阵列 
图 9-67 为 FAS3050 磁盘 阵列 控制 器 后 视图 。 


图 9-67 为 单个 FAS3050 的 控制 器 机 头 后 视图 。 图 中 只 是 一 个 控制 器 , 如 果 要 达到 完全 元 余 ， 
可 以 用 两 台 控制 器 形成 Cluster 结构 。FAS3050 有 4 个 板 载 FC 接口 ， 可 以 通过 插 PCIX 接口 的 扩 
展 卡 来 扩充 FC 接口 的 数目 。 每 个 控制 器 提供 4 个 扩展 卡 槽 位 ,可 以 插 接 FC 卡 、 以 太 网 卡 、TOE 
卡 和 ISCSI 卡 等 扩展 卡 。 

NetApp 的 FAS 产品 ， 从 FAS3000 系列 开始 ， 由 于 处 理 功 能 增强 ， 扩 展 模 位 增多 ， 所 以 一 个 
控制 器 就 占 满 一 个 机 头 的 空间 。 两 台 控制 器 之 间 需 要 通过 NVRAM 卡 上 的 Infiniband 网 络 来 形成 


Clustero 
3. FAS6070 磁盘 阵列 
妈 9 一 68 为 FAS6070 磁盘 阵列 控制 器 后 视图 。 
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图 9-68 FAS6070 单个 控制 器 实物 后 视图 


FAS6070 是 NetApp 公司 比较 高 端的 设备 ， 其 内 部 后 端 总 线 的 总 理论 带宽 可 达 32GB/s。 有 
9 个 扩展 槽 位 ， 可 以 插 接 扩展 FC 适配器 以 便 连 接 更 多 的 扩展 柜 , 或 TOE 卡 、 以 太 网 卡 等 其 他 
适配器 。 


4. DS14MK2FC 磁盘 扩展 柜 


图 9-69 所 示 为 DS14MK2FC 磁盘 扩展 柜 的 前 视图 。 

图 9-70 所 示 为 DS14MK2FC 磁盘 扩展 柜 的 后 视图 。 

图 9-69 和 图 9-70 所 示 的 是 用 于 连接 FAS 系列 控制 器 的 磁盘 扩展 柜 ， 每 个 柜子 可 以 择 14 块 
FC 接口 的 磁盘 。 从 后 视图 中 可 以 看 出 其 与 FAS2050 控制 器 的 拓扑 比较 像 ， 不 要 搞 混 。 前 文 说 过 ， 
现代 磁盘 扩展 柜 都 是 用 双 模 块 设计 ,模块 中 有 半 交 换 SBOD 芯片 , 盘 柜 中 所 有 的 磁盘 利用 其 SCA2 
接口 连接 到 背 板 上 ， 这 个 物理 接口 中 所 包含 的 两 个 逻辑 接口 各 通过 电路 连接 到 一 个 扩展 柜 控制 模 
块 上 ， 形 成 双 Loop 宛 余 。 


eT ed dD ed eh eh ea 


图 9-69 DS14MK2FC 磁盘 扩展 柜 前 视 轩 
9.5.3 IBM DS8000 简介 


DS8000 系列 利用 两 台 P 系列 主机 充当 控制 器 。 上 文中 说 过 ， 盘 阵 控制 器 架构 本 质 上 与 主机 
架构 无 异 ，DS8000 就 是 这 样 一 个 例证 。 图 9-71 和 图 9-72 为 DS8000 实物 图 。 


图 9-70 DS14MK2FC 磁盘 扩展 柜 后 视图 
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= 多 达 640 个 磁 指 


p5 POWER5| 最 务 加。 、 | 
电池 Wo 地 拓 


图 9-71 DS8000 主机 架 图 9-72 DS8000 盘 阵 主机 架 和 扩展 机 哥 


IBM DS8000 磁盘 阵列 是 IBM 磁盘 阵列 产品 线 中 的 最 高 端 产 品 。 它 利用 两 台 IBM 的 P 系列 
服务 器 作为 控制 器 运行 AIX 操作 系统 ， 操 作 系 统 之 上 运行 了 DS8000 的 存储 虚拟 化 引擎 和 管理 
软件 。 


9.5.4 富士 通 ETERNUS DX8000 磁盘 阵列 控制 器 结构 简 析 


图 9-73 为 富士 通 ETERNUS DX8000 机 柜 布 局 示意 图 。 

与 NetApp FAS6070 和 IBM DS8000 系列 一 样 ， 高 端 磁盘 阵列 系统 由 于 需要 提供 极 高 的 存储 
容量 , 只 连接 几 个 磁盘 扩展 柜 已 经 无 法 满足 要 求 。 所 以 需要 将 更 多 的 磁盘 扩展 柜 装 入 扩展 机 架 中 ， 
然后 统一 联 入 控制 器 或 者 串联 到 其 他 机 架 。 

图 9-74 为 ETERNUS DX8000 控制 器 架构 示意 图 。 


To Servers 
NS ps a :a 
NN Drive a = 
. Enclosure ， 昌 LE 引 9 
(DE) 了 -一 < 一 一 , [aE 
AZ m CM& | ICM& | |CME Tm 
: 2 Cache| | Cache| |Cache DA < 2 
8 :9 
Controller : : ® 
Enclosure 
(CE) Bll bel bh Nhl ddd edd blll ddd 
To Servers 
图 9-73 ETERNUS DX8000 机柜 示意 图 图 9-74 BTERNUS DX8000 控制 器 架构 示意 图 


CM ( Control Module ) 为 控制 器 模块 。CM 是 整个 磁盘 阵列 的 计算 中 心 , 每 个 CM 包含 两 个 
2.8GHz 的 四 核 CPU 和 最 大 64GB 的 RAM。RAM 既 作为 盘 阵 本 身 软件 的 运行 内 存 ， 又 作为 盘 阵 
数据 缓存 (图 中 所 示 的 Cache ) 。 整 个 盘 阵 系统 最 多 可 以 安装 8 个 CM， 由 于 每 个 控制 器 机 柜 只 
包含 一 个 CM， 所 以 整个 系统 最 多 可 以 连接 8 个 Controller Enclosure。 

RT (Ronuter ) 为 路 由 器 。RT 模块 相当 于 普通 服务 器 架构 中 的 南 桥 控制 器 ( IO 控制 器 ) 以 
及 FC 架构 中 常用 的 FC Loop Switch 交换 芯片 。 不 同 的 是 这 里 的 RT 是 一 个 全 局 桥 ， 它 可 以 桥接 
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整个 系统 中 的 所 有 CPU、RAM 和 外 设 (FC 接口 卡 ) ,使 所 有 部 件 之 间 实 现 高 速 通信 。 每 个 系统 
最 大 可 以 接 入 12 个 RT。 关 于 RT 的 细节 将 在 下 文 描述 。 

DA (Driver Adapter ) 为 后 端 磁盘 通道 适 配 板 。 每 个 适 配 板 上 接 有 4 个 FC-AL 接口 ， 用 于 接 
入 FC-AL 的 Loop。DA 实际 上 就 是 盘 阵 的 后 端 接 入 点 。 每 个 后 端 RT 可 以 接 入 16 个 DA 上 的 各 
一 个 口 ， 每 个 系统 最 多 接 入 16 个 DA， 从 而 可 以 挂 接 64 条 Loop。 但 为 了 元 余 ， 每 个 Loop 需要 
同时 连接 两 个 DA， 所 以 实际 可 用 Loop 减 半 ， 为 32 Loops。 

CA ( Channel Adapter ) 为 前 端 通道 适 配 板 。CA 实际 上 就 是 前 端 FC 接口 适 配 板 ， 每 个 板子 
上 包含 4 个 FC N 类 型 端口 , 用 于 接 入 FC 交换 设备 或 者 直接 连接 主机 服务 器 的 FC 适 配 卡 。 每 个 
RT 最 多 接 入 4 个 CA， 所 以 整个 系统 最 多 可 以 接 入 32 个 CA， 最 多 提供 128 个 FC 协议 N 类 型 
前 端 接口 。 


1.SBOD 


扩展 柜 同 样 采用 了 双 模 块 板 设计 ， 可 以 保证 两 条 路 径 到 达 同 一 块 磁盘 。 图 9-75 中 的 “骨干 
交换 机 ”其 实 就 是 指 SBOD 所 采用 的 半 交 换 式 芯 片 。 


2. 循环 镜像 的 写 缓存 


图 9-76 为 ETERNUS DX8000 控制 器 间 循 环 缓存 镜像 写 示 意图 。 


Write Write 
Data 


BESW: 骨干 交换 机 
图 9-75 ETERNUS DX8000 扩展 柜 架 构 图 9-76 ETERNUS DX8000 循环 缓存 镜像 写 示意 图 
数据 在 被 写 入 任何 一 个 控制 器 的 Cache 时 ,系统 会 将 写 入 的 数据 复制 到 其 他 控制 器 的 缓存 中 
做 元 余 。 一 旦 在 数据 还 没有 写 入 硬盘 之 前 ， 某 个 控制 器 发 生 了 故障 ， 写 缓存 镜像 技术 可 以 保证 数 


据 不 会 丢失 ， 可 以 将 数据 从 镜像 缓存 中 写 入 硬盘 。 读 缓存 不 需要 这 种 技术 ， 因 为 读 操作 只 是 将 数 
据 从 硬盘 上 读 入 RAM， 如 果 此 时 控制 器 故障 ， 磁 盘 中 的 数据 依然 存在 。 最 重要 的 是 缓存 镜像 技 
会 浪费 宝贵 的 缓存 容量 ， 读 操作 没有 必要 实现 缓存 镜像 。 


3. 跨 扩展 柜 做 Raid Group 


图 9-77 所 示 为 ETERNUS DX8000 跨 扩展 柜 的 Raid Group 示意 图 。 


前 面 也 介绍 过 ,为 了 获得 足够 的 元 余 性 , 很 多 厂家 的 盘 阵 产品 一 般 都 选择 将 不 同 扩展 柜 中 的 
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硬盘 容纳 到 一 个 Raid Group 中 ， 而 不 是 让 一 个 Raid Group 包含 同一 个 扩展 柜 中 所 有 的 磁盘 。 
DX8000 系统 整体 架构 图 及 分 项 解析 如 下 。 
如 图 9-78 所 示 为 DX8000 存储 系统 配备 4 个 CM 时 系统 的 整体 架构 图 。 


pers (aobps) per Fe -CA 2 porm (opps) pmrlscal ~ cA 
Controler Enclosure ce I J 『 


| 
二 
全 
已 。 号 
mx enetosures b Dk nelosumes 
*» CE (Controller Enclosure) * DA (Disk Adapter) Bm CM-0Raid Group 
» CM (Controller Module) 。 BRT (Back-End Router) CM-1RAID Group 
。 CA (Channel Adapter) 。 DE (Disk Enclosure) a CM-2RAID Group 


* FRT (Front-End Router) 


CM-3RAID Group 


图 9-77 跨 扩 展柜 的 Raid Group 图 9-78 DX8000 配备 4 个 CM 时 系统 的 架构 

图 9-78 为 一 个 4 CM 配置 的 DX8000 存储 系统 。 每 个 CM 包含 两 个 4 核心 CPU、64GB 的 
RAM、4 个 前 端 FC 接口 卡 和 两 个 后 端 磁盘 FC 通道 接口 卡 。 每 个 接口 卡 都 含 4 个 FC 接口 。 在 IO 
总 线 方面 ， 由 于 所 有 CM 上 的 DA 和 CA 都 需要 被 系统 内 所 有 CPU 所 访问 到 ， 所 以 通过 两 个 16 
口 8X PCI-E Bridge Switch 芯片 来 互 连 所 有 4 个 CM， 这 两 个 PCI-E Switch 作为 整个 系统 的 全 局 
IO 桥 。 此外, CM 之 间 的 其 他 数据 通信 和 控制 器 通信 也 都 经 过 这 两 片 Switch。 由 于 每 个 8X PCI-E 
接口 可 以 提供 双向 共 400MBAs 的 吞吐 量 ， 所 以 每 个 Switch 芯片 可 以 提供 64GBAs 的 吞吐 量 。 

在 后 端 ，DA 与 磁盘 扩展 柜 之 间 存在 4 个 16 口 的 FCAL Loop Switch， 这 个 Switch 就 是 前 文 
中 所 述 的 Cut Through Switch ， 物 理 全 交换 , 但 是 上 层 协 议 依然 为 FCAL。 每 个 DA 上 的 一 个 接口 
各 连接 4 个 Switch 中 的 一 个 Switch 上 的 一 个 接口 ， 这 样 ， 恰 好 有 32 个 端口 被 DA 所 连接 。 磁 盘 
扩展 柜 由 于 也 是 双 路 连接 , 所 以 每 个 Loop 的 头 一 个 磁盘 扩展 柜 也 连接 到 两 个 Loop Switch 上 的 各 
一 个 接口 ， 这 样 共 连 接 了 16 条 Loop。 这 种 连接 方式 可 以 使 得 每 个 CM 都 有 若干 条 元 余 的 路 径 来 
访问 到 每 块 磁盘 ， 做 到 了 所 有 逻辑 部 件 的 全 部 元 余 和 负载 均衡 。 

如 图 9-79 所 示 为 DX8000 存储 系统 实物 图 , 可 以 看 到 CA 插 板 插 在 CM 模块 的 下 方 插 槽 中 ， 
CM 模块 又 播 到 机 柜 背 板 中 。 
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图 9-79 DX8000 实物 图 
9.5.5 ”EMC 公司 Clariion CX/CX3 及 DMX 系列 盘 阵 介绍 


1. Clariion CX 系列 产品 

CX 系列 产品 性 能 如 下 。 

， ”充分 见 余 体系 结构 。 

" ” 双 存 储 处 理 器 。 

" 电源、 冷却 系统 、 数 据 路 径 、 独 立 电源 。 
， ”无 间断 操作 。 


， ”在线 软件 升级 。 

， 在线 硬件 更 改 。 

， 高 级 数据 完整 性 。 
， ”镜像 写 缓存 。 

， ”发 生 电 源 故 障 时 将 写 缓存 转 储 到 磁盘 。 
， ”SNiiFFER: 扇 区 检查 实用 程序 。 
"点 对 点 DAE 设计 。 

， ”具有 无 中 断 故 障 切 换 的 双 IO 通道 。 

， 分 层 容量 。 

" 15K: 36GB, 73 GB、 146 GB; 

" 10K: 73GB、 146 GB、300 GB。 

" S500GBSATAT, 

a 5~480 个 磁盘 。 

”灵活 性 。 

”混合 驱动 器 类 型 。 

， ”混合 RAID 级 别 。 

"RAID 级 别 0、1、1+0、3 和 5。 

= 高达 16 GB 的 可 调式 缓存 。 

图 9-80 为 CX 系列 产品 的 实物 图 和 透视 图 。 
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图 9-80 CX 系列 产品 实物 图 和 透视 图 
图 9-81 为 CX700 的 控制 器 架构 示意 图 。 
存储 处 理 器 


图 9-81 CX700 的 控制 器 架构 示意 图 


图 9-82 为 CX700 控制 器 实物 图 。 
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9-82 ”CX700 控制 器 实物 图 

CX3-80 控制 器 和 扩展 柜 架 构 简 介 如 下 。 

CX3 系列 为 EMC 公司 的 中 低 端 存储 系统 ( 目前 已 被 CX4 系列 取代 ) 。 其 内 部 总 体 架 构 与 
前 文 介 绍 的 CX700 类 似 ， 但 是 在 扩展 性 和 总 线 速 度 等 处 有 提升 。 控 制 器 内 没有 专用 XOR 芯片 ， 
所 有 数据 IO 控制 全 部 由 主 CPU 承担 ， 所 以 整个 系统 有 多 个 CPU 以 便 提供 足够 的 处 理 能 力 。 

如 图 9-83 所 示 为 CX3-80 单个 控制 器 拆 掉 挡 板 后 的 前 视图 。 


图 9-83 CX3-80 单 控制 器 前 视图 
图 9-84 所 示 为 单 控制 器 后 视图 ， 左 右 两 边 为 两 个 电源 模块 。 中 部 上 下 各 一 个 控制 器 ， 每 个 
控制 器 各 包含 4 个 前 端 FC 接口 和 4 个 后 端 FC 接口 。 
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YV 管理 用 以 太 网 口 
后 端 FC Ports 
图 9-84 CX3-80 单 控制 器 后 视图 

图 9-85 所 示 为 单个 控制 器 的 平视 图 和 俯视 图 。 可 以 看 到 控制 器 前 面 是 两 个 插 卡 位 置 ， 可 以 
根据 需要 插入 对 应 端口 数量 的 扩展 卡 。 


Console 口 


图 9-85 控制 器 平视 图 和 俯视 图 
图 9-86 所 示 为 单个 IO 扩展 卡 的 平视 图 和 俯视 图 。 可 以 看 到 , 后 端 FC 接口 并 没有 使 用 光纤 
接口 ， 而 是 使 用 一 种 特制 的 铜 缆 接口 。 其 上 承载 的 依然 是 FCAL 协议 。 


Back end port LEDS Front end port LEDS 


Back end fibre connection Front end SAN connection 


图 9-86 扩展 卡 平视 图 和 俯视 图 
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图 9-87 所 示 为 适用 于 CX3 系列 的 磁盘 扩展 柜 的 前 视图 。 


图 9-87 扩展 柜 前 视图 
图 9-88 所 示 为 扩展 柜 后 视图 。 可 以 看 到 中 部 上 下 两 个 可 播 拔 的 LCC， 即 链 路 控制 器 ，LCC 
其 实 就 是 扩展 柜 中 的 控制 模块 ， 与 IBM DS 系列 使 用 的 扩展 柜 中 的 ESM 模块 作用 完全 一 样 。 


让 条 及 电源 
指示 灯 


扩展 柜 识 别 ID 


SE 剖 刘 is 于 


RJ-12 SPS 出 方向 扩展 柜 识 别 ID 
Port 级 联 口 级 联 口 Loop ID 指示 灯 
指示 灯 


图 9-89 LCC 平 视图 
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图 9-90 所 示 为 一 套 双 控 制 器 加 5 个 扩展 柜 的 
CX3-80 存储 系统 物理 连接 好 之 后 的 后 视图 。 可 以 看 到 ， 
每 个 控制 器 有 一 个 后 端 FC 接口 使 用 了 一 条 铀 缆 ， 连 接 
到 了 第 一 个 扩展 柜 的 一 个 LCC 控制 模块 的 入 方向 级 联 
口上 ， 然 后 每 个 LCC 的 出 方向 级 联 口 再 使 用 同样 的 线 
线 连 接 到 下 一 个 扩展 柜 相 同 LCC 上 的 入 方向 接口 , 一 
直 级 联 下 去 直到 最 后 一 个 扩展 柜 为 止 。 


2. Symmetrix DMX-3 系统 概述 


直 连 矩阵 体系 结构 。 

CPU 以 及 通道 扩展 卡 与 内 存 之 问 采用 点 对 点 直 连 
访问 。 每 一 个 控制 器 都 有 其 自己 到 达 每 一 目的 地 的 专用 
通道 。 直 连 和 矩阵 底板 最 多 有 128 个 全 部 是 直 连 、 专 用 而 
且 不 共享 的 独立 通道 ， 如 图 9-91 所 示 。 


64 GB 64 GB 
， 


Memory Memory 


图 9-91 Symmetrix 矩阵 示意 图 
" 每 个 控制 器 8 个 1.3 GHz PPC 处 理 器 。 
" ”最 多 12 个 通道 控制 器 。 
= 8 端口 2 GB 光纤 通道 。 
" 8 端口 ESCON。 
"4 端口 多 协议 一 一 2 GB FICON、iSCSI 和 用 于 RDE 的 干 光 以 太 网 。 
" ”最 多 8 个 磁盘 控制 器 。 
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"每 个 磁盘 控制 器 最 多 480 个 驱动 器 。 

， ”支持 无 中 断 添加 控制 器 。 

" ”高 达 512 GB 全 局 内 存 (256 GB 可 用 ) 。 

， ” 带 有 内 存 保险 存储 保护 的 镜像 DDR 技术 。 

图 9-92 所 示 为 Symmetrix DMX-3 的 实物 图 ， 左 边 为 控制 器 机 柜 ， 右边 为 磁盘 扩展 柜 机 柜 。 


图 9-92 ” Symmetrix DMX-3 实物 图 


9.5.6 ”HDS 公司 AMS2000 和 USP 系列 盘 阵 介绍 


1. AMS2000 系列 存储 系统 控制 器 架构 简介 


AMS2000 系列 是 HDS 公司 于 2008 年 推出 的 后 端 基于 SAS/SATA 磁盘 扩展 柜 的 中 端 存储 系 
统 。 其 控制 器 有 一 个 很 大 亮点 ， 即 Native Dual Activated。 传 统 双 控制 器 中 端 存储 其 创建 的 每 一 个 
LUN， 都 只 能 将 其 指定 给 一 个 控制 器 ， 另 外 一 个 控制 作为 这 个 LUN 的 后 备 控制 器 作为 故障 时 的 
宛 余 切换 ， 使 用 多 LUN 轮流 指定 给 不 同 控制 器 的 方式 做 到 负载 均衡 ， 这 种 负载 均衡 完全 是 人 为 
控制 的 ， 如 果 随 着 系统 的 负载 不 断 变化 ,一 旦 将 来 发 生 某 个 控制 器 所 掌管 的 LUN 总 体 负载 很 大 ， 
而 另 一 个 控制 器 管理 的 LUN 总 体 负载 却 很 小 , 那么 此 时 就 需要 人 为 控制 将 负载 大 的 LUN 切换 到 
负载 小 的 控制 器 上 ,不 但 属于 高 危 操 作 而 且 还 影响 主机 客户 端 对 LUN 的 访问 。AMS 2000 的 两 个 
控制 器 彻底 颠覆 了 这 种 低 效 率 的 设计 ， 两 个 控制 器 共同 掌控 所 有 LUN， 不 管 数据 IO 从 哪个 控制 
器 进入 ,接受 IO 的 控制 器 都 会 自行 处 理 对 这 个 LUN 的 IO ， 如 果 一 旦 发 现 自己 负载 高 到 一 定数 
值 而 对 方 控制 器 负载 低 到 一 定数 值 , 那么 接受 IO 的 控制 器 会 将 这 个 IO 从 内 部 链 路 传送 给 对 方 控 
制 器 由 对 方 来 处 理 。 通 过 这 种 互相 协作 的 处 理 方式 ， 系 统 负 载 达 到 了 彻底 的 均衡 。 两 个 控制 器 之 
间 使 用 两 条 2GBAs 的 链 路 进行 协作 通信 和 与 数据 传输 。 两 个 控制 器 的 写 缓存 互 为 镜像 以 防止 一 旦 某 
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个 控制 器 故障 之 后 另 一 个 控制 器 可 以 立即 接管 所 有 写 IO 操作 ， 镜 像 缓 存 的 第 二 个 目的 是 为 了 当 
发 生 负 载 转 移 时 提高 转移 速度 ， 因 为 写 IO 数据 已 经 被 镜像 所 以 无 须 额外 的 实体 数据 传送 。 

与 IBM DS 5000 系列 一 样 ，AMS2000 系列 也 使 用 一 颗 专 用 ASIC 来 负责 大 部 分 数据 IO 与 
XOR 校 验 操作 。Intel Xeon CPU 负责 其 他 上 层 功 能 软件 的 运行 。 


图 9-93 所 示 为 AMS 2500 存储 系统 控制 器 架构 示意 图 。 
1 1 


Controller 0 


图 9-93 AMS2K 控制 器 
2. USP1100 存储 系统 架构 简介 


USP 系列 机 器 为 目前 HDS 存储 产品 中 最 高 端的 机 器 。 图 9-94 所 示 为 USP 系列 机 柜 实物 图 。 
图 9-95 所 示 为 USP-V 系列 的 虚拟 化 功能 示意 图 .图 9-96 所 示 为 USP 系列 控制 器 架构 逻辑 示意 图 。 


Storage Controller 


Disk storage 


Storage Controller | Storage Controller 
Disk Storage | | Disk Storage 


图 9-94 ”机柜 实物 图 图 9-95 USP-V 系列 虚拟 化 示意 图 
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图 9-96 控制 器 架构 示意 图 
图 9-97 所 示 是 USP1100 存储 系统 的 一 些 规格 说 明 。 


USP1100—High-end Model 


:: Maximum internal raw capacity of 332TB and vp to 1,152 disk drives with the capability tol 
Manage a maximum external raw capacity of32P8 


:: 68GB/sec of cache bandwicth: 13GB/sec of control bandwidth 
:+ Up to 128G3 of Data Cache;6GB of Control Memory 
Four crossbar switches;64 data paths;192 control paths 


Up to 192 physical Fibre Channel ports and 32,728 virtual storage ports for open systems 
and attached storage connectivity 


:: Up to 48 AICON,96 ESCON pors or malnfiame connectivity 
:: Upto4 NAS Blades 


图 9-97 USP1100 规格 说 明 
图 9-98 所 示 是 USP1100 存储 系统 控制 机 柜 的 物理 透视 图 。 


硬件 监控 处 理 器 


硬件 监控 处 理 器 


Frossbar 交 换 机 模块 | 


和 和 CE Be 
i 把 生 人 


图 9-98 USP1100 实物 图 


262 


第 9 章 天 翻 地 覆 一 FC 协议 的 巨大 力量 @ 


图 9-99 所 示 为 Cache Switch 模块 ， 对 应 图 9-98 所 示 的 逻辑 架构 图 中 的 Crossbar Switch 与 
Data Cache。Crossbar 作为 一 个 无 阻塞 交换 芯片 提供 所 有 FC Chip 处 理 器 到 所 有 Data Cache 之 间 的 
高 速 访问 ,图 9-100 所 示 为 各 种 前 端 接口 导向 器 插 板 , 用 来 适 配 各 种 前 端 网 络 访问 方式 , 包括 FC、 
ESCON、RCON、FICON、NAS 等 。 


ESCON (aPorts) 


ForeChamel 6 Ports] 


FCON Kpors] 


图 9-99 Cache Switch 图 9-100 各 种 导向 器 插 板 
9-101 所 示 为 USP1100 存储 系统 的 磁盘 扩展 机 柜 透视 图 。 


英 


图 9-101 USP1100 磁盘 扩展 柜 机 柜 
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9.5.7 HP 公司 MSA2000 和 EVA8000 存储 系统 架构 简介 


1. MSA2000 存储 系统 简介 


MSA2000 存储 系统 是 HP 公司 的 低 端 存储 系统 , 不 要 与 HDS 公司 的 AMS2000 搞 混 。 前 者 为 
Modular Smart Array 的 简写 , 后 者 为 Adaptable Modular Storage 的 简写 。MSA2000 存储 系统 后 端 也 
是 使 用 SAS/SATA 扩展 柜 ， 扩展 容 量 有 限 。 前 端 可 以 插 ISCSI 扩展 卡 或 者 FC 扩展 卡 。 内 部 架构 
为 传统 简单 架构 。 图 9-102 和 图 9-103 所 示 分 别 为 MSA2000 控制 器 架构 逻辑 简 图 和 透视 图 。 


Dw 
Ep 


图 9-102 MSA2K 控制 器 逻辑 图 


图 9-103 MSA2K 控制 器 实物 图 
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2. EVA8000 系列 存储 系统 架构 简介 

EVA 系列 分 为 EVA4000、EVA6000 和 EVA8000。EVA 全 称 为 “Enterprise Virtual Array”, 是 
HP 公司 的 中 端 存储 系统 。 其 硬件 架构 有 点 特别 ， 即 将 FC 控制 卡 上 常见 的 PBC 芯片 的 功能 放 到 
了 外 部 ， 用 一 个 Loop Switch 替代 了 ， 控 制 器 与 所 有 扩展 柜 都 接 到 这 个 Loop Switch 上 。 

图 9-104 所 示 分 别 为 EVA8000 控制 器 逻辑 架构 简 图 和 控制 器 机 柜 物理 拓扑 简 图 。 


Fabric1 ! Fabric2 EN 


~ 一 - oa 


i COLO SD 1 10 controller 2 


Ey 二 
FC loop switch FC loop switch FC loop switch FC loop switch 
A 


| = | 


图 9-104 EVA8000 控制 器 逻辑 图 和 实物 图 

这 些 Loop Switch 芯片 ， 对 于 其 他 厂商 来 讲 都 是 被 设计 在 扩展 柜 内 部 的 , 但 是 EVA 这 个 产品 
却 把 它 放 到 了 外 部 一 个 单独 供电 的 交换 机 中 , 做 成 星 型 拓扑 了 , 所 有 扩展 柜 都 连接 到 中 心 的 Loop 
Switch 上 ,其 他 厂商 产品 都 是 柜 与 柜 串 联 方 式 的 。EVA 这 种 做 法 有 个 好 处 就 是 数据 可 以 只 经 过 一 


跳 就 可 以 从 控制 器 的 IO 接口 卡 上 被 转发 到 对 应 的 扩展 柜 ， 其 他 产品 则 都 要 经 过 在 柜子 与 柜子 之 
间 进 行 多 级 跳 ( 跳 数 视 IO 的 目标 柜子 离 控制 器 远近 而 不 同 ) ， 增 加 了 延迟 。 另 外 ， 这 种 做 法 还 
能 够 节约 Loop Switch 芯片 的 数量 ， 降 低 成 本 。 


9.5.8 ”传统 磁盘 阵列 架构 总 结 


虽然 目前 生产 磁盘 阵列 的 厂家 众多 , 产品 众多 , 但 是 可 以 把 总 体 的 目前 所 存在 的 产品 总 结 为 
以 下 几 种 架构 。 
= 低 端 X86 PC Server 双 控 制 器 架构 。 比 如 IBM DS3000、EMC Clariion CX/CX3/CX4 系 
列 、HP MSA2000 系列 、NetApp FAS 系列 。 
= 带 有 辅助 专用 芯片 的 低 端 X86 PC Server 双 控 制 器 架构 。 比 如 IBM DS5000、HDS 
AMS2000。 
" ”高端 X86 PC Server 高 扩展 性 多 控制 器 架构 。 比 如 富士 通 DX8000。 
= 高 端 小 型 机 架构 。 比 如 IBM DS8000。 
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=” ， 高端 大 型 主机 架构 。 比 如 HDS USP、EMC Symmetrix DMX4。 

”X86 Server 集群 架构 。 比 如 EMC Symmetrix Vmax、IBM XIV、3PAR INSERV。 

对 于 最 后 一 种 ,也 就 是 X86 集群 架构 的 存储 系统 ,将 会 在 本 书后 面 的 章节 详细 介绍 。 这 里 为 
何 没有 将 富士 通 DX8000 也 归于 集群 架构 的 原因 是 因为 其 看 似 多 控制 器 协作 ， 但 是 在 前 端 ， 多 控 
制 器 共享 所 有 DA 和 CA， 只 不 过 分 工 不 同 ; 在 后 端 ， 所 有 DA 都 可 以 访问 所 有 磁盘 扩展 柜 ， 后 
端 Loop 并 不 是 由 某 个 控制 器 独 享 ， 所 以 ， 它 仍 为 一 种 全 局 控制 器 的 X86 多 控制 器 架构 ， 与 双 控 
制 器 架构 的 区 别 仅 为 一 个 “多 ” 字 。 这 种 架构 处 于 一 种 折 中 状态 ， 前 端 有 点 集群 化 的 意思 ， 而 后 
端 却 依然 非 集群 化 。 


9.6 ”磁盘 阵列 配置 实践 


9.6.1 基于 IBM 的 DS4500 盘 阵 的 配置 实例 


在 拿 到 一 台 狐 新 的 磁盘 阵列 之 后 ， 必 须 对 其 进行 相关 的 配置 ， 才 能 让 其 发 挥 功 能 。 这 些 配 置 
包括 配置 LUN， 各 个 LUN 的 参数 ,配置 LUN 映射 。 这 三 项 配置 是 使 一 个 盘 阵 可 以 用 来 存 取 数 
据 的 最 基本 配置 。 下 面 就 以 一 台 带 有 两 个 扩展 柜 的 DS4500 磁盘 阵列 的 配置 为 例 ， 向 大 家 演示 一 
下 这 些 配置 的 基本 步 又。 

Storage Manager 软件 是 IBM 公司 开发 的 专门 针对 其 DS4000 系列 盘 阵 的 配置 工具 ,这 个 工具 
可 以 运行 在 Windows 操作 系统 上 ， 通 过 以 太 网 与 磁盘 阵列 通信 ， 从 而 实现 配置 。 

在 配置 阵列 参数 之 前 ,我 们 先 来 看 一 下 这 个 阵列 将 被 用 于 一 个 什么 样 的 环境 。 这 台 阵 列 是 一 
家 小 型 公司 购买 的 ,准备 用 于 存放 公司 的 机 密 文件 、SQL Server 数据 库 文件 、 静 态 Web 网 站 文件 
和 内 部 邮件 数据 。 整 体 拓扑 结构 如 图 9-105 所 示 。 

其 中 SQL Server 数据 库 服务 器 需要 3 个 LUN 存放 数据 ， 总 容量 1TB + 。 邮 件 和 网 站 各 需要 
一 个 LUN， 大 小 分 别 为 300GB + 和 50GB + 。FTP 服务 器 需要 两 个 LUN，400GB+ 。 

所 有 服务 器 操作 系统 均 为 Windows 2003 Enterprise Server。 每 台 服务 器 上 均 要 安装 两 块 2Gb/s 
速率 的 FC HBA 卡 ， 而 且 必须 安装 多 路 径 软件 。 

在 一 台 普 通 PC 上 安装 盘 阵 随机 带 的 Storage Manager 软件 ， 然 后 将 这 台 PC 用 双 绞 线 连接 到 
盘 阵 的 以 太 网 口上 , 将 PC 的 IP 地 址 配置 成 与 盘 阵 初始 IP 地 址 相同 的 网 段 。 之 后 ， 通 过 软件 主 
界面 添加 盘 阵 的 人 P 地 址 ， 这 样 软件 就 可 以 通过 TCP/IP 协议 与 盘 阵 进行 通信 了 。 

从 图 9-106 中 可 以 看 到 这 套 设备 共有 3 个 柜子 , 控制 器 所 在 的 柜子 是 0 号 柜子 , 也 就 是 图 中 
右边 显示 的 Controller Enclosure， 这 个 柜子 中 包含 两 个 互 为 备份 元 余 的 控制 器 A 和 B。Driver 
Enclosurel 和 Driver Enclosure 2 是 两 个 磁盘 扩展 柜 , 每 个 柜子 中 包含 14 块 物 理 磁 盘 。 所 有 磁盘 的 
总 容量 为 23552GB， 这 在 主 界面 左边 栏 中 也 有 提示 。 
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图 9-105 某 公 司 IT 系统 后 端 拓扑 图 
单 击 路 控 钮 可 以 查看 柜子 的 供电 、 散 热 、 
温度 、 控 制 器 电池 、 插 卡 、SFP 模块 等 硬件 
部 件 信息 ， 如 图 9-107 所 示 。 


1. 配置 LUN 


在 主 界面 中 右 击 Unconfigured Capacity， 
创建 逻辑 磁盘 ( 即 LUN ), 如 图 9-108 所 示 。 

出 现 选 择 主机 类 型 的 对 话 框 ， 选 择 这 个 
逻辑 磁盘 将 要 为 何 种 类 型 的 操作 系统 使 用 ， 
这 里 我 们 选择 Windows 2000/Server 2003 
Non-C， 即 “Windows 2003 非 集群 ”类 型 ， 
如 图 9-109 所 示 。 
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图 9-108 创建 LUN 
提示 : 有些 磁 盘 阵 列 会 针对 不 同 的 操作 系统 提供 不 同类 型 的 LUN。 虽然 LUN 对 于 操作 系 
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图 9-109 选择 LUN 的 类 型 


一 块 裸 磁盘 , 但 是 每 种 操作 系统 上 的 文件 系统 在 使 用 LUN 的 行为 上 是 有 差异 


的 。LUN 的 0 号 LBA 为 MBR， 占 用 了 一 个 扇 区 。 而 文件 系统 一 般 使 用 比 扁 区 更 大 的 敢 
辑 块 来 做 为 分 配 单 元， 所 以 有 些 文件 系统 对 于 LBA 的 编号 就 要 从 LBA1 开始 ， 即 MBR 
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的 下 一 个 LBA。 对 于 一 些 盘 阵 控 制 器 来 说 , 它们 管理 LUN 可 能 也 是 用 块 来 作为 一 个 最 小 
单元 。 但 控制 器 却 不 理解 MBR， 只 认为 文件 系统 会 从 0 开始 顺序 编号 。 这 样 ， 就 产生 了 
块 不 对 齐 的 现象 , 从 而 影响 了 性 能 ,如 图 
9-100 所 示 。 所 以 ,有 些 以 块 为 单元 对 LUN 
做 管理 的 盘 阵 控制 器 会 针对 不 同文 件 系 Am 

统制 作对 应 的 LUN。 图 9-110 文件 系统 与 盘 阵 的 LUN 块 不 对 齐 示意 图 


在 图 9-111 所 示 的 对 话 框 中 ， 需 要 先 创建 RAID Group (或 Arrays ) ， 然 后 在 建 好 的 RG 中 
划分 LUN。 数据 库 对 于 IO 性 能 有 较 高 要 求 , 所 以 给 数据 库 的 3 个 LUN 各 分 配 一 个 RG, 充分 
保证 数据 库 的 IO 性 能 。 

选择 相应 的 RAID 级 别 。 如 果 想 手动 选择 组 成 RAID Group 的 磁盘 ， 选 中 Manual 单 选 按钮 。 然 后 
在 下 方 磁盘 列表 中 , 按 住 Cu 键 选择 组 成 这 个 RG 的 所 有 磁盘 成 员 ， 最 后 单 击 Apply 按钮 ， 如 图 9-111 
所 示 。 如 果 想 让 程序 自动 生成 各 种 大 小 的 RG， 则 要 选中 Automatic 单 选 按钮 ， 如 图 9-112 所 示 。 
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图 9-111 RAID 类 型 选择 ， 手 动 分 配 磁盘 图 9-112 自动 分 配 磁盘 
这 里 让 系统 自动 为 我 们 计算 。 在 RAID 5 级 别 下 ， 系 统计 算出 各 种 容量 、 磁 盘 数 量 的 RG 组 
合 。Channel Protection 指 的 是 让 RG 中 所 有 磁盘 成 员 分 布 在 两 个 扩展 柜 中 ， 充 分 保证 元 余 性 。 我 
们 选择 5 块 盘 的 292GB 容量 。 


在 这 个 RG 中 , 我 们 可 以 手动 指定 大 小 ,划分 出 新 的 LUN ( 即 Logical Drive ) 。 这 里 将 全 部 

容量 分 配给 一 个 LUN, 命名 为 SQLLUN1，LUN nz 

的 参数 选择 自 定义 。 Sect appepral ortors batonio cosommae an neNeua og ea ene 
选择 条 带 深度 为 32KB， 每 个 条 带 的 数据 部 分 ee 

的 宽度 就 是 32KB 乘 以 4 块 数据 Segment， 为 2 


ogial DiedO sharsctsictes 
128KB。 这 样 ， 只 要 将 SQL Server 数据 库 的 Extent et 


参数 设置 为 128KB 大 小 , 就 可 以 保证 每 次 读 写 RG en a 
均 为 整 条 读 写 ， 充 分 提高 IO 性 能 ( 但 这 样 做 会 丧 EE 


[Pearescantelerowmarsnp Logea cmvetoLu mspping 


失 并 发 IO 能 力 ) ， 如 图 9-113 所 示 。Preferred 3 ae 


ate Mae later with Etoraoe Parttoning 


controller ownership 表示 这 个 RAID Group 平时 
哪个 控制 器 管理 。 我 们 选择 Slot A， 即 控制 器 A。 ee Em] om | see | 
一 旦 控制 器 A 发 生 故 障 ， 这 个 RG 会 立即 由 控制 图 9-113 选择 条 带 深度 
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器 B 接管。 

Logical Drive-to-LUN Mapping 即 LUN 映射 ， 配 置 这 个 LUN 将 给 哪个 或 者 哪些 主机 使 用 。 
我 们 稍 后 选择 用 专门 的 配置 模块 配置 ， 如 图 9-114 所 示 。 

配置 完 后 ， 系 统 会 提示 是 否 还 要 配置 另外 的 RG 或 者 LUN。 因 为 这 个 RG 全 部 容量 已 经 分 
配给 了 一 个 LUN， 所 以 窗口 中 的 same array 单 选 按钮 为 灰色 。 单 击 Yes 按钮 进入 新 一 轮 的 RG 和 
LUN 配置 。 用 这 种 方法 ， 配 置 所 有 6 个 LUN， 如 图 9-115 所 示 。 
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图 9-114 配置 LUN 映 射 图 9-115 创建 完毕 的 6 个 LUN 

由 于 这 个 环境 中 的 FTP 服务 器 主要 存放 视频 等 大 文件 , 所 以 使 用 RAID 3 级 别 来 提高 传输 性 
能 ， 如 图 9-115 所 示 。 另 外 ， 只 要 选中 某 个 创建 好 的 RG 或 者 LUN， 右 边 窗口 中 便 会 显示 出 这 
个 RG 和 LUN 所 对 应 的 物理 磁盘 以 及 掌管 它 的 控制 器 。 


2. 设置 全 局 热 备 磁盘 


最 好 设置 一 个 或 者 两 个 热 备 磁盘 。 这 样 ， 一 旦 某 块 磁盘 损坏 ， 热 备 磁盘 立即 顶 蔡 ， 以 免 数 据 
丢失 ， 如 图 9-116 所 示 。 


EE 
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图 9-116 选择 天 
设置 完 热 备 磁盘 之 后 ,可 以 进一步 更 改 每 个 RG 或 者 LUN 的 细节 参数 ,如 图 9-117 和 图 9-118 
所 示 。 
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图 9-117 各 种 参数 (1) 图 9-118 各 种 参数 (2) 
3. 设置 LUN 映射 


切换 到 主 界 面 的 Mappings View 选项 卡 ， 然 后 右 击 设备 名 ， 从 弹出 的 快捷 菜单 中 选择 Define 
Host 命令 来 添加 主机 信息 ， 即 使 用 这 台 盘 阵 的 主机 信息 ， 如 图 9-119 所 示 。 

Host Name 可 以 随便 起 名 ， 并 不 一 定 要 与 对 应 主机 的 真正 Hostmame 相同 。 添 加 完 所 有 主机 
面 的 显示 如 图 9-120 所 示 。 
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图 9-119 添加 主机 映射 
添加 完 主 机 名 之 后 ， 还 必须 添加 Host 


Sonoe cave 


Por， 即 必须 让 盘 阵 知道 主机 使 用 哪些 FC 接 男 到 凤 到 下 
口 来 访问 盘 阵 。 右 击 某 个 主机 名 ， 从 弹出 的 快 | 是 | aa 


een ermien rr sco uneornoues | reacrme mer J rr By J Lo] roger npr Te | 
捷 菜单 中 选择 Define Host Port 命令 ， 如 图 | 


9 一 121 所 示 。 


图 9-121 添加 主机 的 FC 端口 信息 
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在 Port Identifier 处 ， 我 们 选择 对 应 的 ID( 即 每 个 主机 FC HBA 卡 上 的 WWN 地 址 ， 盘 阵 会 
通过 Fabric 网 络 自动 发 现 这 些 地 址 ) 。 主机 类 型 当然 选择 Windows 2000/Server 2003 Non-C, Host 
port name 随便 起 一 个 名 字 即 可 ， 如 图 9-122 所 示 。 每 台 服务 器 上 有 两 块 FC 卡 ， 所 以 每 台 主机 共 
有 两 个 接口 ， 在 此 为 每 个 接口 都 定义 一 下 。 定 义 好 每 台 主机 的 接口 之 后 ， 如 图 9-123 所 示 。 
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图 9-122 主机 上 的 FC 端口 信息 图 9-123 所 有 主机 端口 定义 完毕 

在 未 映射 的 LUN 上 右 击 ,从 弹出 的 快捷 菜单 中 选择 Define Additional Mapping 命令 ,打开 如 
图 9-124 所 示 的 对 话 框 。 

在 Host group or host 下 拉 列 表 框 中 选择 Host SQLserver 这 台 主 机 ，Logic unit number 表示 此 
次 映射 给 这 台 主 机 的 LUN, 在 主机 上 将 显示 LUN 的 号 码 。 图 9-124 中, 将 SQLLUNI1 这 个 LUN 
映射 给 主机 SQL Server, 主机 上 显示 的 对 应 这 块 LUN 的 号 码 是 LUN0。 用 这 种 方法 , 将 所 有 属于 
SQL Server 主机 的 3 个 LUN 都 映射 好 后 ， 单 击 close 按钮 结果 如 图 9-125 所 示 。 


Seeetshostgroup orhost Ioglcal unt mumbor (UN), andogicaldyvem creato a 
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FoardoLsever = 


Logieal un rumber (LUN) Oto 1 
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图 9-124 映射 LUN 到 主机 端口 图 9-125 LUN 映射 完毕 


注意 : 单 击 每 台 主机 ,右边 就 会 出 现 这 台 主 机 可 以 访问 的 LUN 及 其 相关 信息 。 每 个 LUN 
只 能 映射 给 一 台 主 机 。 理 论 上 , 一 个 LUN 完全 可 以 映射 给 多 人 台 主 机 共同 访问 使 用 ， 这 就 
需要 用 到 partition 功能 了 。 此 处 不 做 过 多 介绍 。 
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4. 初始 化 LUN 配置 


所 有 设置 做 完 之 后 ， 需 要 进行 初始 化 。 初 始 化 完毕 之 后 ， 才 能 供 主 机 使 用 。 
右 击 每 个 Array 或 者 LUN， 然 后 从 弹出 的 快捷 菜单 中 选择 Initialize 命令 ， 如 图 9-126 和 
图 9-127 所 示 。 


[PTTTTTTTTTTT 】 [TEL 


图 9-126 初始 化 磁 人 盘 阵 列 图 9-127 初始 化 所 有 RAID 组 
右 击 每 个 Array， 从 弹出 的 快捷 菜单 中 选择 属性 命令 ， 可 以 查看 初始 化 的 进度 ， 如 图 9-128 
所 示 。 


初始 化 完成 之 后 ， 盘 阵 即 可 接受 主机 访问 了 。 
其 他 不 同 品牌 型 号 的 磁盘 阵列 产品 的 配置 过 程 大 同 小 异 , 只 要 理解 了 磁盘 阵列 的 组 成 架构 和 
原理 ， 配 置 起 来 其 实 是 很 简单 的 。 


9.6.2 基于 EMC 的 CX700 磁盘 阵列 配置 实例 


在 此 我 们 简要 介绍 一 下 EMC 针对 CX 系列 的 配置 工 
Navisphere。 


1. 登录 Navisphere， 查看 全 局 情况 


全 局 视图 如 图 9-129 所 示 。 图 9-130 为 所 连接 的 两 个 
扩展 柜 中 的 一 个 柜子 里 的 磁盘 列表 。 图 9-131 所 示 为 控制 
器 柜 里 包含 的 两 个 控制 器 的 信息 。 图 9-132 所 示 为 存放 盘 
阵 操作 系统 及 重要 配置 信息 的 私有 LUN。 每 个 控制 器 都 有 
各 自 的 私有 LUN。 图 9-133 所 示 为 映射 LUN 与 主机 用 的 
Storage Groups， 也 就 是 映射 组 。 在 这 个 组 中 的 主机 可 以 访 
问 这 个 组 中 的 LUN。 


并 


图 9-128 初始 化 进度 窗口 
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图 9-129 全 局 视图 
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图 9-130 扩展 柜 中 的 磁盘 列表 ”图 9-131 


图 9-132 用 于 存放 盘 阵 的 操作 系统 以 及 
其 他 配置 信息 的 Private LUNs 


2. 创建 RAID 组 
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图 9-133 用 来 映射 LUN 和 主机 的 


Storage Groups 


(1 ) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create RAID Group 命令 ， 如 图 9-134 所 示 。 
(2 ) 在 如 图 9-135 所 示 的 对 话 框 中 选择 RAID 组 的 ID 、RAID 组 所 包含 的 磁盘 数量 以 及 其 他 
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图 9-134 创建 RAID 组 
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(3 ) 在 创建 好 的 新 RAID 组 上 右 击 , 从 弹出 的 快捷 菜单 中 选择 Bind LUN 命令 创建 LUN, 如 
图 9-136 所 示 。 在 打开 的 对 话 框 中 ,我们 选择 RAID 类 型 为 RAID 5， 如 图 9-137 和 图 
9-138 所 示 。 利 用 上 述 方法 创建 LUN 6 和 LUN 7 两 个 LUN， 如 图 9-139 所 示 。 
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图 9-136 在 RAID 组 上 创建 ( 绑 定 ) LUN 图 9-137 LUN 参数 页 (1) 
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图 9-138 LUN 参数 页 (2) 图 9-139 创建 好 的 两 个 LUN: LUN 6 和 LUN7 
3. 创建 Storage Group 并 绑 定 主机 与 LUN 


(1 ) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create Storage Group 命令 ， 如 图 9-140 
所 示 。 


(2 ) 在 打开 的 对 话 框 中 输入 新 Storage Group 的 名 称 ， 如 图 9-141 所 示 。 
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(3 ) 在 创建 好 的 Storage Group 上 右 击 , 从 弹出 的 快捷 菜单 中 选择 Select LUN 命令 绑 定 LUN， 
如 图 9-142 所 示 。 


(4 ) 将 要 分 配给 这 个 组 的 LUN 移动 到 右边 的 窗口 ， 如 图 9-143 所 示 。 
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图 9-142 选择 要 映射 的 LUN (一 ) 图 9-143 选择 要 映射 的 LUN (二 ) 


(5 ) 切换 到 Hosts 选项 卡 ， 选 择 要 分 配 的 主机 ， 将 其 移动 到 右 侧 窗 口 ， 如 图 9-144 所 示 。 
(6 ) 添加 完 LUN 和 主机 之 后 ， 对 应 的 3 
所 示 。 


E 机 就 可 以 识别 到 对 应 的 LUON， 并 可 以 使 用 了 ,如 图 9-145 
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图 9-144 选择 要 绑 定 的 主机 图 9-145 创建 好 的 Storage Group 
各 种 磁盘 阵列 的 配置 大 同 小 异 ， 总 地 来 说 主要 有 以 下 三 步 。 

(1) 配置 RAID 组 。 

(2) 在 RAID 组 上 划分 LUN。 


(3 ) 将 LUN 映射 给 相应 的 主机 使 用 。 


9.7 ”HBA 卡 逻 辑 架 构 详 析 与 SAN Boot 示例 


9.7.1 HBA 卡 逻 辑 架构 


关于 IOP 


IOP 全 称 IO Processor，20 多 年 前 由 IBM 首先 提出 。 其 根本 目的 是 在 计算 机 IO 设备 上 放置 
一 个 智能 处 理 器 ， 来 处 理 一 些 通信 协议 的 逻辑 ， 从 而 将 原本 需要 由 系统 主 CPU 执行 的 功能 ( 设 
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备 驱动 层面 ) Ofload 到 IO 设备 自身 执行 以 便 节约 主 CPU 资源 。 时 至 今日 , IOP 已 经 被 普遍 使 用 
在 各 种 IO 设备 上 ， 比 如 以 太 网 卡 、FC 卡 、Raid 卡 、SAS 卡 、SCSI 卡 等 。 当 然 仍 有 一 部 分 卡 不 
使 用 IOP， 因 为 目前 的 主 CPU 性 能 已 经 非常 强劲 ， 与 20 多 年 前 的 CPU 效率 不 可 同日 而 语 ， 所 
以 这 类 没有 IOP 的 IO 设备， 其 上 层 逻 辑 功能 主要 由 系统 CPU 完成 。 当 然 ， 随 着 集成 度 的 提高 ， 
各 种 最 新 的 标准 IO 板 卡 基本 都 是 单 芯片 设计 了 ，IOP 也 被 集成 在 了 芯片 内 部 ， 而 且 往往 只 占 很 
小 一 部 分 ， 其 他 都 是 各 种 接口 逻辑 、 加 速 逻 辑 。 

带 IOP 的 IO 板 卡 一 般 都 需要 一 个 OS ( 即 Firmware ) ,这 个 OS 代码 存放 于 IO 板 卡 的 Flash 
或 者 ROM 介质 中 ,有 些 过 于 庞大 的 OS 甚至 干脆 存放 在 了 与 这 个 IO 卡 相连 接 的 磁盘 特定 区 域 中 。 
有 些 板 卡 逻 辑 较 为 简单 ， 也 可 以 不 使 用 OS， 而 直接 使 用 非常 简化 的 单 任务 Firmware。 

不 管 是 IOP 或 者 非 IOP 的 IO 板 卡 ， 如 果 需 要 从 这 张 卡 所 连接 的 外 部 设备 启动 系统 ， 则 都 需 
要 一 个 Optional ROM。Optional ROM 的 作用 见 下 文 。 

非 IOP 的 HBA 比如 Adaptec 2940、LSI 896。 


关于 Firmware 


Firmware 指 运行 在 IO 设备 自身 的 程序 代码 。 其 包含 Tiny BIOS 和 OS 或 者 简化 的 单 任务 代 
码 。Tiny BIOS 用 于 带 IOP 的 IO 卡 加 电 时 自身 的 启动 的 初始 化 操作 ， 其 包括 了 各 种 级 别 的 Boot 
Loader。OS 则 用 于 IOP 载 入 执行 以 实现 这 个 IO 设备 自身 的 功能 ， 比 如 Raid 功能 。Boot Loader 
将 OS 以 及 用 于 其 他 硬件 逻辑 的 代码 加 载 到 对 应 的 内 存 空间 ， 供 这 些 部 件 执行 。 

Tiny BIOS 不 等 于 Optional ROM, 不 要 将 二 者 混淆 。 前 者 是 IO 设备 上 的 IOP 自己 执行 的 ， 
用 于 初始 化 自己 ; 后 者 则 是 主板 上 的 主 CPU 通过 系统 BIOS 载 入 执行 的 用 于 系统 从 设备 外 部 访问 
这 个 IO 设备 。 


关于 Optional ROM 


作用 : 主要 用 于 Boot。Optional ROM 代码 可 以 存放 在 IO 卡 的 ROM 里 ， 也 可 以 存放 在 主 
板 系 统 BIOS 中 ( 如 果 你 的 板 卡 已 经 是 非常 普遍 的 大 众 型 号 的 话 ) 。 从 这 个 设备 Boot 之 前 需要 加 
载 这 个 设备 对 应 的 Optional ROM , 这 样 系统 BIOS 才 可 以 驱动 这 块 卡 从 而 向 这 块 卡 后 面 的 磁盘 读 
写 数据 。 也 就 是 说 ，Optional ROM 里 包含 了 这 块 板 卡 针对 主板 BIOS 的 驱动 程序 。 

IO 设备 自身 可 以 控制 是 否 在 系统 加 电 的 时 候 让 系统 BIOS 加 载 Optional ROM。 系 统 BIOS 
必须 运行 对 应 外 设 的 Optional ROM 才 可 以 输出 这 个 外 设 更 细节 的 信息 ,而 且 也 只 有 运行 Optional 
ROM 才能 让 用 户 进 入 这 个 外 设 的 配置 界面 进行 底层 的 配置 ， 比 如 大 家 经 常会 看 到 服务 器 启动 的 
时 候 提示 按 Ctrl+A 进入 某 配置 界面 。Optional ROM 执行 完 之 后 ， 系 统 BIOS 便 跳 转 到 下 一 个 存 
在 的 Optional ROM 继续 执行 ， 如 果 上 一 个 执行 过 的 Optional ROM 未 进行 任何 配置 变更 ， 则 整 
个 系统 就 未 作 任何 更 改 。 如 果 想 让 系统 BIOS 访问 IO 卡 后 面 的 磁盘 ， 对 于 某 些 卡 ， 仅 仅 执 行 
Optional ROM 是 不 行 的 ， 还 需要 进入 配置 界面 来 打开 一 个 选项 ， 一 般 叫做 “Enable BIOS”。 其 
实 这 个 选项 实际 控制 着 是 否 让 这 个 IO 卡 设备 注册 到 系统 Int13 中 断 向 量 表 中 , 如 果 不 打 开 这 个 选 
项 ， 则 IO 卡 不 向 Int13 注册 ， 则 系统 就 无 法 读 写 IO 卡 后 面 的 磁盘 。 下 文 的 配置 示例 中 会 给 出 相 
关 的 过 程 。 
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HBA 架构 方 框图 


如 图 9-146 所 示 ，IOP 即 为 这 个 IO 设备 的 
CPU; RAM 为 执行 代码 必需 的 内 存 ; ASIC 则 是 辅 
助 运算 的 专用 芯片 ， 比 如 XOR 运算 芯片 ， 可 以 大 
大 降低 IOP 的 负担 ， 提 高 运算 速度 ; Flash 用 于 存放 
Firmware 和 Optional ROM; Bus Controller Chip 用 
于 总 线 数据 传输 的 控制 ， 比 如 PCIE 总 线 控制 。 


非 Boot 的 HBA 卡 访问 流程 


不 支持 Boot 功能 的 HBA 卡 可 以 没有 Optional 图 9-146 HBA 结构 方 框图 
ROM。 这 种 HBA 卡 在 操作 系统 未 加 载 之 前 不 能 对 
其 所 连接 的 物理 设备 进行 访问 。 只 有 在 操作 系统 加 载 之 后 ， 在 操作 系统 中 安装 这 个 设备 的 驱动 程 
序 ， 方 可 对 其 所 连接 的 设备 进行 访问 。 


关于 操作 系统 安装 与 启动 


支持 Boot 的 HBA， 虽 然 其 Optional ROM 可 以 在 OS 未 加 载 前 提供 对 其 自身 的 访问 , 但 是 
由 于 Optional Rom 所 提供 的 访问 方式 也 只 是 非常 低 效率 的 Int13 方式 ， 加 之 传统 BIOS 只 运行 在 
16b 模式 下 ， 非 常 古老 ， 根 本 不 能 满足 需求 ( EFI BIOS 运行 在 64b 模式 下 并 且 对 驱动 支持 方面 有 
了 很 大 改进 ， 另 当 别 论 ) 。 所 以 现代 操作 系统 都 要 求 操作 系统 内 必须 包含 这 个 IO 卡 的 高 级 驱动 ， 
除了 实现 少数 一 些 功 能 之 外 , 几乎 不 再 调用 系统 BIOS 来 访问 IO 设备 。 所 以 , 在 安装 操作 系统 到 
某 个 HBA 所 挂 的 磁盘 时 ， 要 么 操作 系统 安装 介质 已 经 包含 对 应 设备 的 驱动 程序 ， 要 么 就 需要 手 
动用 软盘 等 外 部 介质 加 载 对 应 的 驱动 程序 。 如 果 HBA 所 挂 的 磁盘 或 者 LUN 上 已 经 安装 有 操作 系 
统 并 且 携 带 了 对 应 的 驱动 程序 ， 则 可 以 直接 从 这 个 LUN 启动 操作 系统 。 


9.7.2 支持 Boot 的 HBA 卡 访问 流程 


具体 过 程 见 下 文 描述 。 


提示 : 一 台 计 算 机 包含 有 多 个 BIOS。 主 板 BIOS， 也 叫 系 统 BIOS， 包 含 用 于 访问 所 有 常 
见 I0 设备 的 基本 的 驱动 程序 , 比如 键盘 、 软 驱 、 光 驱 、IDE 硬盘 控制 器 、USB 控制 器 (一 
些 早 期 的 主板 BIOS 不 包含 ) 等 。 对 于 一 些 不 常见 也 不 常用 的 10 板 卡 ， 或 者 功能 比较 复 
杂 的 I0 板 卡 ， 比 如 SCSI 卡 、Raid 卡 、 网 卡 、 显 卡 等 ， 这 些 I0 设备 一 般 都 具有 自己 的 
BIOS， 也 就 是 将 驱动 自己 的 代码 放 到 自己 的 BIOS 中 ,这 些 BIOS 会 在 系统 BIOS 执行 之 
后 逐个 加 载 以 便 让 系统 BIOS 可 以 访问 这 些 设备 。 


这 些 I0 设备 可 以 是 插 卡 形式 的 ， 也 可 以 是 集成 在 主板 上 的 。 它 们 自己 的 BIOS 可 以 存放 
在 IO 板 卡 的 芯片 中 ， 也 可 以 作为 附加 的 代码 部 分 存放 在 系统 BIOS 所 在 的 芯片 中 的 附加 
部 分 ， 所 以 这 些 BIOS 可 以 被 单独 升级 。 这 些 IO 板 卡 独立 提供 的 BIOS 又 称 为 Optional 
ROM。 
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Optional ROM 对 于 一 个 IO 板 卡 来 说 并 不 是 必需 的 , 只 有 以 下 两 种 情形 才 是 必需 的 ,一 是 : 
在 操作 系统 加 载 之 前 需要 被 访问 ( 比如 显卡 ) ， 则 一 定 需要 Optional ROM。 二 是 : 功能 
过 于 复杂 ， 系 统 BIOS 不 包含 它 的 基本 驱动 代码 。DOS 操作 系统 以 及 基于 DOS 的 早期 的 
操作 系统 必须 依附 系统 BIOS 来 对 外 设 进行 IO 操作 , 原因 就 是 因为 DOS 操作 系统 自身 并 
不 包含 任何 设备 驱动 程序 ， 所 以 只 能 调用 系统 BIOS 执行 期 间 在 内 存 驻 留 的 所 有 IO 设备 
驱动 程序 。 但 是 近代 操作 系统 都 会 使 用 自身 的 驱动 程序 直接 操作 IO 设备 ,并 不 需要 系统 
BIOS 的 参与 了 ， 除 非 操作 系统 需要 对 这 些 I0 设备 进行 一 些 非常 底层 的 操作 ， 比 如 设备 
重新 初始 化 等 。 所以, 近代 操作 系统 在 启动 之 后 , 会 用 自己 的 驱动 程序 蔡 代 系统 BIOS 加 
载 的 基本 驱动 程序 。 


系统 BIOS 在 执行 的 过 程 中 ,会 逐个 加 载 所 有 IO 设备 的 Optional ROM。 首 先 系统 BIOS 
会 对 实 内 存 地址 0xC0000 到 0xF0000 进行 扫描 ， 扫 描 单位 是 以 2KB 为 边界 。 所 有 具有 
Optional ROM 的 I0 设备 均 会 在 内 存 对 应 地 址 中 映射 这 些 ROM。 系 统 BIOS 一 旦 发 现 
0xAA55 这 样 的 字 串 ， 便 知道 这 是 某 个 I0 设备 的 ROM 入 口 ，0xAA55 便 是 Optional ROM 
的 签名 。 在 这 个 签名 之 后 是 一 个 字 节 的 指针 ， 这 个 指针 给 出 了 这 个 Optional ROM 在 内 存 
中 占据 了 多 少 512B 的 Block。 这 个 指针 之 后 紧 接 着 的 内 存 部 分 就 是 ROM 实际 代码 的 人口， 
系统 BIOS 直接 跳 转 到 这 个 入 口 开始 读 取 Optional ROM 代码 执行 ，Optional ROM 会 首先 
向 系统 BIOS 注册 其 中 断 向 量 以 便 被 其 他 程序 所 访问 ， 其 次 Optional ROM 还 会 提供 一 个 
用 户 接口 用 于 配置 这 个 I0 设备 ， 比 如 很 多 HBA 在 加 电 启动 之 后 会 在 屏幕 上 显示 “Press 
Chl+Q to enter configuration utility”。 其 次 还 可 以 提供 对 这 个 I0 设备 的 一 些 底层 诊断 。 


如 果 某 个 I0 设备 支持 从 其 所 连接 的 外 部 存储 介质 来 启动 操作 系统 , 则 如 果 这 个 设备 是 非 
常 普遍 的 比如 IDE 控制 器 , 那么 系统 BIOS 中 会 包含 它 的 基本 驱动 , 则 不 需要 任何 其 他 过 
程 , 就 可 以 在 系统 BIOS 的 配置 界面 中 选择 从 这 个 I0 设备 启动 。 但 是 如 果 这 个 IO 设备 需 
要 Optional ROM, 则 在 未 执行 Optional ROM 之 前 , 系统 BIOS 中 不 会 识别 到 这 个 IO 设备 ， 
从 而 也 就 不 会 提供 从 这 个 设备 启动 的 选项 。Optional ROM 执行 的 过 程 中 ,会 利用 一 种 由 
系统 BIOS 提供 的 通用 的 API， 即 BIOS Boot Specification (BBS ) API 来 向 系统 BIOS 注 
册 自 身 , 这 样 , 在 系统 BIOS 配置 界面 的 Boot sequence 设置 中 就 可 以 出 现 对 应 的 设备 和 这 
个 设备 已 经 识别 到 的 外 部 介质 了 。 


仔细 的 读者 可 以 发 现 ， 一 般 在 进入 系统 BIOS 配置 界面 之 前 ， 系 统 BIOS 都 会 首先 完成 所 有 
Optional ROM 的 执行 加 载 过 程 之 后 才 会 进入 配置 界面 ， 其 目的 就 是 为 了 收集 所 有 可 供 启动 的 外 
设 列 表 。 如 果 在 没有 加 载 全 部 可 能 的 Optional ROM 之 前 就 进入 配置 界面 ， 则 用 户 也 不 会 看 到 对 
应 的 设备 ， 就 会 造成 不 便 。 

(1) 我 们 以 Qlogic 公司 QLA2340 FC 卡 来 举例 。 开 机 后 按照 相关 提示 进入 FC 卡 的 BIOS 

配置 界面 ,6 如 图 9-147 和 图 9-148 所 示 , 选 择 需要 配置 的 卡 , 进 入 之 后 ,选择 Co tion 
Settings 选项 。 


Se loct Host dapter 
fapler Type 


1/0 Mddrews 


ULRZ34 
[LT 


ITTTTITTTTETITTITCTIIETITTTY3 


图 9-147 选择 待 配置 的 卡 
(2 ) 如 图 9-149 所 示 ， 进 入 之 后 ， 


to se lect option 


[TT 


Selected Mdapter 


Adapter Tupe 1 Rddress 
| 


Conf igurat ion Settings 


Mduancod Adaptar Sottings 


选择 Ad 


Fibre Disk Utility 
oophack Data Test 
Select host Riapter 
Exit TastWTIL 


9 《Arrow keua》 to wovo curcor, Enter> to coloct option, (Esc> to 


图 9-148 进入 Configuration Settings 
apter Settings 选项 ， 出 现 如 图 9-150 所 示 的 窗口 
ULogic 27 


ed Mdapter 


BIOS fd 


Adapter Port Nane 
Host Adapter BIOS 


Enabled 
125 
Dieabled 
Connoction Dpti 1 


Spimyp Dolay 


Fibre Chawne1 Tape Supyor 
Data Rat 


abled 


VE to select option 


backup 


图 选择 De Settings 到 9-150 Enable BIOS 

(3 ) 图 中 显示 的 Host Adapter BIOS 就 是 指 Optional ROM, 将 其 Enable, 表 系统 BIOS 
在 执行 的 过 程 中 加 载 。 退 出 ， 然 后 单 击 图 9-149 所 示 窗 [ ! 中 的 Selectable Boot Settings 来 
选择 可 供 启动 的 LUN， 出 现 如 图 9-151 所 示 的 窗口 ， 此 处 ， 选 择 4 个 列表 中 的 第 一 个 ， 


完 将 列 出 所 识别 到 的 FC” 


Target， 


CT 


ed Pdaptor 


Se lectab lo Boot Settings 


Selectable boot 

(Primary) Boot Port Nane ,Lun 
Boot Port Nane Lan 
Boot Port Nam Lun 
Boot Port Nane ,Lun 


Emabled 

BBBBBEBB6BPB6BBD， 
HH 
B898988899899B, 
CT 


C* to clear a Boot Port Nam 


如 图 9-152 所 示 。 选 择 对 应 的 Target， 退 出 ， 


Port ID 


图 9-151 进入 Selectable Boot 


图 9-152 


选择 识别 到 的 FC Pergot 
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(4 ) 出 现 如 图 9-153 所 示 的 窗口 ， 这 个 窗口 列 出 了 这 个 FC Target 中 所 包含 的 所 有 LUN 和 
其 对 应 的 ID。 此 处 ,选择 LUN0， 退出， 发 现 所 选择 的 LUN 已 经 出 现在 Boot List 中 ， 
如 图 9-154 所 示 。 


图 9-153 进入 Selectable Boot 图 9-154 选择 识别 到 的 民 FC 二 

(5 ) 在 配置 完成 后 ， 退 出 FC 卡 BIOS 配置 界面 并 重 让 Optional ROM 重 新 内 系 系统 

BIOS 注册 启动 LUN 并 且 加 载 Optional ROM。 这 样 便 可 以 从 LUN 启动 操作 系 

如 果 操 作 系统 尚未 安装 ， 则 需要 通过 安装 盘 启动 后 ， 加 载 对 应 的 驱动 程序 ，; 
在 这 个 LUN 中 ， 如 图 9-155 和 图 9-156 所 示 


Exit Fast ?UTIL 
Conf igurat ttings modified 


| Return to Fast?UTIL 


ave changes | 
Do not save changes 


图 9-155 进入 Selectable Boot 图 9-156 选择 识别 到 的 FC Target 


9.8 国产 中 高 端 FC 磁盘 阵列 


提 到 Infortrend 这 个 名 字 ， 圈 内 人 可 谓 无 人 不 知 无 人 不 晓 ， 人 二 国外 人 本 HA 个 宛 ， 因 
为 他 们 的 产品 几乎 被 所 有 二 三 线 厂商 OEM 过 , 在 国内 是 可 bs 的 LSI 贴 牌 产品 平起平坐 的 
这 类 产品 都 有 个 否 就 是 中 规 中 答 、 不 高 不 低 ， 该 有 的 都 有 ， 没 有 的 可 二 次 开发 ， 硬件 品质 和 
做 工 优良 ,稳定 可 靠 , 特别 适合 于 OEM 给 那 些 把持 着 市 场 和 时 首 能 力 但 是 却 兰 于 没有 产品 又 不 
想 投入 太 多 研发 成 本 的 厂商 。Infortrend 也 算是 在 存储 界 打拼 了 20 年 的 老 厂 商 了 ， 其 产品 也 不 知 
被 多 少 其 他 后 入 存储 界 的 厂商 研究 、 学 习 和 借鉴 过 ， 其 在 中 国 国家 专利 局 有 40 多 项 专利 。 

如 图 9-157 所 示 为 Infortrend 的 产品 Portfolio， 其 中 圳 括 了 同时 支持 块 和 文件 访问 方式 的 统 
一 存储 产品 和 ESDS 系列 块 存储 产品 

提示 : ESDS4000 和 ESDS5000 系列 在 落笔 时 即将 上 市 。ESVA 系列 属于 

我 们 将 会 在 本 书 NAS 一 1 介绍 Infortrend 的 本 书 存储 产品 , 在 集群 

殊 的 集群 方式 ， 在 容 灾 一 章 介绍 Infortrend 的 容 灾 复制 技术 


端 存储 系统 


章 中 介绍 ESVA 特 
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Infortrend 


ESVA 


ESDS 5000 虚拟 高 端 


ESDS 4000 
ESDS 3000 项 目 专 供 


ESDS 1000 Block Storage 


渠道 热 销 
em 
: : 


EonNASPro EonNAS1000 EonNAs3000 Unified Storage 


图 9-157 Infortrend 产品 系列 一 览 
Infortrend 的 FC 阵列 产品 分 为 两 个 系列 ， 一 个 是 中 低 端 EonStor DS ( ESDS ) 系列 ; 另 一 个 
是 中 高 端 ESVA ( Enterprise Scalable Virtualized Architecture ) 系列 。 


9.8.1 Infortrend 中 低 端 ESDS 系列 存储 系统 

如 图 9-158 所 示 为 ESDS 系列 的 几 种 规格 ， 其 中 包括 2U 2.5 寸 盘 24 盘 位 双 控 、2U 3.5 寸 盘 
12 盘 位 双 控 、3U 3.5 寸 盘 16 盘 位 双 控 、4U 3.5 寸 盘 24 盘 位 双 控 , 以 及 高 密度 的 4U 3.5 寸 盘 48/60 
盘 位 双 控 。 


图 9-158 ESDS3000 各 种 规格 的 控制 器 
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市 场 上 能 做 高 密度 盘 柜 的 厂商 不 太 多 ,其 中 不 太 好 掌握 的 几 个 技术 是 散热 和 在 线 热 插 拔 。 在 
有 些 解决 方案 中 热 插 拔 必须 把 上 机 箱 盖 全 部 打开 , 并 且 要 么 抽出 整个 机 箱 ( 基本 不 可 行 , 太 沉 ) ， 
要 么 机 箱 上 方 留 有 足够 空间 ， 这 种 方案 在 维护 的 时 候 很 不 方便 。 而 另外 一 些 方案 将 磁盘 分 为 多 个 
组 ， 每 个 组 放 在 一 个 抽 导 里， 可 以 以 抽 屈 为 单元 整个 拉 出 ， 然 后 更 换 其 中 的 磁盘 。 整 个 抽 履 拉 出 
的 时 候 , 并 不 会 影响 该 抽 层 内 的 磁盘 IO 访问 , 这 就 需要 抽 懂 与 控制 器 上 的 SAS 通道 芯片 / 卡 之 间 
仍 有 物理 连接 是 通过 一 种 叫做 "坦克 链 ” 的 形态 实现 的 , 或 者 也 可 以 称 之 为 脐带 。 如 图 9-159 
所 示 为 坦克 链 实物 图 ， 这 种 设计 能 保护 和 稳定 SAS 和 电源 连 上 且 随 着 抽 层 的 推 入 可 以 收缩 到 
原 有 空间 内 ， 非 常 方便 。 只 需要 注意 抽出 和 插入 时 的 振动 控制 即 可 。 


图 9-159 坦克 链 实物 图 
让 人 比较 惊讶 的 一 点 是 , Infortrend 能 够 在 4U 空间 内 容纳 60 块 3.5 寸 磁盘 +2 个 存储 控 
这 在 业界 是 领先 的 。 如 图 9-160 所 示 为 各 种 规格 控制 器 机 头 的 后 视图 。 扩 展 性 方面 ， 每 个 控 
均 提 供 一 个 可 更 换 的 通道 模块 位 。 最 大 可 连接 5 个 磁盘 扩展 柜 , 如 果 用 60 盘 位 的 高 密度 盘 柜 
加 上 控制 器 自 带 的 60 盘 位 ， 总 共 可 以 接 入 360 盘 。 


24 盘 位 控制 器 机 头 60 高 密 盘 位 控制 器 机 头 


图 9-160 ESDS3000 系列 控制 器 后 视图 
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早期 的 外 置 存储 系统 都 是 使 用 电池 直接 保护 所 有 数据 缓存 ,电池 电量 有 限 ， 如 果 长 时 间 无 法 
恢复 供电 , 数据 就 会 丢失 。 最 新 的 设计 一 般 都 是 使 用 Flash 介质 在 掉 电 之 后 永久 存储 数据 缓存 内 的 
脏 数 据 。 好 处 是 电池 可 以 不 用 很 大 。 图 9-161 左 图 为 ESDS3000 的 备 电 模块 , 包含 电池 和 一 块 Flash 
卡 ， 右 图 则 为 传统 备 电 方式 。 


@ 为 电池 ，@ 为 Flash 闪 存 卡 用 传统 方式 用 大 号 电池 来 保护 数 


于 掉 电 后 保存 RAM 中 的 数据 据 缓存 ， 费 劲 费 电 还 不 安全 


图 9-161 BESDS3000 备 电 模块 


ESDS3000 支持 主流 的 存储 协议 ， 包 括 8G/16G FC、1/10GbE Eth、6Gb SAS， 并 日 提供 了 各 
种 通道 扩展 模块 ， 如 图 9-162 所 示 。 


8Gb FC 16Gb FC 10GbE SFP+ 10GbE RJ45 


1GbE RJ45 4x6Gb MiniSAS 


图 9-162 ESDS3000 控制 器 扩展 通道 模块 
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9.8.2 Infortrend 中 高 端 ESVA 系列 存储 系统 


ESVA 全 称 是 Enterprise Scalable Virtualized Architecture， 主 打 Scale-Onut 和 虚拟 化 。 最 大 单 系 
统 可 以 Scale-Onut 到 12 个 节点 ， 每 节点 400 块 盘 ， 共 4800 盘 ， 如 图 9-163 所 示 。 


提示 : 我 们 会 在 第 15 章 讲 集群 的 时 候 介绍 ESVA 的 Scale-Out 和 虚拟 化 方式 。 


如 图 9-164 所 示 为 ESVA 系统 内 单个 节点 配置 , 机 头 双 控 挂 了 一 批 扩展 柜 ,每 个 控制 器 提供 
一 个 MiniSAS 后 端 接口 ， 可 以 串联 多 个 扩展 柜 ， 前 端 则 提供 最 大 8 个 FC 接口 和 4 个 Et 接口 。 


EE 
EE 
上 E 
I 

l 

| 

| 


| 


1 |B 
Fi 


图 9-163 ESVA 存储 系统 图 9-164 ESVA 单 节点 示意 图 


9.8.3 Infortrend 存储 软件 特性 及 配置 界面 


在 软件 特性 方面 ，ESDS 和 ESVA 系列 支持 主流 技术 ， 比 如 快照 克隆 、 自 动 精简 配置 Thin 
Provision 、 远 程 复制 、 自 动 存 储 分 级 。 对 于 重 删 这 种 非 主流 特性 ， 一 般 离线 或 者 近 线 存 储 用 得 较 
多 , 不 支持 。 对 于 快照 ，ESDS 支持 4096 个 ，ESVA 支持 16000 个 ; 对 于 自动 存储 分 级 ，ESDS 支 
持 2 个 层级 ， 而 ESVA 支持 4 个 层级 。 另 外 ，ESVA 还 支持 针对 Thin 卷 进 行 NTFS/EXT2/EXT3 
文件 系统 的 空间 回收 ， 这 一 点 难能可贵 。 

提示 : 我 们 会 在 容 灾 的 章节 中 介绍 Infortrend 远程 复制 技术 的 一 些 特点 。 

串口 是 比较 常见 的 配置 接口 ， 多 数 产品 在 串口 配置 方面 做 得 是 比较 粗 枝 大 叶 的 ， 有 些 只 提供 
命令 行 接口 ， 人 机 交换 很 不 友好 。 令 人 欣慰 的 是 Infortrend 提供 了 菜单 模式 的 配置 方式 ， 极 大 增 
强 了 便捷 性 ， 这 一 点 挺 难得 的 ， 如 图 9-165 所 示 。 
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Cache Status: Clean 


MaxTmum 
LUNs Per 
Max Number of concurrent Host-LUN Connection - Def[| Auto 
Number of Tags Reserved for each Host-LUN Connectio| 1 32) 
Peripheral Device Type Parameters 2 
Host Cylinder /Head/sector Mapping configuration 4 
Fibre Connection Option - Loop only 8 


Host-side Parameters 
Drive-side Parameters 
Disk Array Parameters 
Controller Parameters 


图 9-165 串口 菜单 配置 方式 
同时 ，Infortrend 的 SANWatch GUI 图 形 界面 ， 其 实 是 Infortrend 的 一 个 软件 套件 ， 其 包含 了 
Storage Manager、Replication Manager、Virtualization Manager、Disk Performance Monitor、EonPath 


多 路 径 软 件 以 及 应 用 快照 一 致 性 代理 组 件 


i 


mao EonPath 多 路 径 管理 Me BD me | me [~ 
图 9-166 ”SANWatch 套件 
SANWatch 可 以 让 用 户 用 HTTP 方式 通过 Web 页 面 来 配置 存储 系统 , 如 图 9-167~ 图 9-169 
所 示 。 可 以 看 到 其 显示 的 元 素 还 是 很 多 样 化 的 ， 更 加 注重 用 户 体验 ， 在 如 今 互联 网 大 潮 下 ， 还 是 
能 够 跟 得 上 时 代 的 。 
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图 9-167 GUI 图 形 界 面 (1) 
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图 9-168 GUI 
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图 形 界 面 (2) 
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图 9-169 GUI 图 形 界面 (3) 


9.9 小 结 


磁盘 阵列 的 前 端 和 后 端 用 FC 网 络 作为 通路 取代 原来 的 并 行 SCSI 通路 技术 , 获得 了 极 大 的 成 
功 ! 如 果 说 将 主机 通道 蔡 换 成 FC 通路 只 能 称 为 半 网 络 的 话 , 那么 将 一 个 个 磁盘 作为 FC 网 络 上 的 
节点 对 待 ， 可 就 是 彻 彻底 底 的 网 络 化 存储 系统 了 。 这 也 自然 冰释 了 “网 络 存储 ”和 “存储 网 络 ” 
提示 : 此 时 ， 我 们 再 来 看 本 书 第 2 章 中 所 描述 的 那个 “网 中 有 网 ”的 模型 ， 可 以 看 到 ， 
整个 系统 ， 所 有 通路 ， 都 可 以 说 是 网 络 化 的 了 ， 只 不 过 CPU 内 存 总 线 和 主机 IO 总 线 应 
该 算是 半 网 络 化 ， 只 是 一 个 总 线 ， 上 面 没有 网 络 化 所 特有 的 “协议 ”和 “开销 ”、 包 交 
换 等 词汇 。 


目前 ，NGIO ( Next Generation IO ) 已 经 提 上 日 程 。 这 种 架构 就 是 将 主机 IO 总 线 甚至 内 存 
总 线 都 用 交换 式 网 络 来 连接 。 可 想 而 知 , 这 个 交换 网 络 速率 肯定 很 高 , 稳定 性 和 可 扩展 性 也 很 强 。 
到 了 Next Generation 时 代 , 内 存 、CPU 和 各 种 IO 设备 可 以 在 地 理 上 相隔 很 远 , 甚至 可 以 通 
过 网 络 共享 。 内 存 可 以 不 仅仅 被 一 个 CPU 使 用 ,多 个 CPU、 多 个 内 存 、 多 个 IO 控制 器 之 间 都 
是 点 对 点 交换 式 互联 通信 。 这 是 一 个 很 有 吸引 力 的 课题 ， 就 像 存储 网 络 化 一 样 。 对 于 存储 网 络 化 ， 
位 于 A 地 的 主机 可 以 识别 并 使 用 远 在 相隔 和 干 里 的 B 地 一 台 盘 阵 上 的 LUN。 那 么 对 于 网 络 化 的 系 
统 总 线 , A 地 的 CPU 可 以 访问 位 于 B 地 的 内 存 阵 列 或 者 位 于 B 地 的 某 个 IO 控制 器 , 它们 之 间 都 
通过 网 络 相连 。 

说 明 :有 人 将 上 面 描述 的 架构 ， 称 为 System Area Network， 即 SAN ( 系统 区 域 网 络 ) 。 有 

意思 的 是 ， 它 和 Storage Area Network 的 简称 同名 。 


目前 基于 PCI-E 网 络 的 MR-IOV 已 经 逐步 形成 标准 ,包括 Infiniband、NGIO、FutureIO 在 
内 的 多 种 太 过 超前 的 “将 计算 机 总 线 长 出 主机 外 面 ”的 想法 ,现在 看 来 都 没有 成 为 主流 。 那 么 这 
次 依赖 开放 式 低 成 本 高 速 的 PCI-E 通道 技术 而 生 的 MR-IOV， 同 样 也 是 这 个 目的 ， 它 是 否 能 够 
发 展 为 主流 并 促成 革命 ， 让 我 们 拭目以待 ! 
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第 0O 音 


DAS、SAN 和 NAS 


三 是 甬 3 


" DAS 
" SAN 
" NAS 


FC 已 经 成 功 地 将 传统 的 磁盘 阵列 改造 成 了 彻底 网 络 
化 传输 的 磁盘 阵列 ， 不 仅 从 盘 阵 到 主机 的 通路 成 了 网 络 
化 ， 就 连 盘 阵 后 端 控制 器 到 磁盘 的 连接 也 被 彻底 网 络 化 
了 。 尤 其 对 盘 阵 后 端的 改革 更 是 一 个 惊人 的 创举 ! 

盘 阵 后 端的 网 络 化 使 可 接 人 磁盘 节点 数 大 大 增加 ， 
可 扩展 性 大 大 增强 。 一 时 间 各 个 厂家 纷纷 制造 出 自己 的 
盘 阵 ， 由 于 后 端 接 和 人 容量 增加 ， 这 些 盘 阵 不 是 几 个 磁盘 
箱 就 能 放下 的 了 ， 它 们 动 辑 就 要 占用 几 个 大 机 柜 。 机 房 
中 占 地 最 大 的 往往 就 是 存储 设备 ， 而 不 是 主机 设备 。 

存储 区 域 网 络 (Storage Area Network ，SAN ) 这 个 概 
念 , 直到 FC 革命 成 功 之 后 ,其 意义 才 真 正体 现 出 来 , 存 
储 才 真 正 走向 了 网 络 化 。 在 广义 中 ， 各 种 存储 架构 都 可 
以 称 为 SAN， 因 为 就 算 直接 连 到 主板 上 的 IDE 通道 也 可 
以 连接 两 块 磁盘 。 从 这 种 意义 上 说 ， 它 就 是 一 个 2 节点 
网 络 。 
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10.1 NAS 也 疯狂 


武当 乃 张 真人 所 创 。 想 当年 , 张 真人 就 是 在 武当 创立 了 卷 管理 和 文件 系统 的 伟大 理论 ! 如 今 ， 
张 真人 已 经 逝去 多 年 。 然 而 ， 他 的 理论 却 被 广泛 地 应 用 着 ， 而 且 深 入 人 心 。 不 过 , 没 和 人 会 追究 起 
到 底 是 谁 创立 了 这 些 理论 ， 因 为 它 太 广泛 了 , 广泛 地 以 至 于 没有 人 去 理会 它 了 。 


10.1.1 另辟蹊径 一 一 乱 谈 NAS 的 起 家 


武当 也 跟 上 了 时 代 的 变化 , 不 但 本 身 的 体制 从 公有 制 改 成 了 股份 制 , 而 且 董事 会 还 决定 将 武 
当 仓库 全 面 对 外 开放 ,利用 一 切 可 以 利用 的 手段 盔 利 。 除 去 货币 贬值 的 因素 , 收费 比 张 真人 时 代 
贵 出 了 好 几 倍 。 利 润 大 部 分 属于 武当 董事 长 瓜 董 , 剩 下 的 除了 给 员工 开 点 工资 外 , 全 部 用 来 扩容 
仓库 和 加 强 仓库 建设 ， 以 获取 更 大 的 利润 。 


1. 武当 仓库 简要 介绍 


武当 仓库 是 一 个 历史 悠久 、 源 远 流 长 的 大 型 仓库 , 其 创始 人 是 张 真人 。 起 初 只 是 为 了 满足 武 
当 本 派 存 放 货 物 使 用 ,后 来 对 外 开放 。 仓 库 分 为 8 个 库 区 , 每 个 库 区 中 又 有 不 计 其 数 的 房间 。 整 
个 仓库 配备 了 两 名 仓库 管理 员 , 各 自 管理 4 个 库 区 。 一 旦 某 个 管理 员 请 假 不 能 到 岗 ， 另 外 一 位 管 
理 员 就 要 和 暂时 管理 全 部 库 区 。 仓库 共有 东西 两 道 大 门 , 各 由 一 位 库 管 员 把 守 。 仓库 地 理 位 置 优越 ， 
其 前 方 就 是 一 个 立交 桥 大 枢纽 系统 ， 当 地 路 政 部 门 给 予 武 当 极 其 优越 的 条 件 , 专门 为 武当 仓库 的 
两 道 大 门 修了 能 直通 大 枢纽 的 高 速 路 。 

武当 仓库 当前 的 运作 模式 如 图 10-1 和 图 10-2 所 示 。 


i 


图 10-1 武当 仓库 当前 运作 模式 图 10-2 当前 后 端 存储 网 络 架构 
自从 武当 仓库 宣布 对 外 全 面 开 放 后 ， 短 短 的 一 天 内 ，8 个 库 区 全 部 被 预 售 一 空 。 买 家 当然 都 
是 赫 太 有 名 的 大 门派 ， 因 为 也 只 有 他 们 才 出 得 起 高 价 。 
由 于 体 改 的 时 候 , 当年 被 张 真人 看 好 的 微软 道 长 被 瓜 董 打发 回 家 了 , 所 以 现在 武当 仓库 只 
两 位 根据 提货 单 和 入 库 单 进行 取 货 、 存 货 的 库 管 员 。 
当前 武当 提货 单 /存货 单 格式 如 图 10-3 所 示 。 
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图 10-3 当前 武当 仓库 货 单 

每 个 门派 都 通过 交通 枢纽 来 向 武当 仓库 存 取 货 物 。 武 当 存 取 货 物 的 单据 上 没有 对 货物 属性 的 
描述 , 仓库 管理 员 只 需 根 据 货物 存 取 单 据 上 描述 的 房间 号 段 来 将 对 应 的 货物 取出 或 者 存 入 , 而 不 
管 这 些 货物 是 什么 ， 有 多 少 。 

所 以 , 每 个 门派 要 有 一 个 理 货 员 , 这 个 理 货 员 知道 什么 货 应 该 去 哪些 房间 提取 , 以 及 有 多 少 
个 空 闻 房间 。 他 自己 保留 了 一 个 房间 使 用 情况 图 , 每 当 本 门派 需要 提取 什么 货物 , 理 货 员 就 根据 
这 个 对 应 图 计算 出 货物 对 应 的 存储 房间 , 然后 填写 武当 仓库 货物 存 取 单 交 给 仓库 管理 员 , 管理 员 
将 对 应 房间 中 的 所 有 货物 交 给 理 货 员 , 理 货 员 在 将 货物 整理 好 后 交 给 本 门派 使 用 。 存货 的 过 程 也 
类 似 , 理 货 员 记 录 好 货物 要 存 入 的 房间 , 然后 填写 货物 存 取 单 , 将 存 取 单 和 货物 交 给 仓库 管理 员 。 
管理 员 根 据 房间 的 号 码 将 货物 依次 放 入 对 应 房间 。 值得 说 明 的 是 , 货物 存 取 单 上 的 房间 必须 是 连 
续 的 , 不 允许 断 开 存放 。 连 续 的 房间 数量 最 大 是 128 个 , 超过 128 个 房间 的 货物 ， 就 需要 填写 多 
张 货物 存 取 单 了 ， 如 图 10-4 所 示 。 


图 10-4 填 好 的 货 单 

武当 瓜 董 天 天 研究 着 怎么 从 现 有 的 资源 中 , 榨取 最 后 一 滴 利 润 。 经 过 调查 , 他 发 现 各 门派 都 
养 着 一 名 理 货 员 。 瓜 董 心 想 其 他 门派 一 定 也 很 头疼 ， 能 少 养 人 就 少 养 人 。 这 天 晚上 ， 反 复 琢 磨 ， 
他 终于 想到 一 个 绝招 。 由 于 各 门派 目前 都 养 着 一 名 理 货 员 ,他们 要 付 劳务 费 。 如 果 用 武当 的 人 来 
充当 理 货 员 , 卖 服务 给 各 门派 。 而 每 个 门派 都 会 付 一 份 劳 务 费 给 我 ， 而 我 只 需要 付 一 份 工资 给 理 
货 员 就 可 以 了 。 真 是 一 本 万 利 啊 ! 

另外， 由 于 江湖 政府 换届 时 ， 瓜 董 没有 搞 好 关系 ,使 武当 每 月 需要 向 江湖 政府 缴纳 高 额 的 
高 速 公路 使 用 费 ， 这 让 一 向 以 节省 成 本 著称 的 瓜 董 苦 不 堪 言 。 瓜 董 决定 抛弃 高 速 公路 ,使 用 普 
通 公路 。 
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值得 称赞 的 是 , 瓜 董 不 是 个 爱面子 的 人 , 他 为 了 节省 成 本 ,可 以 不 惜 一 切 代价 。 他 亲自 把 微 
软 道 长 请 回 了 武当 ， 让 他 担任 仓库 理 货 大 总 管 职务 。 随 后 ， 瓜 董 联系 了 各 门 各 派 掌 门人 ,让 他 们 
把 理 货 的 工作 外 包 给 武当 做 ， 劳 务 费 比 原来 有 所 优惠 。 各 门派 都 同意 了 。 

微软 道 长 手下 可 以 有 多 个 分 管 。 各 个 门派 使 用 的 货物 记录 方式 并 不 相同 , 大 部 分 门派 使 用 的 
是 微软 道 长 所 创立 的 NTFS 记录 方式 ， 而 有 些 则 使 用 的 是 少林 雷 牛 大 师 所 创 的 EXT 格式 。 既 然 
要 将 货物 记录 服务 全 部 外 包 给 武当 ， 那 么 微软 道 长 无 疑 要 将 所 有 这 些 门派 使 用 的 记录 方式 都 实 
现 ， 从 而 为 每 个 门派 服务 。 微 软 道 长 遂 发 布告 示 ， 广 招 天 下 贤士 来 任职 分 管 职务 , 每 个 分 管 管 理 
其 各 自 的 货物 记录 方式 。 图 10-5 和 图 10-6 为 改制 之 后 的 仓库 管理 模式 。 


通 往 各 个 门派 通 往 各 个 主机 


图 10-5 改制 之 后 的 仓库 架构 图 10-6 改制 之 后 的 后 端 存储 网 络 架构 
2. 改制 之 后 的 仓库 架构 


武当 仓库 经 过 这 样 的 改造 之 后 , 功能 更 加 强大 了 。 唯一 不 足 的 是 为 了 节省 成 本 将 原本 高 成 本 
的 高 速 公 路 替换 成 了 普通 公路 。 
原来 的 单据 显然 不 适合 仓库 当前 的 运作 模式 了 , 仓库 的 货物 存 取 单 也 改版 了 , 如 图 10-7 所 示 。 


图 10-7 改制 之 后 的 货 单 
从 武当 仓库 整改 之 后 的 新 单据 中 可 以 发 现 ,现在 各 个 门派 只 要 告诉 武当 仓库 的 理 货 员 需要 什 
么 货物 及 多 少数 量 就 可 以 了 , 完全 不 用 记录 这 些 货物 实际 放 到 了 哪个 房间 , 在 哪里 及 怎么 去 这 些 
内 容 。 计 算 这 些 复杂 的 对 应 关系 的 工作 完全 移交 给 了 武当 仓库 理 货 员 来 做 。 理 货 员 计算 好 之 后 ， 
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生成 提货 /存货 单 ， 交 给 库 管 员 , 直接 去 对 应 房间 提 / 存 货物 。 理 货 员 与 库 管 员 之 间 的 交互 ， 速 度 
快 了 很 多 ， 因 为 完全 是 在 仓库 内 部 进行 通信 了 ， 不 需要 跨越 缓慢 的 公路 交通 系统 。 

经 过 实践 , 瓜 董 的 这 套 做 法 还 真 取得 了 显著 成 效 , 各 门派 无 须 雇 用 理 货 员 , 无 须 支付 昂贵 的 
高 速 费 ， 节 省 了 成 本 。 同 时 ， 瓜 董 也 发 了 财 。 不 过 唯一 不 足 的 是 对 于 普通 公路 进行 货运 的 速度 ， 
各 门派 不 太 满 意 。 但 是 相对 于 成 本 大 大 降低 和 便捷 带 来 的 好 处 ， 各 门派 也 只 有 策 牧 速度 了 。 


10.1.2 ”双管齐下 一 一 两 种 方式 访问 的 后 端 存储 网 络 


但 是 有 的 仓库 租用 者 对 这 各 方案 并 没有 兴趣 ,他 们 不 但 追求 速度 ,而 且 情 愿 用 自己 的 理 货 员 ， 
也 不 相信 仓库 提供 的 理 货 员 。 这 种 客户 得 罪 不 起 , 那么 就 给 他 单独 的 政策 , 还 是 采用 原来 的 方式 
使 用 仓库 ， 和 新 方式 互 不 影响 。 在 仓库 前 面 开辟 了 新 的 道路 去 接 入 高 速 枢 纽 。 这 样 就 满足 了 两 种 
不 同 的 需求 ， 如 图 10-8 和 图 10-9 所 示 。 


通 往 不 追求 高 束 通 往 不 息 成 本 追 连接 到 不 要 求 高 连接 到 要 求 高 束 
成 本 优先 的 门派 求 高 速度 的 门派 速度 的 主机 度 的 主机 
图 10-8 旁 路 传统 访问 图 10-9 两 种 方式 访问 的 后 端 存 储 网 络 


10.1.3 万 物 归 网 络 文件 系统 


微软 老道 在 吸取 瓜 董 的 思想 之 后 , 终于 创立 了 自己 的 理论 。 武 当 的 仓库 就 像 一 个 大 的 卷 ,一 
个 大 的 磁盘 阵列 。 它 可 以 划分 出 多 个 LUN 供 多 个 使 用 者 使 用 。 而 每 个 使 用 者 必须 有 自己 的 文件 
系统 , 因为 这 个 LUN 只 是 一 个 卷 设 备 , 只 提供 了 不 计 其 数 的 房间 存放 货物 。 至 于 怎么 存放 货物 。 
需要 由 使 用 者 自己 决定 和 管理 ， 也 就 是 用 文件 系统 来 管理 卷 ， 像 理 货 员 作 货 物 记录 一 样 。 

微软 老道 把 瓜 董 的 思想 用 在 了 存储 上 ， 他 把 文件 系统 的 功能 从 使 用 者 处 迁移 到 了 磁盘 阵列 之 
上 ,让 磁盘 阵列 自己 管理 存储 空间 。 而 对 外 提供 统一 的 用 户 接口 ( 货物 存 取 单 据 v2.0 ) ， 使 得 使 用 
者 不 用 再 记录 某 某 文件 和 卷 上 房 区 或 者 簇 块 的 对 应 关系 ,这 个 工作 统统 由 盘 阵 上 的 集中 式 文件 系统 
模块 处 理 。 使 用 者 只 需 通过 网 络 告诉 这 个 文件 系统 需要 存 取 什么 文件 , 长 度 是 多 少 就 可 以 了 。 具体 
存 取 数 据 的 过 程 ,由 集中 式 文件 系统 来 做 ,使 用 者 只 需 等 待 接收 数据 就 可 以 了 。 同 样 , 在 存 文件 的 
时 候 , 使 用 者 只 需 告 诉 文件 系统 要 存 哪些 数据 , 提供 一 些 文件 名 、 长 度 、 哪 个 目录 下 等 信息 就 可 以 
了 ,， 至 于 文件 存 到 卷 的 哪些 空余 肩 区 完全 由 盘 阵 上 的 文件 系统 逻辑 来 处 理 ， 使 用 者 不 必 关 心 。 

位 于 盘 阵 上 的 集中 式 文件 系统 得 益 于 包 交换 网 络 , 可 以 同时 处 理 多 个 使 用 者 的 请 求 。 它 可 以 
给 每 个 使 用 者 提供 各 自 的 文件 夹 目录 ， 并 且 可 以 为 这 些 目录 限定 允许 存放 的 最 大 数据 量 。 总 之 ， 
文件 系统 可 以 实现 的 任何 功能 都 可 以 在 盘 阵 上 实现 。 
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1 . 网 络 文件 系统 


使 用 者 如 何 与 盘 阵 上 的 集中 式 文 件 系统 进行 交互 呢 ? 当然 是 通过 网 络 来 传递 数据 。 由 于 一 直 
以 来 的 习惯 ,以 太 网 加 TCP/IP 成 为 了 首选 的 网 络 方式 。 除 了 底层 传输 网 络 ， 还 必须 定义 上 层 的 
应 用 逻辑 。 

针对 上 层 逻 辑 ， 微 软 定 义 了 自己 的 一 套 规范 ， 叫 做 CIFS ( Common Internet File System ) ， 
意思 是 Internet 范围 的 FS。Linux 和 UNIX 系统 使 用 了 另 一 种 方式 ， 称 为 NFS ( Network File 
System ) ， 这 些 上 层 协议 都 是 利用 TCP/IP 协议 进行 传输 的 。 

以 上 描述 的 模型 统称 为 “网 络 文件 系统 ”。 这 种 文件 系统 逻辑 不 是 在 本 地 运行 ,而 是 在 网 络 
上 的 其 他 节点 运行 , 使 用 者 通过 外 部 网 络 将 读 写 文件 的 信息 传递 给 运行 在 远 端 的 文件 系统 , 也 就 
是 调用 远程 的 文件 系统 模块 , 而 不 是 在 本 地 内 存 中 调用 文件 系统 的 API 来 进行 。 所 以 网 络 文件 系 
统 又 叫做 远程 调用 式 文件 系统 ， 也 就 是 RPC FS ( Remote Procedure Call File System ) 。 

相对 于 SAN 来 说 ， 这 种 网 络 文件 系统 不 仅 磁盘 或 卷 在 远程 节点 上 ， 连 文件 系统 功能 也 搬运 
到 了 远程 节点 上 。 本 地 文件 系统 可 以 直接 通过 主板 上 的 导线 访问 内 存 来 调用 其 功能 。 而 网 络 文件 
系统 只 能 通过 网 络 适配器 上 连接 的 网 线 而 不 是 主板 上 的 导线 来 访问 远 端 的 文件 sig 

网 络 文件 系统 在 网 络 上 传递 的 是 些 什么 内 容 呢 ?下 面 用 抓 包 的 方式 来 分 析 一 


2. CIFS 协议 网 络 包 分 析 


在 某 个 用 CIFS 访问 方式 的 目录 下 新 建 一 个 文本 文档 ， 然 后 将 它 删除 。 此 过 程 中 抓 取 网 络 流 
量 。 在 CIFS 方式 下 , 仅仅 上 述 两 个 动作 , 就 引发 了 网 络 上 数 百 个 包 的 流量 ( 如 图 10-10 所 示 ) ， 
可 见 CIFS 是 一 个 开销 非常 大 的 NAS 协议 。 这 里 就 不 一 一 分 析 每 个 包 了 。 


Protocol Info a 
EY NT rans esponse, nT NOTIFY 
SNE NT Trans Request, NT NOTIFY, FID: Ox0304 
gs ET NT Creare Andx Reauest, Path; 

132.175 v NB NT create Andx Response, FID; Ox035d, FID; 0x035d| 
M8 NT rans nequest, NT IOCTL NETwORK FILE SYSTEN Funcrion:Ox0019, F] 
SnB NT Trans Response, FID: Ox035d, NT IOCTL 
SMB NT Trans ReqUest, NT TOCTL NETWORK FILE SYSTEM Function:0x0019, F] 
M8 NT Tan Responss, FID: Duo33d NT OCT 
SMB Trana2 Requs5t，QLERY_PATHLINFO，Query File Basic Tnfo，parh: 
5B Trans2 Response, QUERY_PATH INFO 
SN8 NT Create And oguest, path: \ 
SMB NT Creare Andx Response, FID: Ox035e, FID: 0x035e 
SNB NT Trans Requesr，NT TOCTL FILE_SYSTEM Function:0x002a, FID: Ox03t 
NB NT Trans Response, FID; Ox035e, NT TOCTL，Error; STATUS_INVALIO PA 
SNE Close Raauest, FID: Ox035e 
SnB Close Response, FID: Ox035e 
SMB Close peest, FID 
ms Close Response," FID: Ox033d 
NB Trans? Aequest, FIND FIRST2, patrern: \ 
El Trans2 Response, FIND_FIRST2, Files: ~snapshot etc home 724_sysfi 
SN NT Creare andx ouest, Path: \New Text DOcUnent. tx 
ENE NT create Andx Rasponse, FID: OX0000, Error: STATUS-O8IECT_NANE_ NC 
SNe Trans? Request, QUERY_PATHLINFO, Query File Basic Irfo, Fath: \Ney 
PE OUERY PA INEO, Error: FTATuS OICT NANE MOTE 
SN IranS2 Reduest, QUERY. PATH IN:O, Query File Basic at ne 
pt QUERY AT INFO Erdrs STaTUS OICCT MAME NOT Re 
Sn6 Trans? Neouest, QUERY_ FAT INFO, Query File Basic Irfo, Path; \Ney | 
SN TAS? eSponse, QUERYPATH_INFO, EFror: STaTUS OBIECT NANE MoT FC 下 
SB Trans? Aequest, QUERY. PATH TNFO, Query File Basic Irfo, Path: \Nev 四 

.138.195 128. 128; 3B Trans? Response, QUERY_PATH INFO, Error: STATUS_OBIECT NANE NOT_FC 

38.1% Sms NT Create And Koduest, Pa \ 
Ba NT Ereare Andx Redponse, FID: Ox03€1, FID: 

304 12..855915 4 10.128. 132. 175 


图 10-10 CIFS 协议 交互 的 数据 包 


3. NFS 协议 网 络 包 分 析 


在 一 台 Linux 客户 端 上 使 用 NFSv3 来 Mount 一 台 NFS 服务 器 上 的 某 个 目录 到 本 地 的 /mnt 
目录 下 。 进 入 这 个 目录 ,然后 用 touch a 命令 来 创建 一 个 名 为 a 的 文件 ， 然 后 执行 vi a， 进 入 编 
辑 模式 ， 不 作 任何 修改 ， 退 出 ,之 后 用 mm a 命令 来 删除 这 个 文件 。 其 间 抓 取 网 络 上 的 流量 。 
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提示 : 10.128.132.45 是 NFS 客户 端的 全 地 址 ，10.128.132.175 是 NFS 服务 器 端的 全 地 
址 。 分 析 结 果 已 经 去 除了 不 必要 的 TCP 包 以 及 TCP_ACK 等 包 。 


图 10-11 显示 的 是 这 个 过 程 中 网 络 上 双方 所 交互 的 主要 数据 包 。 


No, Destination Protocol . Info 
10.128.132.175 NFS V3 LOoKUP Call, Dn:0x98F8d6bb/a 
10.128.132.45 FS V3 LooKuP Reply (Cal] In 1) Error:NFS3ERR_NOENT 
10-128.132.175 FS Y3 CREATE cal1，DH:0x98Fad5bb/a MDde:UNCHECKED 
10. 128:132.45 NFS V3 CREATE Reply (Cal1 In 4) 
10-128-132-175 ES V3 GETATTR Ca11，FH:0xfoaceglc 
10.128-132.45 MNES V3 GETATTR Reply (Cal1 In 5) Regular File moce:o544 vid:o gid:o | 
10.128:132.175 NES V3 GETATTR Cal1，FH:0xg98fsdfl 
10.128.132.45 NES 3 TAT Re (C21 Pas /Dir octory mode:0777 uid:0 914:0 
10.128.132.175 NFS Y3 LooKuP call, DH:0x93fSd6l 
10.128.132.45 NS 3 Veo neply CT 加 i 0xfo3ceglc 
10.128.132.175 NFS V3 SETATTR Cal 
10.128.132.45 NFS SEA Rap Cs 2cS3)° 
10.128.132.175 NFS V3 Metss cal, Fn:OxoaF dsb 
10.126.132.45 NF5 Y3 AccE5S Re [RE | 
10.126.132.175 NF5 V3 GETATTR Ca]1，FH:0xfO3ce3lc 
10.128.132:45 NFS 站 SET RAP, (ell En 45) Regular File wodei0644 vid:0 gid:0 
10.128.132.175 FS Y3 ACCESS Cal11，FH;0xzf03ce91 
10.128.132.45 FS ACCES Reply CaNT TE) 
10.128.132.175 NFS V3 RENOVE Cal], DH:0x98f8d6bb/a 


图 10-11 NFS 方式 下 网 络 上 的 数据 包 

可 以 看 到 ，NFS 协议 的 开销 远 远 小 于 CIFS 协议 。 完 成 相似 动作 ，NEFS 只 需要 交互 十 几 个 包 
即 可 。 下 面 来 分 析 每 个 包 的 作用 。 

Framel ( 如 图 10-12 所 示 ) : 客户 端 在 创建 文件 之 前 ， 首 先 做 了 一 次 lookup 操作 ， 来 查找 
当前 目录 中 是 否 已 经 有 同名 文件 ; 如果 有 ， 则 拒绝 创建 。 图 中 的 DH 表示 Directory Handle， 是 
一 个 32 字 节 长 的 字段 ， 这 个 值 用 来 指 代目 录 名 称 。 在 第 一 次 访问 某 个 目录 时 ，NEFS 服务 端 会 动 
态 分 配 这 个 值 , 将 其 通知 给 客户 端 。 随 后 的 访问 请 求 中 , 客户 端 将 使 用 这 个 值 而 不 是 目录 名 称 来 
向 NFS 服务 端 发 起 针对 这 个 目录 的 请 求 。 


2 0.000052 10.128.132.175 10.128.132.45 NFS 站 ER Re TY Cal Eft Er or :yeSIERR NOENT 
4 0,000247 10.128.132.45 10,128,132.175 NS VY CREATE Caf1Y ph;0x38fsc6bb1a Node:uMCHEC 
9 rie 


@ Etharnat 11, Sre: +b0), Dst: NetworkA_06:0a:e¢ (00:20:98:06:02:@e) 
a Incernet Protocol, sre: 10. 132.45), Dst: 10,128.132.175 (10,128.132.175 
a Transmtsston Control proroco: {797), Dst Port: sht1p C2049), Seq: 1, Ack: 1, Len: 
a Remoke Pracedure Call, Type:Call XIDOxeof9fbl8 
= Nerwork Ftle Systen, LOOKUP Call DH:Ox98f5d6bb/a 
[Program Version: 3] 
[va Procedure; LooKUP (3)] 
日 whar 
日 dir 


OO 


decode Type as: unknown 
filehandle: 400000000C07D90020000000000000400c07D90064FF9703. .. 
Name: a 
Tength: 1 
contents; a 
F111 byres: opaque data 


图 10-12 客户 端的 Lookup 请 求 
提示 : 图 中 DH 值 的 hash 值 为 0x98f8d6bb， 为 了 表示 方便 ,， 抓 包 软 件 将 其 hash 成 一 个 4 
字 节 的 值 ， 这 个 hash 值 并 不 是 存在 于 网 络 包 中 的 。 本 例 中 , /mnt 目录 被 指定 的 DH 值 的 
hash 值 就 是 0x98f8d6bb。 
Frame2 ( 如 图 10-13 所 示 ) : 为 NFS 服务 端 对 Framel 的 回应 ,通过 ERR_NOENT 可 以 判 
断 出 当前 目录 并 没有 名 为 a 的 文件 。 
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000247 


RENOCE PrGCEGUFE Call, Type:Reply X10:0xe0797DIS 
日 Necmork File Systemn，LoODKUP Reply Error:NFS3ERR NOENT 
[Program Version; 3] 


日 artributes Directory mode:0777 uid:0 gid:D 
Type: pirecrory (2) 
a mode: 0777 
nink: 4 
aa: o 
gid: 0 
Size; 4096 
used: 4096 
rdev: 0,0 
Ts1d: Ox000000000397ffbs 
Tileid: 64 
a arime: Aug 13, 2008 
a Mime; Aug 13, 20D8 1 
加 cEime: Aug 13, 2008 1 


33.832463000 
31. 558634000 
31. 558634000 


图 10-13 Lookup 请 求 的 回应 
Frame4 ( 如 图 10-14 所 示 ) : 客户 端 随即 发 起 了 “Create Cal”,， 创建 “a” 文 件 。 


[be Souree 


sys 
[Progran Version: 3] 
[v3 Procedure: CaEATE (8)] 
日 where 
日 dir 
Tength; 32 
[hash: ox9afgdabb] 
decode type as: urknown 


filehand1e; 400000000C07090020000000000000400C07D90064FF9703. .， 


Create Mode: UNcHECXED (0) 
obj_attributes 

用 mode: value follows, 

图 ud: no value 

国 gid; no value 

用 Stze: no value 

atime: don't change 

meime: don't change 


图 10-14 客户 端的 Create 请 求 
Frame5 ( 如 图 10-15 所 示 ) : NES 服务 端 对 客户 端 Frame4 的 回应 。 创 建成 功 ， 服 务 端 返回 
File Handle ( FH ) 的 hash 值 为 0xf03ce91c。FH 与 DH 一样 ,在 数据 包 中 实际 上 也 为 一 个 32 字 节 
长 的 字段 。 为 了 表示 方便 ， 抓 包 软 件 将 其 hash 成 一 个 4 字 节 的 值 。 随 后 的 交互 中 客户 端 不 会 用 
文件 名 来 向 服务 端 请 求 操作 ， 而 全 部 用 这 个 File Handle 来 指 代 。 


No Te | Souree 
.000347 


Destination Protocol , Info 
10.128.132.175 NFS 
38 3 


VI CREATE Call, DH:Ox98fecébb/a Node: UNCHECKED 
ENTE Re 21T 


= Network Ffle System, CREATE Reply 
[program version: 3] 
[va Procedure: CREATE (8)] 
Starus: NFS3_OK (0) 
日 obj 
handle_foTlows: value follons C1) 
日 handle 
Tength: 32 
[hash; oxfosce91c] 
decode type as: unknown 
Filehandle: 400000000cD7D900200000000055962354961800e4FF9703. 
obj_attributes Regular File mode:0644 vid:0 gid:D 
attributes_follow; value follows (1) 
日 aerrfbures Regular File mode:0644 v1d:0 g1d:0 
Type: Regular File (1) 


图 10-15 Create 请 求 的 回应 


Frame6( 如 图 10-16 所 示 ) : 文件 “a” 创 建成 功 之 后 ， 出 于 保险 起 见 ， 应 用 程序 一 般 都 会 
紧 接 着 查询 一 下 文件 属性 ,顺便 确 认 文件 是 否 创 建成 功 。“GetAttr Cal” 就 是 用 来 查询 文件 属性 
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的 一 种 RPC cal。 从 图 中 可 以 看 到 对 应 的 FH 值 为 0xf03ce91c，NES 服务 端 收 到 这 个 值 就 会 自 
动 对 应 成 文件 


No Tme Source Destination 


Reqular File mode:0644 uid: 


下 Frame 6 (206 bytes on wire, 206 bytes captured) 
田 Etherner II, src: Ibm 24:32:bO (00:1a:64: :b0), Dst: NetworkA_06:0a:ee (00:a0:98:06:0a:ee) 
田 Interner prorocol, Src: 10.128.132.45 (10.128.132.45), Dst: 10,128.132.175 (10.128.132.175) 
m Transmission Control protocol, Src Port: 797 (797), Dst Port: shilp (2049), seq: 329, Ack: 397, Len: 140 
m Renote Procedure call, Type:Call XID:Oxe2f9fbl8 
日 Necwork File System, GeTATTR Call FH:OxfO3ce9lc 
[Program Version: 3] 
[V3 Procedure: GETATTR (1)] 
object 
Tength: 32 
[hash: oxfo3ce9lc] 
decode type as: unknown 
filehandle: 400000000C07D900200000000055962364961800B4FF9703... 


图 10-16 客户 端的 GetAttr 请 求 


Frame7 ( 如 图 10-17 所 示 ) : NES 服务 端 对 Frame6 的 回应 。 包 中 可 以 看 到 文件 的 umask 访 
问 权限 以 及 atime、mtime 、ctime 属性 。 


No, 


Protocol .Info 
V3 GETATTR Cal 


日 Network File System, GETATTR Reply Regular File mode:0644 uid:0 gid:0 
[Program version: 3] 
[V3 Procedure: GETATTR (1)] 
Status: NFS3_OK (0) 
obj_attributes Regular File mode:0644 uid:0 gid:0 
Type: Regular File (1) 
加 mode: 0644 
mink: 1 
uid: 0 
gid: 0 
size: 0 
used: 0 
rdev: 0,0 
fsid: 0x000000000397ffb4 
Fileid: 5608995 
a atime: Aug 13, 2008 1 
mtime: Aug 13, 2008 1 
a ctime: Aug 13, 2008 1 


55. 545410000 
55. 545410000 
55. 545410000 


图 10-17 ”GetAttr 请 求 的 回应 


Frame8 ( 如 图 10-18 所 示 ) : 紧 接着 NFS 客户 端 发 起 了 一 个 查询 /mnt 目录 属性 的 请 求 。 
为 Handle 的 值 为 0x98f8d6bb， 所 以 可 以 判断 这 个 GetAttr Call 是 针对 /mnt 目录 的 。 


Frame 8 (206 bytes on wire, 206 bytes captured) 
m Ethernet II, Src: Ibm_24:32:bO (00:1a:64:24:32:b0), Dst: NetworkA_06:0a: 0:98:06:0a:ee) 
田 Internet prorocol, Src: 10.128.132.45 (10.128.132.45), Dst: 10.128.132.175 (10.128.132.175) 
m Transmission Control Protocol, Src Port: 797 (797), Dst Port: shilp (2049), seq: 469, Ack: 513, Len: 140 
m Renote procedure cal1，Type:Cal1 xTD:Oxe3f9fbl8 
日 Nerwork File System, GETATTR Call FH:0x98f8d6bb 
[Program Version: 3] 
[va Procedure: GETATTR (1)] 
日 object 
Tength: 32 
[hash: ox98f8d6bb] 
decode type as: unknown 
filehandle: 400000D00C07D90020000000000000400C07D900B4FF9703. .. 


图 10-18 客户 端 针 对 /mnt 目录 的 GetAttr 请 求 
Frame9 ( 如 图 10-19 所 示 ) : NEFS 服务 端 对 Frame8 的 回应 。 
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Reply Directory modt 


[Program Version: 3] 
[V3 Procedure: GETATTR (1)] 
Status: WFs3_0k (0) 

obj_attributes Directory mode:0777 uid:0 gid:0 

Type: Directory (2) 
mode: 0777 

mnk: 4 

uid: 0 

gid: 0 

size: 4096 

used: 4096 
国 rdev: 0,0 

fsid: 0x000000000397ffb4 

Fileid; 64 
国 atime: Aug 13, 2008 17: 
m mtime: Aug 13, 2008 1 
国 crime: Aug 13, 2008 17: 


图 10-19 针对 GetAttr 请 求 的 回应 


Frame10 ( 如 图 10-20 所 示 ) : NFS 客户 端 发 起 一 个 在 /mnt Sdn re “a” 的 请 求 。 
这 里 由 于 是 查找 操作 ， 客 户 端 会 假设 不 知道 “a” 文 件 的 FH 值 ， 而 只 知道 /mnt 目录 的 DH 值 ， 
所 以 文件 名 “a” 使 用 的 就 是 ASCII 码 的 “a” 


Fae LU CELs TUEES 
由 Ethernet II, src: Il 
图 Internet protocol, src 128.132.45 (10.128.132.45), Dst: 10.128.1: 《 

wm Transmission Control proroco1，src port: 797 (797), Dst port: shilp (2049), seq 
由 Remote Procedure Call, Type:Call XID:Oxed4f9fbl8 


Network File system, LOOKUP cal1 DH:0x98f8d6bb/a 
[Program version: 3] 


[v3 Procedure: LooKUP (3)] 
日 whar 
a dir 
Tength: 32 
[hash: Ox98f8c6bb] 
decode type as: unknown 


filehandle: 400000000C07D90020000000000000400C07D90084FF9703... 
3 Nane: a 


Tength: 1 
contents: a 
F111 bvtes: opaaue data 


,Ack: 629, Len: 148 


图 10-20 客户 端的 Lookup 请 求 


Frame11 ( 如 图 10-21 所 示 ) : 


NEFS 服务 端 根据 Frame10 中 请 求 的 回应 找到 这 个 文件 ， 
值 是 0xf03ce91c。 


No Time Source 
OO Sl 


Protocol . Info 
NFS ok Sa ”DH: Ox9! 


ef Bd6bb a 
用 Frame 11 (310 一 on wire, 310 bytes captu gy 
Ethernet II, Src: NetworkA_06:0a:ee (00:. ‘0a:ee), Dst: Ibm_24:32:b0 (00:1a:' 


0a: :24:32:b0) 
田 INternet Protocol, Src: 10.128.132.175 (10.128.132.175), Dst: 10.128.132.45 (10.128.132.45) 


由 Remore Procedure Call, Type:Reply XID:0xsdf9fbl8 
Network File system，LOOKUP Reply FH:Oxf03ceg9lc 
[Program version: 3] 


[va Procedure: Lookup (3)] 
Status: NFS3_ok (0) 
日 object 
1engrh: 32 
[hash: oxfo3ce91c] 
decode type as: unknown 
Filehandle: +00000000cC07D90020000000005595236496180084FF9703..。 
困 obj_artribures Regular File mode:0644 uid:0 gid:0 
dir_attributes Directory mode:0777 uid:0 gid:0 


图 10-21 针对 Lookup 请 求 的 回应 


Frame12 ( 如 图 10-22 所 示 ) : NFS 客户 端 发 起 一 个 SetAttr Call 的 请 求 ， 这 个 请 求 的 目的 是 


为 了 改变 文件 属性 。 可 以 看 到 客户 端 请 求 将 文件 的 atime 和 mtime 改 为 服务 端 当前 的 系统 时 间 。 
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四 Tnternet proocol, Sret 10. 了 28.132: 
里 Transmission Control Proroco1，5rc Port: 797 (797), Dst Port: shilp (2049), Seq: 757, Ack: 873, Len: 168 
Renote Procedure Call, Type:Cal] xrD:Oxe5FofbiS 
© Network FIle System, SETATIR Call FH:0xfO3ceglc 
[program Version: 3] 
[v3 procedure: SETATTR (2)] 
日 objecr 
1engch: 32 
[hash: Dxfosceslc] 
decode rype as: Unknown 
Filehandle: 400000000c070900200000000055962364961800g4FF9703. 
日 new_arcributes 
node: no value 
vid; no value 


Set to server tine 
;Set to server tine 
男 quardi no value 


图 10-22 客户 端的 SetAttr 请 求 


Frame13 ( 如 图 10-23 所 示 ) : 对 Frame12 的 回应 。 可 以 看 到 atime、ctime 在 之 前 和 之 后 的 


不 同 , 当然 , 时 间 差别 都 在 微 秒 级 , 因为 这 一 连 串 的 请 求 其 实 是 在 很 短 的 时 间 里 发 出 去 并 得 到 应 
答 的 。 


otwork File Syston, SeTATTR RePIY 

[program Version: 3] 
[V3 Procedure: sETATTR (2)] 
Srarus: NFS3_OK (0) 

日 obj_wcc 
日 before 

attributes_follow: value follows C1) 
日 aEtribures 


图 10-23 针对 SetAttr 请 求 的 回应 
Frame15 ( 如 图 10-24 所 示 ) : 由 于 在 客户 端 执行 了 “mm a” 的 命令 ， 所 以 客户 端 发 起 一 个 
对 /mnt 目录 的 访问 请 求 。 其 实 客户 端 在 抓 包 期 间 一 直 处 于 /ant 目录 中 ， 至 于 为 何 要 重新 发 起 


Access 请 求 , 与 具体 应 用 程序 的 代码 有 关 , 可 能 开发 者 为 了 确认 /mnt 目录 的 DH 值 没有 过 期 , 所 
以 重新 试探 访问 。 


b0), Dst; NetworkA_06;0a:ee 《00:a0:96:06:0aiee] 
.132.45), Dst: 10.1 ,175 C10.128.132.175) 
97 C797), Dst Port: (2049), Seq: 925, Ack: 1021, Len: 144 
a Renote procedure Cal1l, Type:Ca]] XID:0xa5Fofbl8 
日 Network File System, ACCESS Call FH:0x98Ff8d6bb 
[Program Version: 3] 
[v3 Procedure: ACCESS (4)] 
日 objecr 
Tength: 32 
[hash: oxgsfadEbb] 
decode type as: unknown 


Filehandle: 400000000c07D90020000000000000400C07D900EAFF9703.. 
access: Oxlf 


图 10-24 客户 端 针对 /mnt 目录 的 Access 请 求 
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Frame16 ( 如 图 10-25 所 示 ) : NEFS 服务 端 对 Frame15 的 回应 。 


Protocol .Info 


四 Ethernet IT, Src:! NetworkA_06:0aee (00:a0:98:06:0a:ee), Dst: Tbn_24:32:b0 (00:1a:64:24:32:b0) 
Internet Protocol, src: 10.128.132.175 (10.128.132.175), Dst: 10.128.132.45 (10.128.132.45) 
加 Tranenisson Concrol' Proroeol, sre por shi1p (2049), bet Port: 797 (797), Seq: 102, Aeks 1069 ef 124 
由 Remore Procedure Call, Type:Reply XID:0xe6f9fbl8 
日 Nerwork File System, ACCESS Reply 
[Program version: 3] 
[V3 Procedure: ACCESS (4)] 
Status: NFS3_OK (0) 
回 obj_attributes Directory mode:0777 uid:0 gid:0 
attributes_follow: value follows (1) 
田 attributes Directory mode:0777 uid:0 gid:0 
access: Oxif 
.1 = allow READ 
allow Lookup 
allow MODIFY 
allow EXTEND 
allow DELETE 
nor allow EXECUTE 


图 10-25 针对 Access 请 求 的 回应 
Frame18( 如 图 10-26 所 示 ) : 此 时 ， 客 户 端 由 于 输入 了 “rm a” 命 令 ， 所 以 客户 端 首先 要 


查询 一 下 文件 “a” 的 权限 ， 因此 客户 端 发 起 一个 GetAttr 的 请 求 来 查询 文件 “a” 的 权限 。 


19 5.648915 10.128.132.175 10.128.132.45 NFS SCETAT TR ReD | nee Tr Se 


Frame 18 (206 bytes on wire, 206 bytes captured) 
四 Ethernet II, Src; Tbm 24:32;b0 (00:1a;64:24:32:b0), Dst; NetworkA_06:0a:ee (00:;a0:95 
a Internet protocol, Src: 10.128.132.45 (10.128.132.45), Dst: 10.128.132.175 (10.125.132.175) 
a Transmission Control Protocol, src Port: 797 (797), Dst Port: shilp (2049), seq: 1069, Ack: 1145, Len: 140 
四 Renote Procedure call, Type:Call XID:Oxe7f9fb18 
日 Nerwork File System, GETATTR Call FH:OxfO3ceglc 
[Program Version: 3] 
[V3 Procedure: GETATTR (1)] 
a object 
Tength: 32 
[hash: Oxf03ce91c] 
decode type as: unknown 
filehandle: 400000000C07D900200000000055962364961800B4FF9703... 


图 10-26 客户 端的 GetAttr 请 求 
Frame19 ( 如 图 10-27 所 示 ) : NFS 服务 端 对 Frame18 的 回应 。 


ee) 


No, 


xfO3Ceglc 


ame 19 (182 by y 
Ethernet II, Src: NetworkA-06:0a:ee 《00:a0: 本 :32:b0) 
Internet protocol, Src: 10.128.132.175 (10.128.132.175), Dst: 10.128.132.45 (10.128.132.45) 
国 
由 Renote Procedure Call, Type:Reply XID:Oxe7f9fbl3 
日 Network File System, GETATTR Reply Regular File mode:0644 uid:0 gid:0 
[Program Version: 3] 
[V3 Procedure: GETATTR (1)] 
Status: NFS3_OK (0) 
日 obj_attribures Regular File mode:0644 uid:0 gid:0 
Type: Regular File (1) 
团 mode: 0644 
nlink: 1 


0,0 


5608995 
Aug 13, 2008 17:45:55.545414000 
: Aug 13, 2008 1 55. 545414000 
: Auq 13，2008 17:45:55. 545414000 


图 10-27 针对 GetAttr 请 求 的 回应 
Frame20 ( 如 图 10-28 所 示 ) : NFS 客户 端 发 起 对 文件 “a” 的 Access 请 求 。 至 于 为 何在 删 
除 文件 之 前 要 发 起 Access 请 求 ， 与 编码 习惯 有 关 。 
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No. Time Source Destination Protocol .Info 


:128-132- .128- NMFS V3 ACCESS Reply (Call In 
Frame 20 (210 bytes on wire, 210 bytes captured) 
Ethernet II, Src: Ibm 24:32:bO (00:1a:64:24:32:b0), Dst: NetworkA_06:0a:ee (00:a0:98: :ee) 
田 Internet protocol, Src: 10.128.132.45 (10.128.132.45), Dst: 10.128.132.175 (10.128.132.175) 
加 Transmission control protocol, Src port: 797 (797), Dst Port: shilp (2049), seq: 1209, Ack: 1261, Len: 144 
田 Renote Procedure Call, Type:Call XID:Dxesf9fbl18 
日 Network File System, ACCESS Call FH:0xf03ce9lc 
[Program Version: 3] 
[va Procedure: ACCESS (4)] 
日 object 
Tength: 32 
[hash: oxfo3ce9lc] 
decode type as: unknown 
filehandle: 400000000C07D900200000000055962364961800B4FF9703 
access: Ox2d 


图 10-28 客户 端的 Access 请 求 
Frame21 ( 如 图 10-29 所 示 ) : NEFS 服务 端 对 Frame20 的 回应 。 


Protocol . Info 
NFS 


No. 


V3 ACCESS Call, FH:Oxf' 


yte 190 byte: 
m Ethernet II, Src: NetworkA_06:0a:ee (00:a0:98:06:0a:ee), Dst: Ibn_24:32:b0 (00:1a:64:24:32:b0) 
m Inrernec Protocol, Src: 10.128.132.175 (10.128.132.175), Dst; 10.128.132.45 (10.128.132.45) 
国 
四 Renote Procedure Call, Type:Reply XID:Oxe8f9fbl18 
日 Network File system, AccEss Reply 

[Program version: 3] 

[V3 Procedure: ACCESS (4)] 

Status: NFS3_OK (0) 

obj_artributes Regular File node:0644 uid:0 gid:0 
attr tbutes_fo1low: value follows C1) 

attributes Regular File mode:0644 uid:0 gid:0 

Regular File (1) 


filetd: 5608995 
图 atime: Aug 13, 2008 1 
图 mime: Aug 13, 2008 1 
Wm ctime: Aug 13, 2008 17: 
Bm access: Ox2d 


55. 545414000 
55. 545414000 
55. 545414000 


图 10-29 针对 Access 请 求 的 回应 
Frame23 ( 如 图 10-30 所 示 ) : NFS 客户 端 发 起 Remove 请 求 。 可 以 看 到 Remove 请 求 中 并 
没有 使 用 FH， 而 是 直接 使 用 了 文件 名 。 


No, 


Info 


Time Source 


24 7.336026 10.128.132.175 


由 Frame 23 (214 bytes on wire, 214 bytes captured) 
Ethernet II, Src: Ibm 24:32:b0 (00: 24:32:b0), Dst: NetworkA_06:0a:ee (00:a0:98:06:0a:ee) 
出 Internet protocol, Src: 10.128.132.45 (10.128.132.45), Dst: 10.128.132.175 (10.128.132.175) 
田 Transmission Control Protocol, Src port: 797 (797), Dst Port: shilp (2049), seq: 1353, Ack: 1385, Len: 148 
出 Renote Procedure cal1，Type:Cal1 XID:Oxegf9fbl5 
日 Nerwork File System, REMOVE Cal1 DH:Ox98f8d6bb/a 
[program Verston: 3] 
[v3 Procedure: REMOVE (12)] 
日 objecr 
日 dir 
1engrh: 32 
[hash: Ox98f8d6bb] 
decode type as: unknown 
filehand1le: 400000000c07D90020000000000000400C07D900B4FF9703... 
日 Name: a 
Tength: 1 
contents: a 


fi11 bytes: opaque dara 


NFS V3 REMOVE Reply (Ca 


图 10-30 客户 端的 Remove 请 求 
Frame24 ( 如 图 10-31 所 示 ) : NFS 服务 端 对 Frame23 的 回应 。 


301 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


302 


Desinaton | protocol -| mm 


10.128.132.175 V3 Revove call, oh-0x9876d6bb/a 


CD 
Directory node:0777 uid:0 gid:0 
ectory (2) 
7 


rdev: 0,0 
fsid: Ox000000000397FFbs 

Fileid: 64 
acime: Aug 13, 2008 17:44:33.832463000 
mcime: Aug 13，2008 17;46:02.879608000 
ctime: Aug 13，2008 17:46:02.879808000 


图 10-31 针对 Remove 请 求 的 回应 
可 以 看 到 ， 基 于 NAS 的 数据 访问 ， 客 户 端 并 不 关心 文件 存放 在 磁盘 的 哪些 扇 区 ， 这 些 逻 辑 
全 部 由 NAS 服务 端 处 理 , 客户 端 向 NAS 设备 发 送 的 只 有 各 种 文件 操作 请 求 以 及 实际 的 文件 流 式 
数据 。 
提示 : 大 家 可 以 在 12.4 节 看 到 有 关 ISCSI 的 抓 包 分 析 ， 可 以 作 一 下 对 比 ， 两 者 交互 的 语 
言 完全 不 同 。 


10.1.4 ” 美 其 名 日 一 一 NAS 


这 种 带 有 集中 式 文件 系统 功能 的 盘 阵 叫做 网 络 附加 存储 ( Network Attached Storage, NAS ) 。 
提示 : NAS 不 一 定 是 盘 阵 ， 一 台 普 通 的 主机 就 可 以 做 成 NAS， 只 要 它 自己 有 磁盘 和 文件 系 
统 ， 而 且 对 外 提供 访问 其 文件 系统 的 接口 (如 NFS、CIFS 等 ) ， 它 就 是 一 台 NAS。 常 用 的 
Windows 文件 共享 服务 器 就 是 利用 CIFS 作为 调用 接口 协议 的 NAS 设备 。 一般 来 说 , NAS 其 
实 就 是 处 于 以 太 网 上 的 一 台 利 用 NFS、CIFS 等 网 络 文件 系统 的 文件 共享 服务 器 。 至 于 将 来 

会 不 会 有 FC 网 络 上 的 文件 提供 者 ， 也 就 是 FC 网 络 上 的 NAS， 就 要 看 是 否 有 人 尝试 了 。 


1. SAN 和 NAS 的 区 别 


前 面 说 过 ，SAN 是 一 个 网 络 上 的 磁盘 ，NAS 是 一 个 网 络 上 的 文件 系统 。 


提示 : 根据 SAN 的 定义 ， 即 “存储 区 域 网 络 ”，SAN 其 实 只 是 一 个 网 络 ， 但 是 这 个 网 
络 内 包含 着 各 种 各 样 的 元 素 , 如 主机 、 适 配器 、 网 络 交换 机 、 磁 盘 阵 列 前 端 、 盘 阵 后 端 、 
磁盘 等 。 应 该 说 ，SAN 是 一 个 最 大 的 范围 ， 涵 盖 了 一 切 后 端 存储 相关 的 内 容 。 所 以 从 这 
个 角度 来 看 ，SAN 包含 了 NAS， 因 为 NAS 的 意思 是 “网 络 附加 存储 ”， 它 说 的 是 一 种 
网 络 存 储 方式 ， 这 样 它 就 没有 理由 不 属于 SAN 的 范畴 。 所 以 ,我 认为 SAN 包含 NAS。 
长 时 间 以 来 ， 人 们 都 用 SAN 来 特 指 FC， 特 指 远 端 的 磁盘 。 那 么 ， 假 设 设计 出 一 种 基于 
FC 网 络 的 NAS， 此 时 SAN 代表 什么 呢 ? 会 产生 滑 移 的 矛盾 。 但 是 ， 似 乎 还 真 想 不 出 一 
种 更 简便 、 更 直观 的 叫 法 来 称呼 “FC 网 络 上 的 磁盘 ”这 个 事物 。 到 此 我 也 陷 人 定义 的 洲 
涡 了 ,所 以 我 们 最 好 还 是 入 乡 随 俗 。 本 书 之 后 的 文字 中 ,就 把 FC 网 络 上 的 磁盘 叫做 SAN， 
把 以 太 网 络 上 的 文件 系统 称 为 NAS。 这 里 就 是 提 一 下 ， 不 要 被 表象 所 迷惑 。 
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2. FTP 服务 器 为 什么 不 属于 NAS 


我 们 必须 明白 什么 是 网 络 文件 系统 , 网 络 文件 系统 与 本 地 文件 系统 的 唯一 区 别 , 就 是 传输 方 
式 从 主板 上 的 导线 变 成 了 以 太 网 络 ， 其 他 方面 包括 调用 的 方式 对 于 上 层 应 用 来 说 没有 任何 改变 。 

这 就 意味 着 , 一 旦 用 户 挂 载 了 一 个 网 络 文件 系统 目录 到 本 地 , 那么 他 就 可 以 像 使 用 本 地 文件 
系统 一 样 使 用 网 络 文件 系统 。 

在 Windows 系统 中 ， 可 以 直接 双击 共享 目录 中 的 程序 将 其 在 本 机 运行 (实际 上 是 先 通过 以 
太 网 将 这 个 程序 文件 传输 到 本 地 的 缓存 ， 然 后 才 在 本 地 执行 ， 而 不 是 在 远 端 执行 ) 。 而 FTP 无 
法 做 到 这 一 点 ，FTP 不 能 实现 诸如 挂 载 等 动作 ， 它 不 是 实时 的 。 只 有 通过 FTP 将 文件 传输 到 本 
地 的 某 个 目录 之 后 才能 执行 ， 而 且 这 个 程序 执行 需要 的 所 有 文件 都 必须 在 本 地 。 

而 网 络 文件 系统 则 不 然 , 即便 某 个 本 地 执行 的 程序 需要 访问 远 端 的 某 些 文件 , 它 也 可 以 直接 
访问 远 端的 文件 ， 不 需要 预先 将 数据 复制 到 本 地 再 访问 。 所 以 ，FTP、HTTP 和 TFTP 等 文件 服 
务 并 不 属于 网 络 文件 系统 ， 也 不 属于 NAS。 


3. 普通 台式 机 可 以 充当 NAS 吗 


完全 可 以 ， 只 要 具备 NAS 的 特性 ， 就 可 以 充当 NAS。 

NAS 必须 具备 的 物理 条 件 如 下 。 

不 管用 什么 方式 ，NAS 必须 可 以 访问 卷 或 者 物理 磁盘 。 

NAS 必须 具有 接 入 以 太 网 的 能 力 ， 也 就 是 必须 具备 以 太 网 卡 。 

普通 台式 机 具备 了 这 两 个 条 件 ， 就 可 以 充当 NAS。 我 们 只 要 编写 程序 从 磁盘 提取 或 者 存放 
数据 ， 记 录 好 这 些 数据 的 组 织 方 法 ,然后 通过 网 络 文件 系统 协议 规定 的 格式 进行 发 送 或 接收 ,就 
可 以 实现 NAS 的 功能 。 或 者 可 以 直接 在 操作 系统 上 编程 ， 直 接 利 用 操作 系统 已 经 实现 好 的 文件 
系统 和 网 络 适配器 驱动 程序 , 所 要 做 的 只 是 利用 操作 系统 提供 的 足够 简单 的 API 编写 网 络 文件 系 
统 的 高 层 协议 逻辑 即 可 。 


10.2 ”龙争虎斗 一 NAS 与 SAN 之 争 


10.2.1 SAN 快 还 是 NAs 快 


很 多 人 都 在 问 , 到 底 是 SAN 快 还 是 NAS 快 ? 要 解答 这 个 问题 , 方法 非常 简单 ， 和 百 米 赛跑 
一 样 ， 只 要 计算 起 点 到 终点 的 距离 、 耗 时 、 开 销 就 可 以 了 。 
SAN 的 路 径 图 如 图 10-32 所 示 。 


磁盘 阵列 


图 10-32 SAN 方式 路 径 图 
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NAS 的 路 径 图 如 图 10-33 所 示 。 


SCS| 总 线 或 者 
FC-AL 网 络 通信 


图 10-33 NAS 方式 路 径 图 

显然 , NAS 架构 的 路 径 在 虚拟 目录 层 和 文件 系统 层 通 信 的 时 候 , 用 以 太 网 络 和 TCP/IP 协议 
代替 了 内 存 ， 这样 做 不 但 增加 了 大 量 的 CPU 指令 周期 (TCP/IP 逻辑 和 以 太 网 卡 驱动 程序 ) ， 而 
且 使 用 了 低速 传输 介质 ( 内 存 速 度 要 比 以 太 网 快 得 多 ) 。 而 SAN 方式 下 ,路 径 中 比 NAS 方式 多 
了 一 次 FC 访问 过 程 ,但 是 FC 的 逻辑 大 部 分 都 由 适 配 卡 上 的 硬件 完成 ,增加 不 了 多 少 CPU 开销 ， 
而 且 FC 访问 的 速度 比 以 太 网 高 。 所 以 我 们 很 容易 得 出 结论 。 如 果 后 端 磁盘 没有 瓶 颈 ， 那 么 除非 
NAS 使 用 快 于 内 存 的 网 络 方式 与 主机 通信 ， 否 则 其 速度 永远 无 法 超越 SAN 架构 。 

目前 万 兆 以 太 网 络 已 经 逐渐 普及 ， 如 果 拿 万 兆 和 8GbFC 相 比 ， 底 层 裸 速 率 一 定 是 万 兆 的 要 
快 ， 此 时 就 要 看 上 层 的 交互 效率 了 。 对 于 NAS 访问 协议 ,每 一 笔 针 对 文件 的 操作 ， 比 如 
Create()/Open() 、Lookup0 、Getattr0 、Setattr() 、Read0/Write0 等 ， 都 需要 经 过 网 络 传输 ， 而 对 于 
SAN 来 讲 , 由 于 文件 系统 运行 在 Host 本 机 , 大 部 分 文件 系统 元 数据 也 都 可 以 被 缓存 到 Host 本 地 
内 存 ， 所 以 大 部 分 针对 文件 的 非 读 写 操作 (比如 Open0/Lookup0 等 ) ， 都 可 以 在 本 地 内 存 完成 
调用 ， 此 时 速度 非常 快 ， 但 是 这 些 操作 在 NAS 环境 下 ， 就 得 通过 网 络 远程 向 NAS Server 发 起 请 
求 , 时 延 激增 , 虽然 NAS Client 端 也 有 一 小 部 分 缓存 , 但 是 毕竟 不 如 整个 Host 本 地 FS 的 缓存 占 
据 的 容量 大 。 当 你 的 应 用 场景 多 是 这 类 IO 请 求 的 话 ,那么 性 能 远 比 不 过 SAN, 但 是 你 的 场景 如 
果 是 Read0/Write0 请 求 居多 ， 也 就 是 读 写实 际 数据 的 请 求 占 多 数 的 时 候 ， 此 时 速度 就 大 多 取决 
于 底层 物理 链 路 的 带宽 了 。 

既然 NAS 一 般 情况 下 不 比 SAN 快 ， 为 何 要 让 NAS 诞生 呢 ? 既然 NAS 不 如 SAN 速度 快 ， 
那么 它 为 何 要 存在 呢 ? 具体 原因 如 下 。 

NAS 的 成 本 比 SAN 低 很 多 。 前 端 只 使 用 以 太 网 接口 即 可 ，FC 适 配 卡 以 及 交换 机 的 成 本 相 
对 以 太 网 卡 和 以 太 交 换 机 来 说 是 非常 高 的 。 

NAS 可 以 解放 主机 服务 器 上 的 CPU 和 内 存 资源 。 因 为 文件 系统 的 逻辑 是 要 靠 CPU 的 运算 
来 完成 的 ， 同 时 文件 系统 还 需要 占用 大 量 主机 内 存 用 作 缓 存 。 所 以 ，NAS 适合 用 于 CPU 密集 的 
应 用 环境 。 

由 于 基于 以 太 网 的 TCP/IP 传输 数据 , 所 以 NAS 可 扩展 性 很 强 。 只 要 有 卫 的 地 方 , NAS 就 
可 以 提供 服务 ， 且 容易 部 署 和 配置 。 

NAS 设备 一 般 都 可 以 提供 多 种 协议 访问 数据 。 网 络 文件 系统 只 是 其 提供 的 一 种 接口 而 已 ， 
还 有 诸如 HTTP、FTP 等 协议 方式 。 而 SAN 只 能 使 用 SCSI 协议 访问 。 

NAS 可 以 在 一 台 盘 阵 上 实现 多 台 客户 端的 共享 访问 ,包括 同时 访问 某 个 目录 或 文件 .而 SAN 
方式 下 , 除非 所 有 的 客户 端 都 安装 了 专门 的 集群 管理 系统 或 集群 文件 系统 模块 , 否则 不 能 将 某 个 
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LUN 共享 ， 强 制 共 享 将 会 损毁 数据 。 
经 过 特别 优化 的 NAS 系统 , 可 以 同时 并 发 处 理 大 量 客户 端的 请 求 , 提供 比 SAN 方式 更 方便 
的 访问 方法 。 
多 台 主 机 可 以 同时 挂 接 NFS 上 的 目录 , 那么 相当 于 减少 了 整个 系统 中 文件 系统 的 处 理 流程 ， 
由 原来 的 多 个 并 行 处 理 转 化 成 了 NFS 上 的 单一 实例 ， 简 化 了 系统 元 余 度 。 


10.2.2 SAN 好 还 是 NAS 好 


关于 IO 密集 和 CPU 密集 说 明 如 下 。 
m ”CPU 密集 : 指 的 是 某 种 应 用 极其 耗费 CPU 资源 , 其 程序 内 部 逻辑 复杂 , 而 且 对 磁盘 访 
问 量 不 高 。 如 超频 爱好 者 常用 的 CPU 测试 工具 就 是 这 种 应 用 , 这 种 程序 在 运行 的 时 候 ， 
根本 不 用 读 取 磁 盘 上 的 数据 ， 只 是 在 程序 载 入 的 时 候 ， 读 入 一 点 点 程序 数据 而 已 。 进 
程 运行 之 后 便 会 使 CPU 的 核心 处 于 全 速 状态 , 这 会 造成 其 他 进程 在 同一 时 间 内 只 获得 
很 少 的 执行 时 间 ， 影 响 了 其 他 程序 的 性 能 。 在 必要 时 ， 可 以 将 多 台 机 器 组 成 集群 来 运 
行 这 种 程序 。 
ma IO 密集: 指 的 是 某 种 应 用 程序 的 内 部 逻辑 并 不 复杂 ， 耗 费 的 CPU 资源 不 多 ， 但 是 要 
随时 存 取 硬 盘 上 的 数据 。 比 如 FTP 服务 器 之 类 程序 就 是 这 种 。 
a ”IO 和 CPU 同时 密集 : 这 种 应 用 程序 简直 就 是 梦 魔 。 为 了 获得 高 性 能 ， 大 部 分 这 类 程 
序 都 不 适合 用 单 台 机 器 运行 ， 必 须 组 成 集群 系统 来 运行 这 种 应 用 程序 ， 包 括 前 端 运 算 
节点 的 集群 和 后 端 存储 节点 的 集群 。 
显然 ，NAS 对 于 大 块 连续 IO 密集 的 环境 ， 要 比 SAN 慢 一 大 截 ， 原 因 是 积累 效应 。 经 过 大 
量 IO 积累 之 后 , 总 体 差别 就 显现 出 来 了 。 不 过 , 如果 要 使 用 10Gb/s 以 太 网 这 种 高 速 网 络 , 无 疑 
要 选用 NAS， 因 为 底层 链 路 的 速度 毕竟 是 目前 NAS 的 根本 瓶颈 。 此 外 ， 如 果 是 高 并 发 随机 小 块 
IO 环境 或 者 共享 访问 文件 的 环境 , NAS 会 表现 出 很 强 的 相对 性 能 。 如 果 SAN 主机 上 的 文件 系统 
碎片 比较 多 ,那么 读 写 某 个 文件 时 便 会 产生 随机 小 块 1O, 而 NAS 自身 文件 系统 会 有 很 多 优化 设 
计 ， 碎片 相对 少 。CPU 密集 的 应 用 可 以 考虑 使 用 NAS。 
SAN 与 NAS 有 各 自 的 优点 和 缺点 ， 需 要 根据 不 同 的 环境 和 需求 来 综合 考虑 。 


10.2.3 与 SAN 设备 的 通信 过 程 


对 于 SAN 方式 来 说 , 应 用 程序 必须 通过 运行 在 服务 器 本 机 或 者 NAS 设备 上 的 文件 系统 与 磁 
盘 阵 列 对 话 。 应 用 程序 对 本 机 文件 系统 (或 NAS ) 说 : “ 咱 ,兄弟 ， 帮 我 把 /mnt/SAN 目录 下 的 
SAN.txt 文件 传 到 我 的 缓冲 区 。” 文 件 系统 开始 计算 SAN.txt 文件 占用 的 磁盘 扇 区 的 LBA 地 址 ， 
计算 好 之 后 向 SAN 磁盘 阵列 说 (用 SCSI 语言 ) : “ 嗨 ， 哥 们 ， 把 从 LBA10000 开始 之 后 的 128 
个 扇 区 内 容 全 部 传送 给 我 ! ” 

SAN 磁盘 阵列 接收 到 这 个 请 求 之 后 , 便 从 它 自 身 的 众多 磁盘 中 提取 数据 , 通过 FC 网 络 传送 
给 运行 着 文件 系统 程序 的 节点 (服务 器 主机 或 NAS 设备 ) 。 文 件 系 统 接收 到 扇 区 内 容 之 后 ， 根 
据 文件 系统 记录 截 掉 扇 区 多 余 的 部 分 ， 将 整理 后 的 数据 放 入 请 求 这 个 数据 的 应 用 程序 的 缓冲 区 。 
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10.2.4 与 NAS 设备 的 通信 过 程 


应 用 程序 通过 操作 系统 的 虚拟 目录 层 直接 与 NAS 设备 对 话 : “ 唾 , 兄弟 ， 帮 我 把 /mnt/NAS 
目录 下 的 NAS.txt 文 件 传 过 来 。” 或 “ 唾 ， 兄 弟 ， 帮 我 把 /mnt/NAS 目录 下 的 NAS.txt 文 件 的 前 
1024 字 节 传递 过 来 。” 这 些 话 被 封装 成 TCP/IP 数据 包 ， 通 过 以 太 网 传递 到 NAS 设备 上 。NAS 
接 到 这 个 请 求 之 后 ， 立 即 用 自己 的 文件 系统 (NTFS、JFS2、EXT2、EXT3 等 ) 计算 NAS.cxt 文 
件 都 占用 了 磁盘 的 哪些 扇 区 , 然后 从 自己 的 磁盘 上 用 ATA 语言 或 者 SCSI 语言 向 对 应 的 磁盘 存 取 
数据 (或 自己 安装 FC 适 配 卡 ， 从 SAN 存储 设备 上 存 取 数据 ) 。 

显然 ，NAS 将 文件 系统 逻辑 搬出 了 主机 服务 器 ， 成 为 了 一 个 单独 的 文件 系统 逻辑 运行 者 。 
如 图 10-34 所 示 为 从 主机 到 NAS 设备 的 IO 全 流程 示意 图 , 牵扯 到 了 整个 系统 的 IO 路 径 以 及 路 
径 上 的 每 种 元 素 和 角色 。 


提示 : 关于 系统 I0 路 径 的 详细 阐述 请 参考 本 书后 面 章节 。 


地 址 翻译 中 。。。 德 译 完毕 。 这 文件 
Readl /mnt/nas/nas,txt 前 1024 字 节 在 卷 /dev/lv1 的 LBA50 司 
区 中 。 下 面 的 : read{) /dev/Iv1 
startoffsetlbas0 length 1 


start offset 0, length1024 


图 10-34 网 络 文件 系统 I0 全 流程 图 

(1 ) 首先 , 主机 客户 端 通过 NFS Client 对 NAS 上 的 一 个 输出 目录 /nas/export 进行 Mount 操 
作 ， 将 其 Mount 到 了 本 地 的 /mnt/nas 路 径 下 。 

(2 ) 之 后 , 主机 客户 端 上 某 应 用 程序 发 起 了 对 /mnt/nas/nas.txt 文件 的 读 取 操 作 , 读 取 从 偏 移 
量 0 字 节 开始 往 后 的 1024 字 节 , 也 就 是 这 个 文件 的 前 1024 字 节 。 这 个 动作 是 通过 调用 
操作 系统 提供 的 文件 操作 API 执行 的 ， 比 如 Read0。 

(3 ) 这 个 IO 请 求 被 传送 到 了 NFS Client 处 ，NFS Client 知道 /mnt/nas 路 径 对 应 的 其 实 是 
NAS 服务 端的 /nas/export 这 个 输出 目录 ， 所 以 NFS Client 将 上 层 下 发 的 这 个 读 取 请 求 
封装 成 NFS 协议 规定 的 标准 格式 通过 网 络 传送 到 NAS 服务 端 。 

(4) NAS 服务 端 接收 到 这 个 读 请 求 之 后 ， 将 请 求 通过 操作 系统 API 传送 给 文件 系统 模块 处 
理 。 
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(5 ) 文件 系统 模块 接收 到 针对 /nas/export/nas-txt 文件 的 读 请 求 之 后 , 首先 查询 缓存 内 是 否 有 
对 应 的 数据 , 如 果 有 ， 则 直接 返回 结果 ; 如 果 没 有 , 则 需要 将 这 段 字 节 所 落 入 的 底层 存 
储 空间 的 块 信息 取 回 , 这 个 动作 通过 查询 Inode 表 等 元 数据 获得 。 当 得 到 底层 块 地 址 之 
后 , 文件 系统 通过 调用 OS 提供 的 API 将 对 这 些 块 的 读 请 求 发 送 给 下 游 模块 , 也 就 是 卷 
管理 层 。 

(6 ) 卷 管理 层 是 将 底层 物理 磁盘 设备 进行 虚拟 化 封装 的 层次 。 当 卷 管理 层 收 到 针对 某 个 卷 某 
段 LBA 地 址 的 请 求 之 后 ， 它 要 进行 翻译 ， 将 目标 虚拟 卷 的 地 址 翻译 为 对 应 着 底层 物理 
磁盘 块 设备 的 地 址 ; 翻译 完 后 ， 卷 管理 层 将 对 应 目标 地 址 的 请 求 再 次 通过 调用 OS API 
的 方式 发 送 给 下 游 ， 也 就 是 驱动 程序 层 了 。 

(7) 块 设备 驱动 是 负责 对 相应 块 设备 进行 IO 的 角色 ， 它 将 这 些 IO 发 送 给 SCSI CDB 
Generator， 也 就 是 SCSI 指令 的 翻译 中 心 。 

(8) SCSI CDB Generator 的 职责 是 将 对 应 的 IO 请 求 描述 为 SCSI 协议 的 标准 格式 。 之 后 ， 
这 些 指令 被 发 送 到 SCSI/EC 适配器 的 驱动 程序 处 。 

(9 ) 设备 驱动 程序 接收 到 这 些 SCSI 指令 之 后 ， 将 其 封装 到 对 应 的 链 路 帧 中 通过 内 部 总 线 网 
络 或 者 外 部 包 交 换 网 络 传送 到 目标 。 

(10 ) SCSI 指令 传送 到 目标 设备 ， 目 标 设备 执行 相应 指令 并 返回 结果 。 


10.2.5 文件 提供 者 


NAS 可 以 看 作 一 个 Filer。 Filer 这 个 词 是 著名 NAS 设备 厂商 NetApp 对 其 NAS 产品 的 通俗 称 
呼 。 它 专门 处 理 文件 系统 逻辑 及 其 下 面 各 层 的 逻辑 ， 从 而 解放 了 服务 器 主机 。 服 务 器 主机 上 不 必 
运行 文件 系统 逻辑 ， 甚 至 也 不 用 运行 磁盘 卷 逻 辑 ， 只 需 运行 目录 层 逻 辑 ( UNIX 系统 上 VFS 层 、 
Windows 系统 上 的 盘 符 及 目录 ) 即 可 。 把 底层 的 模块 全 部 交 由 一 个 独立 的 设备 来 完成 , 这样 就 节 
约 了 服务 器 主机 的 CPU 资源 和 内 存 资源 ， 从 而 可 以 专心 地 处 理应 用 层 逻 辑 了 。 

NAS 网 关 就 是 这 样 一 种 思想 。NAS 网 关 其 实 就 是 一 台 运 行文 件 系 统 逻 辑 和 卷 逻 辑 的 设备 ， 
可 以 把 它 想象 成 一 个 泵 ， 这 个 泵 可 以 从 后 端 接收 一 种 格式 ( 以 LBA 地 址 为 语言 的 指令 和 数据 格 
式 ) ,经 过 处 理 后 从 前 端 用 另 一 种 格式 ( 以 文件 系统 为 语言 的 指令 和 数据 格式 ) 发 送出 去 , 或 执 
行 反 向 的 过 程 。 可 以 把 这 个 泵 接 入 任何 符合 条 件 的 网 络 中 ,以 实现 它 的 功能 。 我 们 可 以 称 它 为 文 
件 系统 泵 ， 或 者 Filer。 可 以 把 SAN 设备 称 为 Disker ( 专门 处 理 磁 盘 卷 逻辑 ) ， 把 服务 器 主机 称 
为 Applicationer ( 专门 处 理应 用 逻辑 ) 。 如 果 某 个 设备 集成 了 Filer 和 Disker 的 功能 ， 并 将 其 放 入 
了 一 个 机 箱 或 者 机 柜 , 那么 这 个 设备 就 是 一 个 独立 的 NAS 设备 。 如 果 某 个 设备 仅仅 实现 了 Filer， 
而 Disker 是 另外 的 独立 设备 ， 那 么 这 个 只 实现 了 Filer 的 设备 就 称 为 NAS 网 关 或 NAS 泵 。 
图 10-35 显示 了 这 个 泵 接 入 网 络 之 后 发 生 的 变化 。 


307 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


文件 系统 语言 


磁盘 卷 语言 
(SCSI 指 令 ) 
磁盘 卷 语言 
C SCSI 指 令 ) 


图 10-35 NAS 泵 
然而 ,目前 NAS 的 用 途 并 不 如 SAN 广泛 ， 主 要 原因 是 NAS 的 前 端 接口 几乎 都 是 干 兆 以 太 
网 接口 ， 而 千 兆 以 太 网 的 速度 也 不 过 100Mb/s， 除 去 开销 之 后 所 剩 无 几 。 而 SAN 设备 的 前 端 接 
口 目前 普遍 都 是 4Gb/s 的 速度 , 可 以 提供 400Mb/s 的 带宽 。 FC 现在 已 有 8Gb/s 速率 的 接口 出 现 ， 
而 10Gb/s 以 太 网 也 初 露 端倪 。 不 久 的 将 来 ，NAS 必定 会 发 起 另 一 轮 进攻 。 


10.2.6 ”NAS 的 本 质 


pw 展现 ,以 及 提供 调用 接口 。 文 件 系统 将 数据 展现 为 
文件 和 目录 的 形式 ， 调 用 接口 包括 读 、 写 、 删 、 创 建 等 。 

= Read0、 
Write0 、API 等 。 

如 果 应 用 程序 不 在 本 机 运行 , 而 是 运行 在 网 络 的 另 一 端 , 同时 依然 想 保留 原 有 的 访问 文件 的 
方式 。 此 时 就 需要 允许 远程 机 器 上 的 应 用 程序 可 以 把 这 些 调用 指令 通过 网 络 打包 传送 过 来 , 这些 
指令 必须 双方 都 能 够 识别 ， 为 此 ，NFS 和 CIFS 协议 诞生 了 。 二 者 统称 NAS 协议 或 者 NAS。 

多 个 远程 的 应 用 程序 可 以 同时 对 本 地 文件 系统 发 起 IO 请 求 。 这 样 ， 本 地 这 台 服 务 器 就 变 成 
了 一 台 文 件 服务 器 了 ，NAS 设备 就 这 么 诞生 了 。 

所 以 NFS 和 CIFS 又 被 称 为 “网 络 文件 系统 ”， 其 实 它们 只 是 一 种 规定 如 何 将 文件 操作 指令 
及 结果 在 双方 之 间 传 送 和 控制 的 协议 。 网 络 上 只 有 协议 , 没有 文件 系统 , 文件 系统 都 在 本 地 。“ 通 
过 外 部 网 络 而 不 是 计算 机 内 部 总 线 来 传递 文件 读 写 指令 的 系统 ”是 对 网 络 文件 系统 最 准确 和 最 本 
质 的 描述 。 


10.3 DAS、SAN 和 NAS 


人 们 将 最 原始 的 存储 架构 称 为 DAS Direct ( Dedicate ) Attached Storage， 直接 连接 存储 ， 意 
思 是 指 存储 设备 只 用 于 与 独立 的 一 台 主机 服务 器 连接 ， 其 他 主机 不 能 使 用 这 个 存储 设备 。 如 PC 
中 的 磁盘 或 只 有 一 个 外 部 SCSI 接口 的 JBOD 都 属于 DAS 架构 。 

纵 观 武当 仓库 的 改革 过 程 ， 恰 恰 正 是 一 个 从 DAS ( 仅 供 自己 使 用 ) 到 SAN ( 出 租 仓库 给 其 
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他 租户 使 用 ) ， 再 到 NAS (集中 式 理 货 服务 外 包 ) 的 过 程 。 
到 此 ，DAS、SAN、NAS 形成 了 存储 架构 的 三 大 阵营 ， 且 各 有 其 适用 条 件 ， 形 成 了 三 足 电 
立 之 势 ! 
提示 : 但 是 ,大 家 一 定 要 牢记 ，SAN ( Storage Area Network ) 是 一 种 网 络 ， 而 不 是 某 种 设 
备 。 只 要 是 专门 用 来 向 服务 器 传输 数据 的 网 络 都 可 以 称 为 SAN。 所 以 ，NAS 设备 使 用 以 
太 网 络 向 主机 提供 文件 级 别 的 数据 访问 , 那么 以 太 网 络 就 是 SAN。 由 于 在 高 端 领域 NAS 
的 使 用 不 如 FC SAN 设备 多 ， 所 以 人 们 习惯 地 称 FC SAN 架构 为 SAN。 我 们 也 顺从 习惯 ， 
但 是 一 定 要 明白 其 中 的 门道 。 


10.4 ”最 终 幻 想 一 一 将 文件 系统 语言 承载 于 FC 网 络 传输 


既然 SCSI 语言 及 数据 可 以 用 FC 协议 传递 ， 文 件 系统 语言 可 以 用 以 太 网 传递 ， 那 么 文件 系 
统 语言 能 不 能 用 FC 传递 呢 ? 再 者 SCSI 语言 能 不 能 通过 以 太 网 来 传递 呢 ? 完全 可 以 ， 而 且 后 者 
已 经 被 实现 并 被 广泛 应 用 了 ， 这 些 内 容 将 在 第 12 章 讲解 。 在 4 种 组 合 中 ， 只 有 将 文件 系统 语言 
承载 于 FC 网 络 传输 这 个 想法 没有 被 实现 ， 或 者 说 有 人 实现 了 但 是 没有 听 说 。 

现在 来 看 前 者 。 试 想 一 下 ,如 果 用 FC 协议 传递 文件 系统 语言 和 数据 而 不 是 磁盘 卷 语言 及 其 
数据 ,那么 开销 会 小 很 多 。 文件 系统 语言 毕竟 是 比较 上 层 和 高 级 的 语言 ， 相 对 于 底层 磁盘 卷 语言 
来 说 ， 它 非常 简单 。 

读 写 某 个 文件 , 如 果 用 高 层 语言 只 需要 描述 关于 这 个 文件 的 信息 即 可 。 但 是 如 果 使 用 低级 语 

言 ， 可 能 要 发 送 很 多 的 语句 。 如 果 这 个 文件 在 磁盘 上 形成 了 很 多 碎片 的 话 ， 发 送 的 IO 指令 将 不 
计 其 数 。 这 就 像 C 语言 被 编译 器 编译 成 汇编 语句 一 样 ， 文 件 系统 语 言 是 高 级 语言 ,比如 “将 C 
盘 下 C.txt 文 件 传送 过 来 ”这 一 句 高 级 语言 , 会 被 翻译 成 更 低级 的 多 条 SCSI 语言 。 利 用 比 内 存 总 
线 速 度 慢 得 多 的 FC 网 络 来 传送 这 些 低级 语言 ， 无 疑 是 非常 浪费 资源 的 。 低 级 语言 就 应 该 在 内 存 
中 传递 而 不 是 外 部 低速 网 络 上 ， 这 样 才能 达到 性 能 最 大 化 。 
前 普遍 的 架构 是 文件 系统 和 磁盘 控制 器 驱动 程序 都 运行 在 应 用 服务 器 主机 上 。 文 件 系 统 向 
卷发 送 的 请 求 是 通过 内 存 来 传递 的 , 而 主机 向 磁盘 ( LUN ) 发 送 的 请 求 是 通过 FC 网 络 来 传递 的 ， 
后 者 速度 显然 比 前 者 慢 很 多 。 如 果 将 “文件 系统 、 磁 盘 控制 器 和 磁盘 ( SAN 盘 阵 或 者 本 地 磁盘 )” 
这 三 个 部 件 ， 整 体 搬 到 应 用 服务 器 主机 外 部 ,成 为 一 个 独立 的 NAS 系统 。 然 后 这 个 NAS 设备 用 
FC 协议 与 服务 器 主机 通信 , FC 协议 上 承载 的 是 文件 系统 语言 ,这 就 既 保证 降低 了 服务 器 的 开销 ， 
又 保证 了 数据 传输 速度 。 

也 许 受 限于 技术 或 者 商业 和 市 场 的 限制 ，File system (或 File ) over FC ( FC 网 络 文件 系统 ) 
始终 没有 被 提出 或 开发 出 来 。 不 过 在 10G 以 太 网 普及 之 后 ,相信 FC 设备 也 会 因为 高 成 本 、 高 专 
用 化 、 兼 容 性 等 问题 逐渐 被 淘汰 。 目 前 市 场 上 的 NAS 设备 普遍 采用 以 太 网 加 上 TCP/IP 的 模式 
来 传送 文件 系统 指令 ,我 们 可 以 称 这 种 架构 为 File system over Ethernet ( FSoE ) 。 

提示 : 关于 协议 之 问 相互 杂交 的 论题 ， 在 后 面 会 详细 讨论 。 


10.5 长 路 漫漫 一 一 存储 系统 架构 演化 过 程 
下 面 总 结 一 下 系统 架构 演化 过 程 中 的 10 个 阶段 。 
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10.5.1 第 一 阶段 : 全 整合 阶段 


图 10-36 是 一 个 最 原始 的 普通 服务 器 的 架构 ， 所 有 部 件 和 模块 都 在 一 个 服务 器 机 箱 中 。 这 
属于 DAS 架构 ， 因 为 主机 机 箱 内 的 磁盘 只 被 本 机 使 用 。 


图 10-36 全 整合 阶段 


10.5.2 第 二 阶段 : 磁盘 外 置 阶段 


10-37 所 示 的 架构 , 是 将 磁盘 置 于 服务 器 机 箱 外 部 的 情况 。 这 种 架构 依然 属于 DAS 架构 ， 
因为 存储 系统 只 被 一 台 主机 使 用 。 


10-37 磁盘 外 置 阶段 


10.5.3 第 三 阶段 : 外 部 独立 磁盘 阵列 阶段 


图 10-38 是 服务 器 主机 通过 普通 SCSI 线 缆 连 接 外 部 独立 磁盘 阵列 的 情况 。 这 种 简单 的 SCSI 
接口 盘 阵 只 能 供 一 台 或 者 几 台 ( 如 果盘 阵 提供 多 个 外 部 SCSI 接口 的 话 ) 主机 接 入 ， 称 不 上 彻底 
的 网 络 化 ， 但 可 以 被 称 为 SAN， 因 为 这 种 架构 已 经 开始 显现 网 络 化 萌芽 了 。 


图 10-38 外 部 独立 磁盘 阵列 阶段 
10.5.4 ”第 四 阶段 : 网 络 化 独立 磁盘 阵列 阶段 


| 


10-39 是 一 台 服 务 器 用 FC 网 络 连接 FC 接口 磁盘 阵列 的 情况 。 图 中 磁盘 阵列 真正 成 为 包 
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交换 网 络 上 的 一 个 节点 ， 可 同时 被 多 个 其 他 节点 访问 , 是 向 彻底 网 络 化 进化 的 里 程 碑 。 这 种 架构 
是 彻 彻底 底 的 SAN 架构 。 


图 10-39 网 络 化 独立 磁盘 阵列 阶段 
10.5.5 ”第 五 阶段 : 瘦 服 务 器 主机 、 独 立 NAS 阶段 


图 10-40 中 ,服务 器 主机 用 以 太 网 与 NAS 设备 进行 通信 从 而 存储 数据 。 在 瘦 服 务 器 阶段 ， 
文件 系统 之 下 的 所 有 层次 模块 位 移 到 了 外 部 独立 设备 中 。 主机 得 到 了 彻底 的 解放 , 专门 处 理 业 务 
逻辑 ， 而 不 必 花 费 太 多 资源 去 处 理 底层 系统 逻辑 。 


SCS| 总 线 或 者 
FC-AL 网 络 通信 


图 10-40 瘦 服务 器 主机 、 独 立 NAS 阶段 
10.5.6 第 六 阶段 : 全 分 离 式 阶段 


在 NAS 设备 的 后 端 可 以 用 包含 在 自己 机 箱 内 的 硬盘 , 也 可 以 用 并 行 SCSI 来 连接 磁盘 , 还 可 
以 用 FC 协议 来 连接 SAN 盘 阵 来 获得 LUN ( NAS 网 关 ) 。 在 这 个 阶段 中 ,所 有 部 件 彻 底 地 分 离 
了 ,每 个 部 件 都 各 司 其 职 ， 中 间 通 过 不 同 的 网 络 方式 通信 ， 前 端 用 以 太 网 ， 后 端 用 FC 网 ， 如 图 
10-41 所 示 。 


文件 系统 语言 SCS 癌 二 或 者 
Fobric 网 络 通信 


(磁盘 卷 语 言 ) 


图 10-41 全 分 离 式 阶段 
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10.5.7 第 七 阶段 : 统一 整合 阶段 


在 图 10-42 的 环境 中 ， 既 有 纯 SAN 的 磁盘 阵列 ， 来 利用 自己 机 箱 或 扩展 柜 内 的 磁盘 ， 又 有 
NAS 网 关 设备 ， 不 但 可 以 利用 本 地 磁盘 ， 还 可 以 向 SAN 磁盘 阵列 “租赁 ”若干 LUN 卷 。 另 外 还 
有 一 台 多 协议 磁盘 阵列 ， 它 既 可 以 向 外 提供 FC 协议 的 连接 方式 ( 承载 磁盘 卷 语言 ) ， 又 可 以 提供 
以 太 网 的 连接 方式 ( 承载 文件 系统 语言 ) ,这 种 设备 是 SAN 与 NAS 融合 的 结果 。 服 务 器 可 以 选择 
直接 用 磁盘 卷 语言 访问 SAN 磁盘 阵列 上 的 LUN， 用 运行 在 服务 器 上 的 文件 系统 程序 管理 磁盘 卷 ， 
也 可 以 选择 直接 通过 以 太 网 络 访问 NAS 设备 上 的 目录 ， 用 文件 系统 语言 向 NAS 发 送 指令 。 

这 个 架构 最 终 就 是 一 个 整合 的 架构 ， 既 有 纯 SAN 和 纯 NAS， 又 有 被 整合 到 一 起 的 SAN 和 
NAS 统一 存储 设备 。 

第 七 阶段 也 是 目前 IT 系统 所 应 用 的 架构 。 


服务 器 通过 这 条 路 径 访问 NAS 


| NAs 网 关 通过 


站 


图 10-42 ”统一 整合 阶段 


10.5.8 ”第 八 阶段 : 迅速 膨胀 阶段 


也 就 是 Scale-Out 架构 的 x86 集群 阶段 , 使 用 大 量 的 节点 来 组 成 一 个 对 外 统一 的 视图 。 从 物 
理 可 见 的 角度 上 讲 , 是 大 规模 并 行 集群 ， 从 较 高 层 的 角度 来 讲 ， 由 单个 的 、 无 意识 的 节点 来 组 成 
一 个 庞大 的 整体 有 意识 的 整体 ， 这 就 变 成 了 云 的 一 种 特征 了 。 不 管 是 SAN 还 是 NAS， 它 们 此 时 
被 承载 到 同 质 化 的 底层 集群 上 ， 只 是 前 端 输出 的 访问 协议 不 同 而 已 。 

此 时 整个 系统 中 的 节点 数量 规模 将 会 空前 庞大 ， 系 统 内 部 的 能 量 将 迅速 爆发 ， 如 图 10-43 
所 示 。 
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图 10-43 迅速 膨胀 阶段 


10.5.9 ”第 九 阶段 : 收缩 阶段 


当 大 量 的 节点 迅速 膨胀 之 后 , 能量 最 终 会 被 消耗 列 尽 ， 随 着 新 技术 的 不 断 产生 ， 当 机 械 硬盘 
被 芯片 所 取代 , 并 且 大 规模 集成 电路 技术 不 断 地 发 展 , 操作 系统 中 的 所 有 底层 模块 均 用 专用 硬件 
电路 实现 。CPU 所 做 的 仅仅 是 进行 业务 逻辑 计算 。 外 部 接口 已 经 过 渡 到 了 全 部 使 用 无 线 网 络 进 
行 通信 ， 包 括 连接 显示 器 (或 许 已 经 被 3D 眼镜 所 取代 ) 。 

目前 ，Intel 公司 已 经 在 其 CPU 上 集成 了 显示 芯片 ， 使 计算 机 不 再 需要 加 装 独立 的 显卡 ， 也 
不 用 占用 主板 上 的 空间 来 集成 显示 芯片 。Sun 公司 将 多 个 万 兆 以 太 网 芯片 集成 在 了 最 新 的 CPU 
上 。Bluearc 公司 的 存储 产品 更 是 已 经 将 整个 操作 系统 的 所 有 逻辑 都 做 到 了 FPGA 芯片 中 。 这 些 
新 技术 正在 发 芽 ， 随 着 节点 数量 的 膨胀 ， 其 底层 却 在 向 着 收缩 的 方向 演进 。IT 架构 正 处 于 缓慢 
收缩 之 中 。 图 10-44 所 示 为 收缩 阶段 系统 架构 示意 图 。 


图 10-44 收缩 阶段 


10.5.10 ”第 十 阶段 : 强烈 圳 缩 阶 段 


长 过 了 头 就 要 收缩 , 阳 气 消散 之 后 , 阴 实 就 会 逐渐 显露 并 占 上 风 ， 
整个 系统 会 发 生 强烈 坦 缩 。 对 于 系统 架构 ， 南 缩 之 后 的 IT 系统 会 节 
约 大 量 空间 和 电力 能 量 。 随 着 集成 电路 技术 发 展 到 一 定 程度 之 后 , 其 
至 可 以 将 整个 系统 集成 于 一 个 微小 的 芯片 中 ， 即 所 谓 的 System on 
Chip (SOC ) 。IT 系统 将 翰 缩 到 这 个 芯片 中 ， 如 图 10-45 所 示 。 

纵 观 这 10 个 阶段 ， 从 全 整合 阶段 ( 占用 很 大 空间 和 资源 ) 到 雪 ” 图 10-45 强烈 反 缩 阶段 
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缩 阶 段 ( 极 小 的 空间 极 高 的 质量 正 是 宇宙 发 展演 化 的 规律 。 在 一 个 极 大 的 空间 中 包含 了 众 
多 物质 ， 然 后 通过 不 断 演 化 ， | ， 同 样 包含 了 极 大 的 质量 。 
到 此 , SAN 已 经 不 仅仅 限于 通过 FC 网 络 传递 SCSI 指令 的 架构 了 。 SAN 的 概念 , 既然 是 “ 存 
储 区 域 网 络 ” 的 意思 , 那么 就 应 该 泛 指 参与 主机 服务 器 后 端 存储 系统 的 所 有 部 件 , 甚至 包括 NAS， 
我 们 可 以 将 NAS 看 作 SAN 的 一 个 分 支架 构 。 

SAN 在 IT 系统 架构 进化 到 第 十 阶段 之 前 还 会 继续 存在 。 在 第 十 阶段 , SAN 的 概念 或 许 会 被 
赋予 另外 的 意义 。 


10.6 泰山 北斗 一 一 NetApp 的 NAS 产品 


NetApp 公司 掌握 了 全 球 最 先进 的 NAS 方面 的 相关 技术 ， 它 的 FAS 系列 产品 统治 了 NAS 市 
场 的 大 部 江山 。FAS 系列 中 的 所 有 产品 均 运行 Data ONTAP 操作 系统 ， 这 是 NetApp 专门 开发 的 
针对 NAS 的 操作 系统 。 

既然 是 NAS, 其 内 部 的 文件 系统 层 肯 定 是 一 个 功能 强大 而 稳定 的 层次 。ONTAP 系统 中 的 文 
件 系统 名 为 WAFL， 这 是 一 个 充满 个 性 的 文件 系统 。 

NetApp 自称 其 存储 产品 为 “Filer”， 下 面 就 来 看 看 Filer 的 四 把 杀手 铜 。 


10.6.1 WAFL 配合 RAID 4 


Write Anywhere Filesystem Layout ( WAFL ) 是 NetApp 公司 开发 的 一 种 文件 系统 。 这 个 文件 
系统 最 大 的 特点 ,也 是 其 他 所 有 文件 系统 都 没有 实现 的 特点 ,就 是 它 能 按照 RAID 4 的 喜好 来 向 
RAID 4 卷 写 数据 。RAID 4 由 于 其 独立 校 验 盘 的 设计 ， 导 致 它 只 能 接受 顺序 的 写 入 IO 而 不 能 并 
发 ， 所 以 它 对 于 其 他 厂家 的 盘 阵 来 说 完全 就 是 一 个 灾 星 ， 没 有 人 敢 用 ， 也 没有 人 愿意 用 。 然 而 
NetApp 偏偏 采用 了 它 ， 而 且 通 过 WAEFL 的 调教 ， RAID 4 在 FAS 产品 上 发 挥 出 了 很 好 的 性 能 。 
WAEFL 是 怎么 调教 RAID 4 的 呢 ? 

与 其 说 是 WAEFL 调教 RAID 4， 不 如 说 是 RAID 4 通 迫 WAEFL 就 范 。 

RAID 4 再 不 好 也 有 可 取 的 地 方 ， 如 果 IO 写 入 有 很 大 几率 是 整 条 写 的 形式 ， 那 么 RAID 4 
便 会 表现 得 像 RAID 0 一 样 良好 。 不 仅仅 是 RAID 4, 任何 校 验 型 的 RAID, 如 RAID 5、RAID 3， 
只 要 是 整 条 写 ， 便 会 产生 极 高 的 性 能 。 

提示 : 关于 整 条 写 的 概念 ， 可 参考 本 书 第 4 章 的 内 容 。 
既然 校 验 型 RAID 最 喜欢 被 整 条 写 ， 那 么 就 不 妨 满足 这 个 要 求 。WAEL 就 是 这 么 被 设计 出 
来 的 。 
图 10-46 所 示 的 是 一 个 5 块 盘 组 成 的 RAID 4 系统 。 条 带 大 小 20KB， 条 带 在 每 个 数据 盘 
上 分 割 出 的 segment 大 小 为 4KB。 假 如 某 一 时 刻 应 用 要 求 WAFL 写 入 三 个 文件 ， 如 /tmp/filel、 
/tmpyfile2 和 /tmp/fle3， 其 中 flel 大 小 为 4KB ，fle2 大 小 为 SKB ，file3 大 小 为 4KB。 则 WAFL 
便 会 计算 出 : 如 果 将 这 三 个 文件 对 应 的 数据 写 到 一 整 条 条 带 上 ,就 构成 了 整 条 写 , 性 能 得 到 了 
提升 。 
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条 带 A 
条 带 B 
条 带 C 


图 10-46 5 块 盘 组 成 的 RAID 系统 

所 以 ，WAEFL 先 在 其 元 数据 中 做 好 记录 : /ampyflel 对 应 数据 块 为 A1，/ampyfile2 对 应 数据 
块 为 A2+A3，/tmpy/fle3 对 应 数据 块 为 A4。 然 后 将 这 三 个 文件 的 数据 合并 写 入 RAID。 当 然 , 如 
果 要 求 增加 高 并 发 度 ， 那 么 WAFL 也 可 以 将 同一 个 文件 对 应 的 一 定 长 度 的 块 写 入 同一 个 硬盘 。 

实际 上 , 文件 系统 就 应 该 适 配 底层 的 特性 , 只 有 这 样 才能 获得 最 优 的 性 能 。 普 通 文件 系统 中 ， 
在 选取 空闲 块 写 入 数据 的 时 候 ， 并 没有 针对 底层 的 RAID 级 别 来 做 对 应 的 优化 。 而 WAFL 中 有 
一 个 专门 的 Write Allocation 模块 来 负责 优化 。 WAFL 的 做 法 无 疑 对 文件 系统 的 优化 起 到 了 领头 和 
示范 作用 。 

以 上 只 是 简略 说 明 WAEL 的 思想 ， 实 际 操作 中 还 需要 考虑 诸如 元 数据 的 写 入 、 块 的 偏 移 等 
很 多 复杂 情况 。 


10.6.2 Data ONTAP 利用 了 数据 库 管理 系统 的 设计 


我 们 知道 , 数据 库 管理 系统 是 这 样 记录 日 志 的 : 在 某 时 刻 , 数据 库 管理 系统 接收 到 应 用 程序 
的 SQL 更 新 语句 及 其 对 应 的 数据 ， 在 将 这 些 数 据 更 新 到 缓存 中 覆盖 原 有 数据 的 同时 ， 将 这 个 操 
作 的 动作 以 及 对 应 的 数据 , 以 日 志 的 形式 记录 到 位 于 内 存 的 日 志 缓冲 区 内 。 每 当 应 用 程序 发 起 提 
交 指 令 或 每 隔 几 秒 钟 的 时 间 , 缓冲 区 内 的 日 志 就 会 被 写 入 到 磁盘 上 的 日 志文 件 中 , 以 防止 意外 掉 
电 后 造成 的 数据 不 一 致 性 , 同时 将 缓存 中 更 新 过 的 数据 块 写 入 磁盘 。 只 有 当日 志 被 确实 地 写 入 到 
硬盘 上 的 日 志文 件 中 后 ， 数 据 库 管 理 程 序 才 会 对 上 层 应 用 返回 执行 成 功 的 信号 。 

数据 库 系 统 是 一 个 非常 复杂 的 系统 , 也 是 一 个 对 数据 一 致 性 要 求 极 高 的 系统 , 所 以 数据 库 利 
用 记录 操作 日 志 的 方式 来 保证 数据 一 致 性 的 做 法 是 目前 普遍 使 用 的 ， 而 且 是 实际 效果 最 好 的 方 
法 。NetApp 的 Dat ONTAP 操作 系统 ， 就 是 利用 了 数据 库 这 种 设计 思想 ， 它 把 向 文件 系统 或 卷 
的 一 切 写 入 请 求 作为 操作 日 志 记录 到 NVRAM 中 保存 , 每 当日 志 被 保存 到 了 NVRAM 中 ,就 会 
向 上 层 应 用 返回 写 入 成 功 信号 。 

为 何 要 用 NVRAM 而 不 是 文件 来 保存 日 志 呢 ? 


10.6.3 利用 NVRAM 来 记录 操作 日 志 


数据 库 系统 完全 可 以 直接 将 操作 日 志 写 入 磁盘 , 而 不 必 先 写 入 内 存 中 的 日 志 缓冲 区 , 再 在 触 
发 条 件 下 将 日 志 写 入 磁盘 上 的 文件 。 然 而 这 人 么 做 会 严重 降低 性 能 ,因为 日 志 的 写 入 是 非常 频繁 的 ， 
且 必 须 为 同步 写 入 。 如 果 每 条 日 志 记录 都 写 入 磁盘 , 则 由 于 磁盘 相对 于 内 存 来 说 是 慢 速 IO 设备 ， 
所 以 会 造成 严重 的 IO 瓶颈 。 所 以 必须 使 用 内 存 中 的 一 小 块 来 作为 日 志 缓存 。 

但 是 一 旦 系统 发 生意 外 掉 电 , 则 内 存 中 的 日 志 还 没 来 得 及 保存 到 硬盘 就 会 丢失 。 在 数据 库 再 
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次 启动 之 后 ,会 提取 硬盘 上 已 经 保存 的 日 志文 件 中 的 条 目 来 重 放 这 些 操作 ,对 于 没有 提交 的 操作 ， 
进行 回 深 。 这 样 ， 就 保证 了 数据 的 一 致 性 。 

如 果 某 个 应 用 程序 频繁 地 进行 提交 操作 , 则 日 志 缓冲 区 的 日 志 便 会 被 频繁 写 入 磁盘 。 在 这 种 
情况 下 , 日 志 缓 存 就 起 不 到 多 少 作用 了 。 幸好， 对 于 很 多 需要 访问 数据 库 的 应 用 程序 来 说 ， 上 层 
的 每 个 业务 操作 一 般 都 算 作 一 个 交易 , 在 交易 尚未 完成 之 前 , 程序 是 不 会 发 送 提交 指令 给 数据 库 
系统 的 ， 所 以 频繁 提交 发 生 的 频率 不 高 。 

然而 , 上层 应 用 向 文件 系统 中 写 数据 的 话 , 每 个 请 求 都 是 一 次 完整 的 交易 。 如 果 对 每 个 请 求 
都 将 其 对 应 的 操作 日 志 写 入 磁盘 ， 开 销 就 会 很 大 。 所 以 NetApp 索性 利用 带电 池 保 护 的 RAM 内 
存 用 作 记录 操 作 日 志 的 存储 空间 。 这样 一 来 , 不 但 日 志 写 入 的 速度 很 快 , 而 且 不 用 担心 意外 掉 电 。 
有 了 这 种 电池 保护 的 RAM ( 称 为 NVRAM 似乎 不 合适 ， 因 为 NVRAM 不 用 电池 就 可 以 在 不 供 
电 的 情况 下 保存 数据 ， 而 NetApp 使 用 的 是 带电 池 保 护 的 RAM， 下 文 姑且 称 其 为 NVRAM ) 来 
记录 操作 日 志 ， 只 要 日 志 被 成 功 存 入 了 这 个 RAM， 就 可 以 立即 通知 上 层 写 入 成 功 。 

一 定 要 搞 清楚 日 志和 数据 缓存 的 区 别 。 日 志 只 是 记录 一 种 操作 动作 以 及 数据 内 容 , 而 不 是 实 
际 数据 块 ， 前 者 比 后 者 要 小 很 多 。 实 际 数据 块 保存 在 RAM 中 而 不 是 NVRAM 中 。 

由 于 用 RAM 来 保存 日 志 , 所 以 速度 超级 快 , 可 以 一 次 接收 上 干 条 写 入 请 求 而 直接 向 上 层 应 
用 返回 成 功 信号 ， 待 RAM 半 满 或 每 10 秒 钟 的 时 候 ， 这 些 数据 由 WAEL 一 次 性 批量 连续 写 入 硬 
盘 ， 保 证 了 高 效率 。 这 也 是 NetApp 的 NAS 为 什么 相对 比较 快 的 一 个 原因 。 


10.6.4 ” WAFL 从 不 覆 写 数据 


每 当 NVRAM 中 的 日 志 占 用 了 整个 NVRAM 空间 的 一 半 或 每 10 秒 钟 也 可 能 是 其 他 的 某 些 
条 件 达 到 临界 值 的 时 候 , WAFL 便 会 将 所 有 缓存 在 内 存 缓冲 区 内 的 已 经 改写 的 数据 以 及 元 数据 批 
量 写 入 硬盘 ， 同 时 清空 操作 日 志 ， 腾 出 空间 给 接 下 来 的 请 求 使 用 。 这 个 动作 叫做 Check Point。 

WAEFL 并 不 会 覆盖 掉 对 应 区 块 中 原来 的 数据 ， 而 是 寻找 磁盘 上 的 空闲 块 来 存放 被 更 改 的 块 。 
也 就 是 说 ， 所 有 由 WAFL 写 入 的 数据 都 会 写 入 空闲 块 ， 而 不 是 覆盖 旧 块 。 另 外 ， 在 Check Point 
没有 发 生 的 时 候 ， 或 者 数据 没有 全 部 被 Fush 之 前 ，WAEL 从 来 不 会 写 入 任何 元 数据 到 磁盘 。 

有 了 以 上 两 个 机 制 就 可 以 保证 在 Check Point 没 发 生 之 前 ， 磁 盘 上 的 元 数据 所 对 应 的 实际 数 
据 仍然 为 上 一 个 Check Point 时 候 的 状态 。 如 果 此 时 发 生 突然 断 电 等 故障 ， 虽 然 可 能 有 新 数据 已 
经 被 写 入 空闲 块 , 但 是 元 数据 并 未 写 入 ,所 以 磁盘 上 保存 的 元 数据 还 是 指向 旧 块 (这 也 是 为 何 旧 
块 从 来 不 会 被 WAFL 覆盖 的 原因 ) ， 数 据 就 像 没 有 变化 一 样 ， 根 本 不 用 执行 文件 系统 检查 这 种 
耗 时 费力 的 工作 。 一 旦 Check Point 被 触发 ， 则 WAEFL 先 将 缓存 中 的 所 有 数据 写 入 磁盘 空闲 块 ， 
最 后 才 将 元 数据 写 入 硬盘 。 一 旦 新 的 元 数据 写 入 了 硬盘 , 则 新 元 数据 的 指针 均 指 到 了 方才 被 写 入 
的 新 数据 块 ,对 应 的 旧 数 据 块 则 变 为 空闲 块 ( 虽然 块 中 仍 有 数据 ,但 是 已 经 没有 任何 指针 指向 它 )。 

这 个 特性 使 得 NetApp 的 快照 技术 水 到 渠 成 ， 且 性 能 良好 。 


10.7 ” 初 露 锋 芒 一 一 BlueArc 公司 的 NAS 产品 


上 文中 所 述 的 IT 系统 架构 发 展 的 第 九 阶段 ( 收缩 阶段 ) ， 其 代表 就 是 软件 的 全 芯片 化 。 这 
些 芯片 不 同 于 CPU, 而 是 完全 应 用 逻辑 芯片 , 比如 ASIC 或 更 高 成 本 的 FPGA 和 CPLD。 这 些 芯 
片 对 于 专用 逻辑 的 运算 速度 远 高 于 CPU, 因为 CPU 是 读 取 外 部 程序 代码 指令 流 来 执行 并 生成 结 
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果 的 ， 而 专用 芯片 则 是 通过 读 入 原始 数据 信号 ， 在 经 过 内 部 逻辑 电路 之 后 直接 生成 了 输出 信号 。 
一 片 频率 100MHz 的 FPGA 在 运行 专用 逻辑 的 时 候 速度 也 会 高 于 频率 几 GHz 的 CPU。 图 10-47 
所 示 为 CPU 的 处 理 流程 ， 而 图 10-48 所 示 的 是 FPGA 的 处 理 流程 。 


图 10-47 CPU 的 处 理 流程 图 10-48 ”FPGA 的 处 理 流程 

FPGA 芯片 的 频率 目前 已 经 可 以 超越 1GHz, 其 内 部 电路 已 经 达到 1000 万 门 。 其 可 容纳 的 逻 
辑 更 多 、 更 复杂 ， 处 理 速度 越 来 越 快 。 

目前 有 些 厂家 正在 尝试 利用 FPGA 来 取代 CPU。 由 于 FPGA 可 重 构 计 算 的 特性 ， 人 们 认识 
到 许多 能 发 挥 其 特长 的 应 用 。 比 如 在 玩 《Crysis》 电 脑 游戏 时 ， 可 将 FPGA 配置 成 128 位 的 高 性 
能 3D 图 像 处 理 器 ; 当 需 要 听 高 保 真 环绕 立体 声 时 , 可 将 FPGA 配置 成 专用 的 DSP 处 理 器 ; 在 高 
层 网 络 交换 机 需要 支持 新 协议 时 ,只 需 重新 配置 FPGA 而 不 必 更 改 任何 硬件 ; 在 数字 电视 变更 解 
码 协 议 时 ， 只 要 通过 网 络 下 载 数据 来 重新 配置 FPGA; 当 从 GSM 网 转 到 CDMA 网 时 ,也 只 需 重 
新 配置 FPGA 而 不 必 更 换 手机 了 。 

同样 , 存储 产品 公司 BlueArc 在 其 NAS 产品 Titan 系列 中 , 将 其 上 运行 的 所 有 软件 逻辑 都 写 
入 了 FPGA 中 。 其 产品 将 存储 系统 路 径 上 的 多 个 模块 也 分 别 做 成 了 可 插 拔 式 模块 , 包括 前 端 网 络 
接口 模块 、 文 件 系统 模块 和 后 端 网 络 接口 模块 。 前 端 接 口 是 面 对 客 户 端的 接口 ; 文件 系统 则 是 整 
个 系统 的 处 理 中 枢 ; 后 端 接口 则 是 连接 磁盘 扩展 柜 的 接口 。 每 个 模块 上 均 有 多 个 FPGA 芯片 来 处 
理 各 自 的 逻辑 。 图 10-49 显示 了 Titan 各 个 模块 之 间 的 生态 架构 图 。 


图 10-49 Titan 存储 产品 内 部 架构 示意 图 
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图 10-50 为 Titan 产品 实物 图 。 后 面 有 4 个 
插 模 模块 , 中 间 两 个 为 文件 系统 模块 , 最 上 面 和 
最 下 面 的 模块 分 别 为 前 端 网 络 模块 和 后 端 网 络 
模块 。 
且 不 说 Titan 这 种 全 硬件 架构 是 否 成 熟 ， 其 
内 部 软件 是 否 兼容 性 良好 ， 抛 开 这 些 因素 不 谈 ， 
这 种 架构 其 实 反映 的 是 一 种 趋势 ， 一 种 精神 。 


图 10-50 Titan 存储 产品 实物 图 


10.8 ”宝刀 未 老 一 一 Infortrend 公司 NAS 产品 


在 中 端 SAN 存储 方面 ， 似 乎 到 处 都 可 见 到 Infortrend 公司 的 产品 ， 因 其 优良 的 做 工 和 中 规 中 和 矩 
的 软件 特性 ， 非 常 适合 被 OEM。 如 今 Infortrend 这 员 老 将 也 推出 了 自己 的 双 近 6 一 存储 产品 
EonNAS， 最 大 支持 到 256 盘 。 同 时 支持 用 iSCSI、FC、NEFS/CIES 方式 访问 ， 最 大 支持 4 个 万 光 以 
大 口 ， 如 图 10-51 所 示 。 这 款 NAS 系统 采用 的 是 双 控 可 热 插 拔 模块 化 设计 ， 设 计 上 还 是 很 用 心 的 。 


图 10-51 EonNAS3000 控制 器 机 头 

对 于 NAS 来 讲 ， 软 件 核心 和 功能 胜 过 硬件 规格 。EonNAS 底层 采用 ZFS 作为 存储 软件 核心 。 
ZFS 拥有 多 项 特色 ， 比 如 Raid-Z、 重 定向 写 、 原 生 快照 /克隆 、 远 程 复制 、 压 缩 、 重 据 一 致 
性 支持 等 等 。 这 也 是 近年 来 ZFS 几乎 被 所 有 二 三 线 厂商 用 作 存 储 底 层 的 原因 ， 因 为 它 几乎 搞 定 了 
SAN 和 NAS 存储 系统 底层 所 需要 做 的 多 数 工作 。 如 图 10-52 所 示 为 EonNAS3000 配置 界面 。 
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图 10-52 ”EonNAS3000 配置 界面 
这 里 要 着 重 介绍 的 一 点 是 ，EonNAS 支持 无 颖 Failover。 多 数 双 控 NAS 产品 是 不 支持 拷贝 文 
件 的 同时 发 生 控 制 器 切换 而 同时 又 能 保证 文件 拷贝 过 程 继续 的 。 很 欣慰 地 看 到 EonNAS 很 好 地 做 
了 支持 ,支持 这 个 技术 ,需要 双 控 之 间 同 步 已 经 打开 的 文件 句柄 等 信息 ， 还 是 比较 有 挑战 性 的 。 
如 图 10-53 和 图 10-54 所 示 ， 当 在 执行 文件 拷贝 动作 时 ， 强 行 Failover 一 台 控制 器 ,但 是 文件 拷 
贝 只 是 提示 了 重 试 或 者 跳 过 ， 并 没有 完全 中 断 ， 此 时 点 击 重 试 即 可 恢复 之 前 的 拷贝 状态 
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大 话 以 太 网 和 TCP/IP 协议 


， 以 太 网 
。 IP 

。 TCP 
。 UDP 
» OSI 


在 老 祖宗 的 OSI 宝典 的 基础 上 , 后 人 不 知 哪 位 大 侠 ， 
创立 了 自己 的 功夫 秘笈 ， 后 广泛 流传 于 江湖 。 这 套 秘笈 ， 
就 是 大 名 鼎鼎 的 “以 太 网 和 TCP/IP 大 法 ” 
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11.1 共享 总 线 式 以 太 网 


如 何 让 多 台 PC 之 间 能 够 相互 连接 并 且 相互 发 送信 息 呢 ? 既然 说 到 独立 系统 之 间 的 互联 , 那 
就 可 以 参考 OSI 来 做 。 在 参考 OSI 之 前 先 参考 三 元 素 ， 即 连 起 来 、 找 目标 、 发 数据 。 


11.1.1 连 起 来 


“ 连 ”这 个 动作 ,包括 了 OSI 的 物理 层 和 数据 链 路 层 。 首 先 要 找 一 种 连接 方式 将 所 有 节点 连 
接 起 来 。 连接 多 个 节点 最 简单 的 办 法 就 是 总 线 技术 。 总 线 就 是 一 个 公共 的 媒介 。 要 交流 ， 就 必须 
提供 交流 所 需 的 场所 ,这 个 场所 就 是 总 线 。 将 总 线 想象 成 一 根 铜 导 线 , 每 个 节点 都 连接 到 这 条 线 
上 。 这样 每 个 节点 的 信号 , 在 总 线 上 所 有 的 其 他 节点 都 会 感知 到 , 因为 良 导体 上 的 电位 处 处 相等 。 
基于 这 个 总 线 模型 , 早期 的 以 太 网 是 使 用 集线器 ( HUB ) 将 每 台 PC 都 连接 到 它 的 一 个 接口 
上 , 所 有 这 些 接口 通过 集线器 内 的 中 继 电 路 连接 在 一 起 。 为 什么 需要 中 继 器 ,为 什么 不 可 以 直接 
物理 连接 在 一 起 呢 ? 使 用 中 继 器 的 主要 原因 有 两 个 : 第 一 , 信号 在 总 线 上 传输 时 受到 干扰 可 能 会 
迅速 衰减 。 加 了 中 继 器 后 集线器 将 从 一 个 接口 收 到 的 bit 流 复制 到 每 个 接口 ， 这 样 就 避免 了 信和 号 
衰减 ; 第 二 , 中 继 器 可 以 防止 由 于 不 可 知 的 原因 , 造成 两 个 节点 同时 向 总 线 上 放置 信号 所 造成 的 
短路 。 图 11-1 是 一 个 HUB 模型 。 


图 11-1 HUB 模型 
在 数据 链 路 层 , 以 太 网 使 用 帧 的 形式 来 发 送 数据 流 。 上 层 的 数据 流 被 封装 成 一 个 个 的 以 太 网 
帧 ， 在 总 线 上 传播 。 


11.1.2 找 目 标 


为 了 区 分 总 线 上 的 每 个 节点 , 每 个 节点 都 必须 具有 一 个 唯一 的 身份 标志 。 以 太 网 中 , 这 个 标 
志 被 称 作 Media Access Control ( MAC ) 地 址 ,介质 访问 地 址 ， 即 只 有 数据 帧 中 包含 这 个 地 址 ， 
总 线 介质 上 拥有 这 个 地 址 的 接收 方才 知道 这 个 数据 帧 是 给 自己 的 ， 从 而 才 会 将 其 保存 到 缓冲 
内 。 实 际 上 ， 每 个 以 太 网 帧 中 都 包含 源 MAC 地 址 和 目的 MAC 地 址 。 

MAC 地 址 是 一 个 6 字 节 ( 48b ) 长 的 字段 , 每 个 节点 的 网 卡 都 有 一 个 全 球 唯一 的 MAC 地 址 ， 
这 个 地 址 在 网 卡 出 厂 时 被 固化 在 芯片 中 。 

以 太 网 就 是 利用 MAC 地 址 来 区 分 每 个 节点 的 。 


区 
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11.1.3 ”发 数据 


既然 是 总 线 方式 联网 , 那么 每 个 节点 发 出 的 信号 ,总 线 上 的 所 有 节点 都 会 感知 到 , 并 且 , 同 
时 刻 只 能 由 一 个 节点 的 信号 在 总 线 上 传递 , 如 果 同时 有 多 个 节点 都 向 总 线 上 传递 信号 , 则 各 路 

信号 之 间 就 会 发 生 冲突 。 比 如 ,节点 A 在 时 间 点 T1 时 刻 向 总 线 上 放置 高 电位 信号 ( 假设 电位 为 
0.5V ) ， 而 节点 B 在 T1 时 刻 向 总 线 上 放置 低 电位 信号 (假设 电位 为 0V ) , 这样， 就 形成 了 电流 
通路 ， 一 方面 造成 短路 ， 缩 短 设备 寿命 ; 另 一 方面 总 线 上 的 其 他 节点 所 感知 到 的 电位 总 是 0。 所 
以 ， 任 何 情况 下 ， 都 不 能 让 多 个 节点 同时 向 总 线 上 放置 信号 。 

有 如 下 两 种 措施 可 以 防止 这 种 情况 的 发 生 。 

m 集线器 中 的 中 继 电 路 ， 会 防止 由 于 恶意 破坏 或 者 其 他 不 可 知 的 程序 bug 所 导致 的 信号 

冲突 。 

m ”在 协议 角度 ， 从 根本 上 杜绝 这 种 情况 的 发 生 。 
在 总 线 上 , 每 个 节点 利用 载波 侦 听 机 制 ( CSMA ) 来 检测 当前 总 线 上 是 否 有 其 他 节点 的 信号 
正在 传播 , 一 旦 检测 到 信号 ， 则 和 暂时 不 发 送 缓冲 区 内 的 数据 帧 ， 并 不 断 地 侦 听 电路 上 的 信号 , 一 
且 发 现 总 线 空闲 ， 则 立即 向 总 线 上 放置 信号 ， 声 明 要 使 用 总 线 ， 如 果 在 完全 相同 的 时 刻 ， 另 一 个 
节点 也 同样 放置 了 信号 ， 则 两 路 信号 会 发 生 冲 突 ， 两 个 节点 检测 到 冲突 后 , 会 撤销 声明 ,继续 回 
到 侦 听 状 态 ， 这 个 过 程 叫做 冲突 检测 (CD ) 。 

但 两 个 节点 在 同一 时 刻 同时 发 出 信号 的 几率 很 小 ,即使 本 轮 声 明 失 败 , 在 下 一 轮 争 抢 声明 中 ， 
某 个 节点 胜利 的 几率 是 很 大 的 , 而 且 以 太 网 中 的 所 有 节点 的 优先 权 都 是 一 样 的 , 或 者 可 以 说 以 大 
网 内 没有 优先 权 的 概念 , 包括 网 关 设备 在 内 。 而 SCSI 总 线 的 优先 级 最 高 , 因为 SCSI 协议 本 身 就 
是 一 个 Poll- Response 型 的 协议 ，SCSI 控制 器 要 顺序 寻找 总 线 上 的 除 自身 之 外 的 所 有 其 他 节点 ， 
它 的 优先 级 最 高 。 所 以 对 于 以 太 网 来 说 ,完全 不 必 担心 某 个 节点 永远 也 抢 不 到 总 线 使 用 权 ( 俗称 
“总 线 俄 死 ”) 的 情况 。 

另外 , 也 不 必 担 心 这 种 CSMA/CD 机 制 会 耗费 过 多 的 时 间 , 由 于 这 种 机 制 不 是 靠 CPU 执行 
代码 来 实现 的 ， 而 完全 是 靠 电路 逻辑 执行 的 ， 所 以 速度 都 在 微 秒 级 ， 宏 观 上 不 会 感觉 到 延迟 。 

如 果 一 条 总 线 上 的 节点 过 多 , 则 发 生 冲突 的 几率 就 越 大 , 造成 的 开销 和 延迟 也 越 大 。 另 一 方 
面 节点 越 多 ,每 个 节点 使 用 总 线 的 平均 时 间 也 就 会 降低 ,宏观 上 , 也 就 造成 了 每 节点 的 可 用 带宽 
降低 。 所 以 共享 总 线 方式 的 网 络 ， 可 接 入 的 节点 数量 是 有 限 的 。 

节点 取得 了 总 线 使 用 权 之 后 ， 便 开始 发 送 数据 帧 ， 也 就 是 将 数据 帧 的 比特 流转 换 成 电信 和 号， 
以 一 定 的 间隔 速度 放置 到 总 线 上 ， 对 于 10Mb/s 以 太 网 来 说 ,每 隔 一 干 万 分 之 一 秒 ， 总 线 上 的 信 
号 就 被 放置 一 次 , 直到 整个 数据 帧 被 传播 完毕 , 总 线 空闲 ， 然 后 节点 再 发 起 新 一 轮 的 CSMA/CD 

在 一 个 节点 向 总 线 上 传播 数据 的 同时 ,所 有 其 他 节点 都 会 将 总 线 上 正在 传播 的 信号 保存 到 各 
自 的 缓冲 区 内 , 形成 一 帧 一 帧 的 数据 。 也 就 是 说 , 共享 式 以 太 网 中 , 任何 一 个 节点 所 发 送 的 数据 ， 
其 他 所 有 节点 都 会 收 到 。 
这 岂 不 是 没有 隐私 可 言 了 么 ? 
的 确 ， 只 要 在 HUB 上 的 任何 一 个 节点 上 安装 一 个 抓 包 软件 ， 就 可 以 抓 取 总 线 上 的 信号 ,看 
任何 源 节点 发 送 到 任何 目的 节点 的 数据 。 


到 
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比如 ， 节 点 A 想 与 节点 B 通信， 节点 B 怎么 知道 当前 总 线 上 的 数据 是 给 它 的 呢 ? 我 们 上 面 讲 
过 , 每 个 节点 都 有 一 个 MAC 地 址 , 节点 A 若 想 将 数据 传送 给 节点 B， 就 会 在 数据 帧 中 的 特定 字段 
填 入 节点 B 的 MAC 地址 ( 目的 MAC 地 址 ) ,并且 在 特定 字段 填 入 节点 A 自己 的 MAC 地 址 ( 源 
MAC 地 址 ) ， 这 个 数据 包 被 所 有 人 收 到 ,当然 包括 B 节点 。B 节点 检测 这 个 帧 的 目的 MAC 地 址 ， 
与 自身 的 MAC 地 址 作对 比 , 如 果 相 配 , 则 得 知 这 个 帧 是 给 自己 的 , 并 且 通 过 检测 源 MAC 地 址 段 ， 
B 会 知道 这 个 帧 是 节点 A 给 的 。 而 节点 C 此 时 也 收 到 了 这 个 帧 ， 它 也 会 对 比 自己 的 MAC 与 帧 中 
的 目的 MAC 字段 ， 发 现 不 匹配 ， 所 以 知道 这 个 帧 不 是 给 自己 的 ， 立 即将 其 丢弃 。 

以 太 网 定义 了 一 种 特殊 的 MAC 地 址 , 这 个 地 址 的 所 有 48 位 的 值 都 为 1。 这 个 地 址 对 应 了 总 
线 上 的 所 有 节点 ， 也 就 是 说 ， 如 果 某 个 数据 帧 中 的 目的 地 址 是 这 个 特殊 的 MAC 地 址 ， 则 所 有 接 
收 到 这 个 帧 的 节点 都 会 保存 起 来 并 提交 上 层 协议 处 理 ， 而 被 这 个 地 址 称 为 广播 地 址 。 


11.2 ”网 桥 式 以 太 网 


前 面 描述 了 共享 总 线 型 以 太 网 。 会 发 现 , 一 个 人 说 话 所 有 人 都 听 到 ， 这 不 安全 ,也 没 必要 浪 
费 资源 。 必 须发 明 一 个 机 制 来 改进 ， 网 桥 的 出 现 ， 初 步 降低 了 这 个 问题 所 带 来 的 影响 。 

网 桥 也 有 多 个 接口 ， 外 观 甚至 和 HUB 一 样 , 但 是 里 面 的 电路 加 入 了 逻辑 运算 电路 和 智能 化 
的 东西 ， 不 像 HUB 一 样 ， 所 有 接口 复制 总 线 上 的 数据 。 

网 桥 把 它 上 面 的 接口 分 了 很 多 组 , 每 一 个 组 中 的 接口 都 在 一 条 独立 的 总 线 上 , 不 同 的 组 使 用 
不 同 的 总 线 。 也 就 是 说 , 除非 网 桥 转发 过 去 , 否则 某 个 组 中 总 线 上 的 数据 , 不 会 被 另外 的 组 收 到 。 
这 样 就 减 小 了 冲突 域 ， 相 当 于 本 来 10 个 人 的 小 组 ， 分 成 了 多 个 子 讨论 组 ， 一 个 讨论 组 在 讨论 的 
同时 ， 另 一 个 讨论 组 也 可 以 讨论 ， 两 个 组 完全 物理 上 隔离 。 这 样 ， 接 入 相同 数目 的 节点 , 但 是 性 
能 却 比 HUB 好 多 了 。 图 11-2 为 一 个 网 桥 模型 。 

一 Da 


图 11-2 网 桥 模型 

如 图 11-2 所 示 ， 节 点 A 与 B 在 总 线 1 (冲突 域 1) 中 , 总线 1 与 总 线 2 是 隔离 的 ， 如果 A 
与 B 通信 , 则 只 会 在 总 线 1 上 节点 , A 与 B 通 信 的 同时 , 总 线 2 上 的 C 与 D 也 可 以 通信 。 这 样 ， 
每 个 冲突 域 中 所 包含 的 节点 数目 降低 了 ， 所 以 相对 HUB 来 说 提高 了 性 能 。 

但 是 如 果 A 想 与 D 通信 ， 怎 么 办 呢 ? 毫 无 疑问 ， 桥 接 芯 片 必 须 将 A 发 出 的 数据 帧 从 总 线 1 
复制 到 总 线 2 上 ; 反之 亦 然 。 那 么 ， 桥 接 芯片 如 何 知道 某 个 数据 帧 是 A 发 送 给 D 的 ， 而 不 是 B 
的 呢 (A 发 送 给 B 的 数据 帧 不 能 被 复制 到 总 线 2， 否 则 就 和 HUB 一 样 了 ) ? 显然 ， 桥 接 芯片 必 
须 对 数据 帧 进行 分 析 , 分 析 其 中 的 目的 MAC 地 址 ， 如 果 某 个 数据 帧 的 源 节点 在 总 线 1 上 ,其 目 
的 MAC 地 址 对 应 的 节点 也 在 总 线 1 上 , 那么 芯片 就 不 会 复制 这 个 数据 帧 到 其 他 总 线 ， 但 是 如 果 
目的 MAC 对 应 的 节点 与 源 节点 不 在 一 个 总 线 上 , 则 桥接 芯片 会 将 这 个 数据 帧 转发 到 目的 节点 所 
在 的 总 线 ， 从 而 让 目的 节点 收 到 。 
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为 了 做 到 这 一 点 ， 网 桥 必须 知道 某 条 总 线 上 到 底 包 含 了 哪些 MAC 地 址 , 这 样 才能 做 到 根据 
目的 MAC 与 总 线 的 对 应 关系 来 决定 某 个 数据 帧 是 否 需要 转发 ， 转 发 到 哪 条 总 线 。 桥 接 芯 片 是 通 
过 动态 学 习 来 填充 “MAC -总 线 ” 对 应 表 的 。 

每 当 总 线 上 有 数据 帧 通过 ,桥接 芯片 就 去 提取 它 的 源 MAC 地 址 , 放 入 对 应 表 中 (已 经 存在 
的 记录 将 会 忽略 ) 。 比 如 ， 当 网 桥 刚 刚 加 电 的 时 候 ， 这 张 对 应 表 是 空 的 。 这 时 总 线 1 上 的 A 向 B 
发 送 了 一 个 数据 帧 ,因为 是 共享 总 线 , 所 以 桥接 芯片 也 会 同样 收 到 这 个 帧 ， 网 桥 立 即 提取 这 个 帧 
中 的 源 MAC 地 址 ， 假 如 这 个 MAC 值 为 : 00-40-D0-A0-A3-7D ， 就 向 表 中 填 入 一 条 
“00-40-D0-A0-A3-7D bus1” ,这 表示 busl 总 线 上 ,有 一 个 MAC 地 址 为 00-40-D0-A0-A3-7D 
的 节点 连接 着 。 同 样 ， 所 有 总 线 上 所 收 到 的 源 MAC 地 址 都 会 被 记录 到 表 中 。 如 果 从 总 线 1 上 收 
到 一 个 数据 帧 ， 经 过 查 表 发 现 其 目的 MAC 在 另 一 条 总 线 上 ， 则 网 桥 将 这 个 帧 转发 到 那 条 总 线 。 
如 果 某 个 帧 的 目的 MAC 还 没有 被 网 桥 学 习 到 ， 也 就 是 说 网 桥 不 知道 这 个 MAC 在 哪个 总 线 ， 则 
网 桥 便 向 除 发 送 这 个 帧 的 总 线 之 外 的 其 他 总 线 转 发 这 个 帧 ， 直 到 学 习 到 这 个 MAC 条 目 。 

强调 : 网 桥 并 不 记录 到 底 是 哪个 端口 所 连接 的 节点 具有 这 个 MAC， 因 为 根本 没有 必要 记录 

端口 信息 ， 数 据 帧 只 要 进入 这 条 总 线 ， 这 条 总 线 上 所 有 端口 下 连接 的 节点 就 都 会 收 到 数据 ， 

只 记录 “总 线 - MAC” 统 计 表 即 可 ， 所 以 没有 必要 记录 “端口 - MAC” 表 。 


11.3 ”交换 式 以 太 网 


HUB 是 一 锅 粥 ， 网 桥 也 好 不 到 哪里 去 ， 只 不 过 把 这 一 锅 大 粥 分 成 了 多 锅 小 粥 而 已 。 

随 着 硬件 技术 的 提高 , 交换 式 以 太 网 出 现 了 。 交换 式 以 太 网 利用 交换 机 替代 了 网 桥 。 其 实 交 
换 机 也 是 一 种 网 桥 ， 一 种 特殊 的 网 桥 。 普 通 网 桥 中 ， 每 个 端口 组 ( 冲突 域 ) 中 有 不 止 一 个 端口 ， 
而 交换 机 中 , 每 个 端口 组 中 只 有 一 个 端口 , 也 可 以 这 么 说 , 交换 机 上 的 每 个 端口 都 独占 一 条 总 线 。 
这 样 交 换 机 彻底 隔离 了 冲突 域 ,而 不 是 仅仅 减 小 了 冲突 域 ,也 就 是 说 ,交换 机 的 每 个 端口 下 都 是 
一 个 独立 的 冲突 域 。 

此 外 ， 交 换 机 内 部 芯片 ， 也 不 再 被 称 作 桥 接 芯 片 ， 而 改 成 交换 芯片 。 网 桥 芯 片 学 习 并 记录 
“MAC-- 总 线 ” 对 应 表 ， 那 么 顺藤摸瓜 ， 交 换 机 既然 每 个 端口 独占 一 个 总 线 ， 理 所 当然 的 ， 交 换 
芯片 学 习 并 记录 的 就 是 “MAC- 端 口 ” 对 应 表 。 

交换 机 是 以 太 网 的 最 终 实 现形 式 。 端 口 之 间 不 再 是 共享 总 线 通信 , 而 是 可 以 在 任意 时 刻 、 任 
意 两 个 端口 之 间 同 时 收发 数据 。 

HUB 是 没有 大 脑 的 ， 只 有 一 个 中 继 器 。 网 桥 进 化 出 了 大 脑 ， 但 是 智商 不 高 。 而 交换 机 则 拥 
有 高 智商 的 大 脑 和 极 快 的 运算 速度 。 图 11-3 便 是 一 个 交换 式 模型 。 


图 11-3 交换 式 以 太 网 模型 
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11.4 TCP/IP 协议 


以 太 网 的 出 现 , 给 系统 间 互 联 提供 了 方便 的 方式 。 每 个 节点 安装 一 块 以 太 网 适配器 ,上 层 程 
序 只 要 将 要 发 送 的 数据 以 及 数据 要 到 达 的 目的 MAC 地 址 告诉 以 太 网 卡 , 数据 就 可 以 通过 以 太 网 
传输 到 目的 ， 完 成 通信 过 程 。 

但 是 实际 中 , 以 太 网 并 不 是 直接 被 应 用 程序 使 用 来 收发 数据 的 。 究 其 原因 ,就 是 因为 以 太 网 
是 一 个 没有 传输 保障 机 制 的 网 络 。 首 先 以 太 网 设备 不 会 对 数据 帧 进行 校 验 纠 错 等 措施 。 其 次 以 太 
网 设备 一 旦 由 于 数据 交换 量 过 大 ,就 可 能 造成 缓冲 区 队列 充满 而 主动 丢弃 数据 帧 ,而 且 丢弃 数据 
帧 的 同时 ， 不 会 有 任何 措施 来 通知 发 送 方 。 所 以 ， 以 太 网 是 一 个 不 可 靠 的 网 络 。 应 用 程序 如 果 直 
接 调 用 以 太 网 来 发 送 数据 ， 则 必须 忍受 丢失 数据 的 风险 。 

为 了 解决 以 太 网 的 这 个 弱点 ， 人 们 在 以 太 网 之 上 , 增加 了 一 个 层次 , 在 这 个 层次 上 ， 人们 实 
现 了 以 太 网 所 不 具有 的 功能 。 运行 在 这 个 层次 上 的 程序 , 用 了 很 多 复杂 的 机 制 来 保证 发 送 给 以 太 
网 适配器 的 数据 包 能 够 成 功 地 到 达 对 方 , 如 果 中 途 发 生 丢 包 现象 , 则 本 地 会 通过 超时 未 得 到 确认 
等 机 制 来 重新 发 送 该 数据 包 。 而 应 用 程序 由 原来 的 直接 调用 以 太 网 接口 , 改 为 调用 这 种 位 于 以 太 
网 上 层 的 新 程序 接口 从 而 获得 可 靠 的 数据 收发 。 

运行 在 这 个 新 层次 上 的 协议 有 很 多 ， 如 NetBEUI、NetBIOS、IPX、TCP/IP 等 。 这 些 协议 ， 其 
下 层 调用 以 太 网 提供 的 服务 ， 上 层 则 向 外 提供 新 的 调用 接口 ， 向 应 用 程序 提供 可 靠 的 网 络 传输 服务 。 

在 这 些 协 议 中 ，TCP/IP 以 其 广 谱 的 适用 性 、 良 好 的 性 能 以 及 能 够 良好 地 在 超大 规模 网 络 上 
运行 等 优点 ,迅速 地 得 到 了 普及 ， 成 为 Internet 网 络 所 使 用 的 通信 协议 。 


11.4.1 TCP/IP 协议 中 的 IP 


到 MAC 这 一 层 , 以 太 网 已 经 实现 了 OSI 的 下 三 层 , 即 物理 层 、 链 路 层 和 网 络 层 。 以 太 网 也 
只 跨越 了 这 3 层 ， 从 第 四 层 到 第 七 层 ， 以 太 网 没有 涉足 ( 现在 普遍 认为 以 太 网 只 作用 到 链 路 层 ， 
这 是 一 个 错误 观点 。 造 成 这 种 误解 的 原因 ， 是 以 太 网 一 旦 与 TCP/IP 结合 ， 便 沦落 为 TCP/IP 协 
议 的 链 路 层 ， 其 第 三 层 地 址 被 以 太 网 的 IP 所 映射 掉 了 ， 所 以 掩盖 了 其 第 三 层 的 元 素 ) 。 

由 于 以 太 网 的 天 生 弱 点 ， 使 它 不 得 不 选择 与 TCP/IP 协议 合作 ,求助 TCP/IP 协议 向 上 层 应 
用 程序 提供 可 靠 传 输 保障 。 由 于 主动 权 完全 掌握 在 TCP/IP 手中 ,所 以 TCP/IP 向 以 太 网 提出 了 
一 个 非常 过 分 的 要 求 ， 即 以 太 网 要 想 占 有 市 场 一 席 之 地 ， 就 必须 将 MAC 地 址 隐藏 掉 ， 对 外 统统 
用 TCP/IP 家 族 的 新 一 代 地 址 : IP 地 址 。 以 太 网 委 曲 求全 ， 不 得 不 同意 这 个 要 求 。 

其 实 ，TCP/IP 提出 这 个 要 求 不 是 故意 难为 以 太 网 。 因 为 除了 以 太 网 之 外 ， 还 有 很 多 其 他 类 
型 的 联网 方式 。 而 以 TCP/IP 在 业界 的 权威 性 ， 其 他 网 络 都 求助 于 TCP/IP 来 将 它们 融入 市 场 以 
分 一 杯 美 。 而 几乎 每 种 联网 方式 都 有 自己 的 编 址 和 寻 址 方式 ， 面 对 这 么 多 种 地 址 ，TCP/IP 只 好 
快刀 斩 乱 麻 , 将 这 些 五 花 八 门 的 地 址 , 统统 映射 到 IP 地址 上 , 对 外 统一 以 IP 地址 作为 编 址 方式 。 

下 面 简单 介绍 一 下 ARP 协议 。 

既然 TCP/IP 宣称 要 将 所 有 类 型 的 地 址 全 部 统一 到 IP 地 址 ， 那 么 也 就 意味 着 ， 网 络 中 的 每 
个 节点 ， 都 必须 配备 一 个 卫 地 址 ， 节 点 之 间 相 互通 信 的 时 候 ， 也 要 使 用 IP 地址。 但 是 , 数据 帧 
最 终 是 通过 底层 的 网 络 传输 设备 来 转发 的 ， 如 以 太 网 交换 机 。 而 以 太 网 交换 机 是 不 理解 IP 地 址 
的 , 它 只 能 分 析 数 据 帧 中 特定 偏 移 处 的 MAC 地 址 , 从 而 做 出 转发 动作 。 所 以 , 必须 有 一 种 机 制 ， 
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来 将 人 P 地 址 映射 成 底层 MAC 地 址 。 

ARP 协议 就 是 专门 用 来 处 理 一 种 地 址 与 另 一 种 地 址 之 间 相 互 映 射 的 一 种 机 制 。ARP 协议 运 
行 在 每 个 网 络 设备 上 ， 将 一 种 地 址 映射 成 底层 网 络 设备 所 使 用 的 另 一 种 地 址 。 

对 于 ARP 协议 ， 本 书 不 再 作 具 体 描述 。 


11.4.2 IP 的 另外 一 个 作用 


IP 层 还 有 一 个 作用 ， 就 是 适 配 上 下 层 ， 给 链 路 层 和 传输 层 提供 适 配 。 适 配 了 什么 ， 怎 么 适 
配 的 呢 ? 我 们 知道 链 路 层 有 MTU 的 概念 ,也 就 是 链 路 最 大 传输 单元 ， 即 每 由 所 允许 包含 的 最 大 
字 节 数 。 

提示 : 第 7 章 中 描述 过 ， 链 路 层 就 类 似 于 司机 和 交通 规则 ， 要 对 货车 的 载重 、 车 型 大 小 有 

要 求 , 如 这 条 路 承受 不 了 多 重 的 车 , 每 辆 车 不 能 拉 超 过 多 高 的 货物 等 。 如果 客 户 给 的 货物 太 

大 、 太 重 , 不 能 一 次 运 过 去 , 那么 只 能 把 货物 分 割 、 分 次 运送 , 到 达 目 的 地 后 , 再 组 装 起 来 。 

这 个 动作 由 人 P 层 程序 来 做 。 也 就 是 人 P 根据 链 路 的 MTU 值 来 分 割 货物 ， 然 后 给 每 个 分 割 的 

货物 块 贴 上 源 和 目的 耳 地 址 、 顺 序号 ， 以 便 在 货物 块 到 达 目 的 地 后 ， 利 用 顺序 号 来 重新 合 

并 成 完整 的 一 件 货物 。 


货物 被 分 割 成 块 后 都 需要 被 路 由 转发 一 次 , 然而 路 由 器 每 次 选择 的 路 径 不 一 定 都 一 样 , 而 且 
每 个 块 都 需要 由 司机 运送 , 司机 驾驶 水 平 、 速 度 不 同 ( 链 路 层 ) ， 就 难免 会 有 些 先 到 、 有 些 后 到 ， 
所 以 到 达 目 的 地 后 很 有 可 能 乱 序 。 此 时 就 要 用 到 顺序 号 了 , 这 个 号 码 是 根据 货物 被 分 害处 相对 整 
个 货物 起 点 的 距离 ( Ofket， 偏 移 量 ) 而 制定 的 。 根 据 这 个 号 ， 等 所 有 货物 块 到 达 目 的 之 后 ， 对 
方 的 下 程序 就 会 根据 这 个 号 码 将 零散 的 块 组 装 起 来 。 

强调 : 每 个 货物 块 都 携带 人 P 头 部 ， 但 是 只 有 第 一 块 携带 TCP 或 者 UDP 头 部 ， 因 为 传输 层 

头 部 是 在 应 用 数据 之 前 的 ， 卫 分割 的 时 候 ， 一 定 会 把 传输 层 头 部 分 割 在 第 一 块 货物 中 。 


11.4.3 TCPVIP 协议 中 的 TCP 和 UDP 


TCP/IP 协议 其 实 包 含 了 两 个 亚 层 ,IP 是 第 一 个 亚 层 , 也 就 是 用 来 统一 底层 网 络 地 址 和 寻 址 
的 亚 层 。 第 二 个 亚 层 ， 就 是 TCP 或 者 UDP， 在 逻辑 上 它们 位 于 了 P 之 上 。 

TCP 的 功能 ， 就 是 维护 复杂 的 状态 机 ， 保 障 发 送 方 发 出 的 每 个 数据 包 ， 都 会 被 最 终 传送 到 接 
收 方 ， 如 果 发 生 严重 错误 ， 还 会 向 上 层 应 用 反馈 出 错 信 息 ， 从 而 保证 应 用 层 逻 辑 的 无 误 和 一 致 性 。 
而 UDP 的 功能 , 则 可 以 理解 为 是 TCP/IP 对 以 太 网 的 一 种 透 传 , 即 UDP 是 一 个 没有 传输 保 
障 功能 的 亚 层 , 除了 UDP 可 以 提供 比 以 太 网 更 方便 的 调用 方式 外 , 其 他 方面 没有 什么 本 质 区 别 。 
也 许 是 因为 TCP/IP 协议 觉得 TCP 的 逻辑 太 过 复杂 ,所 以 提供 了 一 种 绕 过 TCP 复杂 逻辑 而 又 比 
以 太 网 更 加 方便 调用 的 方式 ， 即 UDP。 

TCP/P 协议 向 上 层 应 用 程序 提供 的 调用 接口 称 为 Socket 接口 ， 即 “插座 ”接口 。 这 也 体现 
了 TCP/IP 想 让 应 用 程序 更 为 方便 地 使 用 网 络 ,就 像 将 插头 插入 供电 插座 而 接 入 电网 一 样 使 用 计 
算 机 网 络 。 

基于 TCP/IP 有 很 多 应 用 层 协议 ,这 些 协议 必须 依赖 TCP/PP 协议 ,比如 :Ping、Trace、SNMP、 
Telnet、SMTP、FTP、HTTP 等 。 这 些 应 用 程序 ， 加 上 它们 所 依赖 的 耳 、TCP 和 UDP， 然后 加 
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上 物理 层 链 路 层 ( 以 太 网 等 ) ， 一 并 形成 了 TCP/IP 协议 簇 。 
1. TCP 协议 


第 7 章 中 说 过 ，TCP 就 是 一 个 押运 员 的 角色 ， 也 就 是 由 它 把 货物 交 给 IP 做 调度 的 。 货 物 最 
初 是 由 应 用 程序 来 生成 的 , 应 用 程序 又 调用 Socket 接口 来 向 接收 方 发 送 这 些 货物 。 应 用 程序 通知 
TCP/IP 去 特定 的 内 存 区 域 将 数据 拷贝 到 Socket 的 缓冲 区 ， 然 后 TCP 再 从 缓冲 区 将 数据 通过 IP 
层 的 分 片 后 ， 从 底层 网 络 适 配器 发 送 到 网 络 对 端 。 

TCP 通过 MSS ( Max Segment Size ) 来 调整 每 次 转 给 IP 层 的 数据 大 小 。 而 MSS 的 值 完全 取 
决 于 底层 链 路 的 MTU 值 。 为 了 避免 IP 分 片 ，MSS 总 是 等 于 MTU 值 减 掉 IP 头 ， 再 减 掉 TCP 
头 之 后 的 值 。 这 样 TCP 发 送 给 IP 的 数据 ，IP 加 入 IP 头 之 后 ,恰好 就 等 于 底层 链 路 的 MTU 值 ， 
使 得 了 P 不 需要 分 片 。 

强调 : 既然 货物 的 大 小 要 匹配 MTU， 那 为 什么 不 直接 让 TCP 把 分 割 好 的 货物 给 IP 呢 ? 


TCP 其 实 很 想 这 么 做 ,但 是 它 很 难 做 到 ， 因 为 TCP 是 个 端 到 端的 协议 ， 也 就 是 说 ， 只 有 通 
信 的 最 终端 点 维护 着 TCP 状态 信息 ， 途 经 的 各 个 其 他 设备 一 概 不 知道 。 如 果 两 个 端点 所 处 的 局 
域 网 都 是 以 太 网 , 但 是 途经 一 段 串 口 链 路 , 假设 串口 MTU 为 576B, 以 太 网 MTU 为 1500B, 那 
么 双方 在 TCP 握手 的 时 候 会 互相 通告 自己 的 MSS， 因 为 是 端 到 端 协议 ， 不 关心 途经 的 设备 和 链 
路 ， 那 么 它们 都 认为 自己 和 对 方 都 处 在 以 太 网 中 ,所 以 互相 都 通告 自己 的 MSS 值 为 1460B (最 
大 分 段 大 小 ， 等 于 出 口 MTU 减 去 IP 头 和 TCP 头 的 开销 ) 。 

这 样 ，TCP 给 IP 的 货物 大 小 就 是 : 1460+TCP 头 =1480B， 然 后 加 上 IP 头 传输 出 去 。 一 旦 
这 个 数据 包 到 达 了 串口 链 路 ， 则 串口 链 路 两 端的 IP 层 必须 根据 串口 链 路 的 MTU， 对 ( 1480+ 串 
行 链 路 协议 头 ) 字 节 的 数据 包 进行 分 片 ， 将 数据 包 分 成 多 个 576B 的 数据 帧 (最 后 一 帧 大 小 可 能 
小 于 576B ) ， 从 而 在 串口 链 路 上 传输 。 所 以 TCP 的 MSS,， 在 广域网 传输 时 基本 派 不 上 用 场 。 不 
过 ， 有 机 制 可 以 探测 到 途经 链 路 上 的 最 小 MTU 值 ，TCP 参考 这 个 链 路 最 小 MTU 值 所 得 出 的 
MSS 值 ， 这 时 是 很 有 价值 的 。 

在 Windows 系统 中 ,每 块 网 卡 的 MTU 大 小 其 实 是 可 调 的 ， 但 是 只 能 调节 到 比 网 卡 所 连接 
到 的 以 太 网 交换 设备 所 人 允许 的 最 小 MTU 值 还 小 才 可 以 ， 如 果 调 节 到 大 于 这 个 值 ， 则 会 造成 数据 
丢失 以 及 不 可 知 的 莫名 错误 。Windows 中 是 通过 注册 表 中 以 下 的 键 值 来 调节 MTU 大 小 的 : 

HKEY LOCAL MACHINE\SYSTEM\ControlSet003\Services\TCP/IP\Parameters\Interf 
aces\ {接口 编号 } \MTU 
图 11-4 是 一 个 TCP 握手 过 程 中 ， 发 起 连接 端 在 TCP 头 的 option 字段 中 给 出 了 本 地 TCP 
的 最 大 MSS 值 ( 本 地 网 络 适配器 最 大 MTU 值 减 去 40B )。 本 例 中 由 于 MTU 值 被 配置 成 了 1300B 
而 不 是 默认 的 1500B， 所 以 造成 TCP 通告 MSS 值 为 1260B。 
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62 bytes ed) 
B® Ethernet II, Src: a 00716741:34:7F:b8), Dst: cisco_28:b6:c0 (00:1a:30:2831 
田 Internet protocol, src: 10.128.134.107 (10.128.134.107), Dst: 10.128.133.60 (10.128.1 
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030 fc 00 a3 2a 00 00 Bem 0: 


图 11-4 TCP 握手 过 程 中 的 一 个 包 

TCP 将 上 层 应 用 的 数据 完全 当 作 字 节 流 ， 不 对 其 进行 定 界 处 理 。TCP 认为 上 层 应 用 数据 就 
是 一 连 串 的 字 节 ， 它 不 认识 字 节 的 具体 意义 ， 却 可 以 任意 分 割 这 些 字 节 ， 封 装 成 货物 进行 传送 ， 
但 是 必须 保证 数据 的 排列 顺序 。 

比如 ， 上 层 应 用 要 传输 123456789 这 9 个 数字 ，TCP 可 以 一 次 发 送 这 9 个 字 节 的 内 容 , 也 
可 以 每 次 发 送 3 个 字 节 , 分 3 次 发 完 , 或 者 ， 上 层 放 到 货 仓 中 1、2、3 三 个 数据 ，TCP 有 可 能 将 
这 3 个 数据 打包 一 次 发 送 ( nagel 算 法 > TCP 的 这 些 动作 ,上 层 都 是 不 知道 的 ,但 是 ,对 于 123456789 
这 9 个 数字 ,如 果 接 收 端 先 收 到 1、2、3 这 三 个 数字 , 4~9 还 没有 被 接收 到 ,而 当 只 有 应 用 程序 

完全 接收 到 这 9 个 数字 才 会 认为 数据 有 意义 时 ， 应 该 怎么 办 呢 ? 

要 解决 这 个 问题 ， 就 得 完全 靠 上 层 应 用 程序 。 比 如 ,可 以 在 一 个 消息 头 部 增加 一 个 定 长 字段 ， 
表示 这 个 消息 的 长 度 ， 比 如 在 123456789 之 前 增加 一 个 (9 ) ， 变 成 (9 ) 123456789， 那 么 程序 一 
且 接 收 到 (9) ， 就 能 判断 出 接 下 来 要 连续 接收 9 个 字 节 才 有 意义 ， 如 果 某 时 刻 只 接收 到 了 1、2 
3， 应 用 程序 便 会 将 数据 缓存 起 来 ， 然 后 等 待 后 面 的 6 个 数字 。 

如 果 TCP 从 (9 ) 处 分 割 了 数据 流 ， 怎 么 办 ? 比如 分 割 成 “( ”和 “9 ) 123456789” 两 段 数 
据 ， 那 么 此 时 接收 方 应 用 程序 接收 到 “( ”这 个 字符 ， 就 会 不 理解 其 意义 ， 这 样 就 要 求 应 用 程序 
必须 有 缓存 ， 把 TCP 交 上 来 的 数据 流放 到 缓存 中 ， 然 后 自行 合并 成 有 意义 的 数据 后 再 作 处 理 。 

TCP 把 上 层 的 数据 看 作 一 些 无 关联 逻辑 的 数据 流 , 它 不 会 感知 到 消息 与 消息 之 间 的 定 界 符 。 
消息 和 消息 之 间 的 界限 需要 完全 由 应 用 程序 自行 分 析 。 接 收 端 和 发 送 端的 TCP 都 保存 一 个 缓冲 
区 ( 货 仓 ) ， 发 送 和 接收 的 数据 都 存放 在 货 仓 中 ,接收 方 TCP 货 仓 中 的 数据 ， 每 次 被 应 用 程序 
一 次 性 取出 到 应 用 程序 自己 的 缓冲 区 , 应 用 程序 再 从 应 用 缓冲 中 将 数据 流连 接 成 有 意义 的 数据 进 
行 处 理 。 

一 句 话 ，TCP 是 把 上 层 数据 “分 段 ”, IP 是 把 TCP 分 好 的 段 再 “分 片 ” ( 如 果 这 个 段 大 于 
MTU ) ，IP 到 达 目 的 之 后 会 把 每 个 分 片 合并 成 一 个 TCP 的 “分 段 ”， 提 交 给 TCP， 然 后 TCP 
就 直接 存放 到 货 仓 ， 顺 序 排放 ， 不 管 上 层 消息 间 的 分 界 。 


2. UDP 协议 


UDP 和 TCP 不 同 ，TCP 是 孙悟空 ， 那 么 UDP 就 是 猪八戒 。UDP 只 是 被 动 地 起 到 一 个 人 P 
和 上 三 层 之 间 的 接口 作用 ，UDP 没有 传输 保障 机 制 ， 出 错 后 不 会 重 传 ， 不 需要 保持 重 传 缓冲 和 
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复杂 的 定时 器 、 状 态 机 等 机 制 ， 而 且 UDP 也 不 会 像 TCP 那样 把 数据 流 按 照 MSS 分 段 ，UDP 统 
统 不 理会 。 用 户 传 给 UDP 多 大 的 数据 , 它 就 一 次 性 发 送出 去 , 适 配 MTU 的 工作 完全 由 IP 来 做 。 

UDP 没有 握手 机 制 ， 想 发 就 发 ， 发 完 就 不 管 了 。 正 因为 UDP 这 么 简单 ， 所 以 UDP 头 部 只 
有 8 字 节 长 ,包括 目的 和 源 端 口号 、UDP 数据 包 长 度 、UDP 校 验 和 。 而 且 UDP 相对 TCP 效率 
高 了 很 多 。 所 以 它 适 合用 在 实时 性 要 求 很 高 ,但 是 可 靠 性 要 求 不 高 的 时 候 ， 比 如 实时 视频 流 、 音 
频 流 服务 等 。 


3. 端口 号 


计算 机 操作 系统 上 , 运行 着 N 个 程序 , 也 可 以 说 是 N 个 进程 。 如 果 程 序 之 间 需 要 相互 通信 ， 
就 需要 用 号 码 来 标识 各 个 程序 ,也 就 有 了 进程 号 的 概念 。 只 要 知道 一 个 程序 的 进程 号 , 就 可 以 用 
这 个 区 分 其 他 程序 。 

同一 台 计 算 机 上 程序 之 间 的 通信 , 一 般 是 在 内 存 中 直接 通信 的 。 如果 两 台 计 算 机 上 的 两 个 程 
序 之 间 需 要 通信 ,虽然 也 可 以 通过 高 速 网 络 将 两 台 计 算 机 的 内 存 共享 ,但 是 这 种 网 络 的 成 本 很 高 。 
而 普通 网 络 能 做 到 的 ,只 能 用 另外 一 种 方式 ， 即 先 将 消息 通过 网 络 发 送 到 另 一 个 计算 机 , 然后 让 
接收 到 消息 的 计算 机 来 选择 把 这 个 消息 发 给 其 上 运行 的 对 应 的 程序 。 

要 这 样 做 , 接收 方 的 操作 系统 中 的 TCP/IP 协议 就 一 定 需要 知道 某 个 数据 包 应 该 放 入 哪个 应 
用 程序 的 缓冲 区 , 因为 同一 时 刻 可 能 有 多 个 应 用 调用 Socket 进行 数据 收发 操作 。 为 了 区 分 开 正在 
调用 Socket 的 不 同 应 用 程序 ,TCP/IP 协议 规定 了 端口 号 的 概念 。 任 何 一 个 应 用 程序 在 调用 Socket 
的 时 候 ， 必 须 声明 连接 目的 计算 机 上 TCPVIP 协议 的 那个 端口 号 。 


11.5 TCP/IP 和 以 太 网 的 关系 


强调 : 很 多 人 把 TCP/IP 和 以 太 网 硬性 关联 起 来 ， 认 为 TCP/IP 就 是 以 太 网 ,或 者 以 太 

网 就 是 TCP/IP， 这 种 思想 是 完全 错误 的 。 

TCP/IP 是 一 套 协 议 体系 ， 以 太 网 也 是 一 套 协 议 体系 ， 它 们 之 间 是 相互 利用 的 关系 ， 而 不 是 
相互 依存 的 关系 。 

TCP/IP 协议 并 不 像 以 太 网 一 样 有 其 底层 专门 的 硬件 ， 但 是 它 可 以 租用 一 切合 适 的 硬件 来 为 
它 充当 物理 层 和 链 路 层 的 角色 。 除了 以 太 网 交换 机 , TCP/IP 甚至 可 以 用 无 线 电波 、 红 外 线 、USB、 
COM 串口 、ATM 等 作为 其 物理 层 和 链 路 层 。 

以 太 网 给 TCP/IP 充当 了 链 路 层 , 不 一 定 代表 它 只 能 作用 于 链 路 层 。 以 太 网 有 自己 的 网 络 层 编 
人 它 有 网 络 层 的 元 素 。 各 种 联网 协议 都 有 自己 的 层次 ， 都 在 OSI 模型 中 有 自己 的 定 

义 ， 只 不 过 TCP/IP 协议 在 网 络 层 和 传输 层 的 功能 应 用 得 太 广泛 了 ， 所 以 OSI 的 第 三 层 和 第 四 层 ， 
几乎 就 是 被 TCP/IP 协议 给 统治 了 ,其 他 协议 虽然 也 占有 一 席 之 地 ,但 是 相 比 TCP/IP 的 光辉 就 暗 
淡 了 许多 。 另 外 ，TCP/P 没有 统治 链 路 层 和 物理 层 ， 在 这 两 层 中 ， 就 是 其 他 协议 体系 的 天 下 ， 所 
以 TCP/IP 只 能 “租用 ”其 他 底层 协议 (比如 以 太 网 ) ， 来 完成 OSI 开放 系统 互联 的 任务 。 

这 就 是 PoP， 意 即 Protocol over Protocol。PoP 的 思想 , 到 处 可 见 , 因为 没有 人 可 以 统治 OSI 
的 全 部 7 层 ， 毕 竟 需 要 大 家 相互 合作 。 


提示 : 关于 PoP 的 具体 分 析 ， 在 本 书后 面 的 章节 中 会 讲 到 。 
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TCP/P 协议 可 谓 出 尽 了 风头 ， 不 仅 统治 了 Internet， 
就 连 局 域 网 通信 ,人 们 也 愿意 使 用 高 开销 的 TCP/IP 协议 ， 
可 算是 给 足 了 它 面子 

TCP/IP 的 买卖 越 做 越 大 ， 知 并 收购 ， 不 断 涉足 新 领 
域 ,甚至 连 家 用 电器 都 想 接 入 IP 网 络 。 而 偏偏 有 一 位 惕 
是 坚持 不 给 TCP/IP 面子 ， 这 就 是 大 名 鼎鼎 的 FC 大 侠 。 
十 几 年 来 , TCP/IP 在 江湖 上 可 谓 是 叱 啶 风云 、 前 呼 后 拥 、 
一 呼 百 应 ， 听 惯 了 蕉 维 话 ， 看 惯 了 鞠躬 人 。 但 是 唯 独 FC 
大 侠 从 来 没 正 眼看 过 它 一 次 ，TCP/P 心里 窝 火 啊 ! 
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12.1 横 眉 冷 对 一 一 TCP/IP 与 FC 


FC 大 侠 既 然 收 和 TCP/P 叫板 ， 肯 定 有 自己 的 拿手 本 领 。 

首先 , FC 在 家 底 儿 上 就 占 了 上 风 , FC 是 正 儿 八 经 的 世家 , 四 世 同 堂 ( OSI 下 四 层 都 有 定义 )。 
而 TCP/IP 就 两 非 人 ( 网 络 层 和 传输 层 ) ， 好 不 容易 整 了 个 后 代 还 是 收养 的 (租用 以 太 网 等 其 他 
底层 传输 网 络 ) 。 

其 次 ，FC 目前 普遍 能 跑 出 每 秒 4Gb/s 的 速度 ， 以 太 网 每 秒 100Mb/s 的 速度 算 正常 ，1GbAs 
的 速度 算 超 常 发 挥 ，10Gb/s 的 速度 还 正在 修炼 之 中 。 

再 次 ,TCP/IP 办 事 拖泥带水 ， 策 重 不 堪 。 瞧 瞧 TCP/IP 的 那个 大 头 (TCP 和 1 了 P 头 开销 合 起 
来 要 40B ) ,下 雨 都 能 当 使 用 。FC 的 脑袋 只 有 24B。 以 太 网 交换 机 MTU 一 般 为 1500B，FC 交 
换 机 则 超过 2000B ， 传 输 效 率 上 也 高 过 以 太 网 。 

正 由 于 这 些 原因 ， 服 务 器 和 存储 都 愿意 走 FC 的 道 儿 。 

老 T(TCP/IP ) 心里 一 琢磨 ,虽然 俺 家 业 不 如 FC 大 , 跑 得 不 如 它 快 ,长 得 也 比 它 胖 , 但 俺 
也 不 是 一 无 是 处 啊 ! 

首先 ， 俐 广 结 天 下 良友 ， 江 湖 各 处 都 有 俺 的 分 号 。 

其 次 ， 俐 便宜， 给 钱 就 让 走 。 且 俺 的 好 兄弟 以 太 网 ， 几 乎 有 网 络 的 地 方 ， 一 定 少 不 了 它 。 

再 次 , 那 FC 也 不 是 神仙 ， 走 它 的 道 毛病 太 多 ， 兼容 性 差 ， 扩 展 性 差 ， 而 且 费 用 太 高 。 就 凭 
这 三 点 ,不 信 斗 不 过 FC。 

老 工 陷入 了 久久 的 沉思 之 中 …… 


12.2， 自 叹 不 如 一 一 为 何不 是 以 太 网 +TCPVIP 


以 太 网 可 寻 址 容量 很 大 , 甚至 比 IP 的 地 址 容量 都 要 大 ,是 耳 的 246 倍 。 而 其 地 址 是 定 长 的 ， 
且 使 用 专用 电路 完成 交换 动作 。 以 太 网 除了 双 绞 线 之 外 , 还 可 以 用 光纤 进行 传输 。 最 重要 的 一 点 
就 是 以 太 网 非常 廉价 、 部 署 简单 。 一 个 普通 16 口 100Mb 以 太 网 交换 机 ， 只 需要 一 两 百 元 左右 。 
而 一 个 16 口 的 FC 交换 机 得 上 万 元 ， 还 没有 算 上 适 配 光 纤 的 SFP 适配器 的 费用 。 

但 是 ， 以 太 网 与 FC 网 络 比 起 来 ,也 有 其 先天 不 足 之 处 。 

第 一 ， 速 度 方面 ， 以 太 网 目前 只 普及 到 1Gb/s 的 速度 ， 虽 然 10Gb/s 以 大 网 络 已 经 开发 出 了 

成 品 , 但 是 离 完 全 普及 还 需要 一 段 时 间 。 而 FC 已 经 普及 到 了 4Gb/s 的 速度 , 且 8Gb/s 和 10Gb/s 
速度 的 FC 接口 标准 也 正在 制定 当中 。 
第 二 , 以 太 网 是 一 个 不 可 靠 的 网 络 , 它 不 是 一 个 端 到 端的 协议 , 不 管 源 和 目的 的 状态 , 只 是 
一 味 地 向 接口 上 塞 数据 ,这 也 是 下 层 协议 的 普遍 特点 。 即 使 对 方 缓冲 将 满 ， 以 太 网 还 是 照样 往 链 
路 上 塞 数据 ， 而 不 会 有 所 减 慢 。 一 旦 接收 方 缓存 充满 ， 随 后 的 数据 帧 就 会 被 自动 丢弃 而 不 会 向 上 
层 通 告 。 所 以 ， 以 太 网 必须 依靠 一 种 提供 可 靠 传输 机 制 的 上 层 协议 才能 达到 可 靠 传输 。 

强调 : Disk SAN 是 唯一 一 个 没有 被 以 太 网 攻克 的 领域 。 最 大 的 原因 其 实 就 是 因为 以 太 网 的 

速度 相对 FC 来 说 慢 了 太 多 。 


以 太 网 仿佛 总 是 慢 了 一 步 。FC 速率 普及 到 1Gb/s 的 时 候 ， 以 太 网 才刚 刚 普及 到 10Mbys 的 
速率 ， 而 且 还 是 HUB 总 线 式 以 太 网 。 而 当 FC 普及 到 2Gb/s 速率 的 时 候 ， 以 太 网 也 刚刚 普及 到 
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100Mb/s。 直 到 目前 ， 以 太 网 才 普 及 到 1Gb/s 速率 ， 而 FC 已 经 普及 到 4Gb/s 了 。 
以 太 网 即使 是 依靠 了 TCP/IP 协议 提供 的 传输 保障 机 制 , 也 难 敌 FC 协议 。 总 之 , 目前 来 说 ， 
FC 协议 在 性 能 方面 处 处 比 TCP/IP+ 以 太 网 强 。 


12.3 天生 我 才 必 有 用 一 一 攻陷 Disk SAN 阵地 


老 工 深 知 ,自己 再 怎么 修炼 , 也 不 可 能 在 速度 和 性 能 上 与 FC 正面 交锋 。 在 江湖 中 摸 有 滚 打 
了 这 么 多 年 , 老 谋 深 算 的 老 工 决定 避 开 自己 的 这 些 短 处 不 谈 , 发 扬 自己 的 长 处 , 将 Disk SAN ( 相 
对 于 NAS SAN ) 这 个 阵地 攻陷 。 

俺 老 工 不 管 是 论 品 相 还 是 论 才 能 ， 都 不 输 给 FC。 既 然 SCSI 能 嫁 给 FC， 它 就 没有 理由 对 俺 
不 动心 。 老 工 开 始 做 白 日 梦 ， 信 悍 着 与 SCSI 成 亲 后 的 种 种 。 

老 工 经 过 一 段 时 间 的 摸索 和 实验 , 终于 设计 出 了 一 套 新 协议 系统 , 称 其 为 1SCSI, 即 Internet 
Small Computer System Interface。 即 在 这 种 协议 中 ，SCSI 语言 甚至 可 以 通过 Internet 来 传递 ， 也 
就 是 承载 于 TCP/IP 之 上 。 

由 此 可 见 其 扩展 性 是 非常 高 的 。 只 要 IP 可 达 ， 则 两 个 节点 之 间 就 可 以 通过 iSCSI 通信 。 也 
就 是 说 , 位 于 中 国 的 一 台 主机 ,可 以 通过 iSCSI 协议 从 Internet 访问 国外 的 存储 空间 。 既 然 iSCSI 
协议 是 利用 TCP/IP 协议 来 传输 SCSI 语言 指令 , 那么 在 通信 的 双方 就 一 定 需要 先 建立 起 TCP 的 
连接 。 与 FC 协议 类 似 ，iSCSI 将 发 起 通信 的 一 方 称 为 Initiator， 将 被 连接 端 称 为 Target。 一 般 来 
说 ，Initiator 端 均 为 主机 设备 ，Target 端 均 为 提供 存储 空间 的 设备 ， 比 如 磁盘 阵列 。 

老 工 拿 着 设计 蓝图 找到 了 SCSI 协议 , 并 且 成 功 取得 了 SCSI 的 芳心 。 于 2004 年 4 月 份 完婚 ， 
并 且 领 到 了 结婚 证 ， 编 号 为 RFC3720。 

两 人 并 肩 携手 ， 成 功 游说 了 一 批 磁盘 阵列 生产 厂商 在 其 产品 上 尝试 着 实现 iSCSI 协议。 

提示 : 正如 本 书 第 10 章 中 所 说 的 , 既然 SCSI 语言 及 数据 可 以 用 FC 协议 传递 , 文件 系统 语 

言 可 以 用 以 太 网 传递 ， 那 么 SCSI 语言 当然 也 可 以 用 以 太 网 传递 。 

iSCSI 既然 要 利用 TCP/IP 来 传输 SCSI 协议 指令 和 数据 ,那么 就 必须 将 自己 作为 调用 TCP/IP 
这 个 传输 管道 的 一 个 应 用 来 看 待 。 大 家 都 知道 在 浏览 器 中 输入 “http://1.1.1.1” 或 者 
“http:/1.1.1.1:80”， 就 表示 让 浏览 器 对 IP 地 址 为 1.1.1.1 的 这 台 服 务 器 上 的 TCP/IP 传输 管道 的 80 
号 端口 发 起 http 请 求 ， 也 就 是 浏览 网 页 。 同 样 ， 如 果 是 telnet 这 个 应 用 ， 那 就 要 连接 对 方 的 23 端 
口 。 所 谓 “ 端 口 ”, 就 是 被 TCP/IP 协议 用 来 区 分 每 个 从 管道 中 传 出 去 或 者 收 进来 的 数据 包 ， 到底 
是 哪个 上 层 应 用 的 ， 哪 个 应 用 在 “监听 ” 某 个 端口 , 那么 TCPVIP 就 将 对 应 的 数据 包 ( 数据 包 中 含 
有 端口 号 信息 ) 发 送 到 这 个 应 用 对 应 的 缓冲 区 ， 正 因为 TCP/IP 是 个 公用 传输 通道 ， 谁 都 可 以 利用 
它 来 可 靠 地 传输 数据 到 网 络 另 一 端 ， 所 以 才 会 用 “端口 号 ”来 区 分 不 同 的 发 起 数据 传输 的 应 用 。 

同样 ，iSCSI 也 要 监听 3326 这 个 端口 号 。SCSI 指令 和 数据 ， 作 为 “客人 ”， 需 要 被 TCP/IP 
这 架 “ 飞 机 ”运载 到 目的 地 ，SCSI 本 身 并 不 关心 也 不 想 去 关心 诸如 从 哪个 登 机 口 ( 端口 号 ) 登 
机 、 行 李 托 运 、 安 检 、 海关 交涉 等 一 系列 问题 ， 于 是 需要 有 一 个 代理 或 者 说 引导 者 来 完成 这 些 动 
作 ， 这 个 角色 就 是 iSCSI Initiator 和 iSCSI Target。 

早期 的 SCSI 协议 体系 其 实 从 物理 层 到 应 用 层 都 有 定义 的 ， 网 络 层 也 有 定义 ， 比 如 一 条 总 线 
最 大 16 个 节点 ， 每 个 节点 有 Target 模式 和 Initiator 模式 ， 但 是 后 期 SCSI 体系 的 下 四 层 被 其 他 协 
议 取代 ，iSCSI+TCP/IP+ 以 太 网 相当 于 取代 了 下 四 层 ， 所 以 SCSI 上 三 层 不 需要 自己 去 发 现 网 络 
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里 的 节点 和 Target 了 ， 这 些 都 由 iSCSI 这 个 代理 去 完成 。 

首先 iSCSI Target 端 运行 在 存储 系统 一 侧 或 者 说 想 要 共享 自己 的 磁盘 空间 让 别人 访问 的 那 一 
侧 ， 其 作用 是 接收 iSCSI Initiator 端 传输 过 来 的 SCSI 协议 指令 和 数据 ， 并 将 这 些 指 令 和 数据 转交 
给 自己 这 一 侧 的 SCSI 协议 栈 (其 实 是 Class Driver 或 者 SCSI Middle Layer ) 处 理 。iSCSI Initiator 
端 运行 在 想 要 获得 存储 空间 的 主机 一 侧 ， 其 目的 是 向 iSCSI Target 端 发 起 连接 ， 并 传输 SCSI 指 
令 和 数据 。 在 iSCSI Initiator 端 程序 中 需要 配置 所 要 连接 的 iSCSI Target 端的 IP 地址 (或 者 使 用 
一 种 叫做 iSNS 的 服务 动态 自动 配置 来 发 现 iSCSI Target ) ，iSCSI Initiator 会 主动 向 这 些 IP 地 址 
的 3326 端口 号 发 起 iSCSI Login 过 程 ( 注意 这 个 动作 不 是 SCSI 协议 定义 的 , 完全 是 iSCSI 这 个 代 
理 程序 自己 定义 和 发 起 ) 。Login 过 程 的 交互 细节 此 处 不 做 细 表 , iSCSI Target 端 响应 Login 之 后 ， 
双方 在 iSCSI 层 就 连通 了 。iSCSI 连通 之 后 ，Initiator 会 主动 向 Target 发 起 一 个 SCSI Report Lun 
指令 ，Target 便 向 Initiator 报告 所 有 的 Lun 信息 ， 拿 到 Lun 列表 之 后 ，Initiator 端 主动 发 起 SCSI 
Inquery Lun 指令 查询 每 个 Lun 的 属性 ， 比 如 设备 类 型 ( 磁盘 、 磁 带 、 光 驱 、 打 印 机 等 等 ) 和 厂 
商 之 类 ,然后 Initiator 端 便 向 OS 内 核 注册 这 些 Lun 这 里 要 注意 一 下 ,这 两 条 SCSI 指令 是 Initiator 
固化 的 ,不 需要 经 过 其 上 层 的 SCSI 层 ) 。OS 内 核 便 针对 每 个 Lun 加 载 其 各 自 的 驱动 ( Windows 
下 就 是 Class Driver，Linux 下 就 是 Block Driver/Tape Driver 等 ) , 在 对 应 的 /dev/ 下 生成 各 自 的 设 
备 。 所 以 ， iSCSI Initiator 其 实 是 一 个 虚拟 的 Port Driver， 其 通过 调用 TCP/IP，TCP/IP 再 继续 调 
底层 网 卡 的 Port Driver 实现 数据 发 送 。 

FC 也 是 一 个 网 络 ， 也 是 替代 了 传统 SCSI 协议 栈 的 下 四 层 ，FC 也 不 是 为 了 专门 承载 SCSI 
协议 才 被 发 明 的 ， 那 么 利用 FC 网 络 发 送 SCSI 协议 的 那个 应 用 程序 或 者 说 角色 是 什么 ? 就 是 俗 
称 FCP 的 一 个 协议 , 相当 于 FC 体系 下 的 一 个 应 用 , 也 就 类 似 TCP/IP 体系 下 的 FTP、Telnet 等 。 
FTP 要 发 起 连接 传 文 件 ， 首 先 要 向 对 方 的 TCP 端口 号 21 发 起 连接 ,同样 ， 利 用 FC 传输 SCSI 
指令 的 FCP, 同样 也 需要 向 对 方 FC Target 端 某 个 特定 端口 号 发 起 连接 ，FC Target 端的 某 个 程序 
正在 监听 这 个 端口 的 一 切 动作 。 那 为 何 主机 端 不 需要 安装 FCP Initiator 程序 呢 ? 其 实 FCP 的 
Initiator 程序 就 是 集成 在 了 FC 适 配 卡 的 驱动 里 了 ， 因 为 FC 的 HBA 卡 目 前 来 讲 专门 分 配给 存储 
用 , 所 以 直接 集成 到 驱动 里 , 不 需要 额外 安装 ， 而 以 太 网 则 不 同 , 厂商 不 可 能 自 带 iSCSI Initiator 
或 者 Target 程序 ， 所 以 一 般 都 是 独立 开发 独立 安装 。 另 外 ，FC 协议 也 像 TCP/VIP 协议 一 样 有 类 
似 “ 端 口号 ”的 概念 ， 只 不 过 没有 像 TCP/IP 这 样 被 广为人知 罢了 ， 所 以 用 FC 承载 任何 上 层 应 
用 都 是 可 以 的 , 当然 , 需要 你 自己 去 开发 了 。 同样 , SAS 网 络 里 也 是 这 样 一 套 运作 流程 , 利用 SAS 
网 络 承载 SCSI 协议 ,需要 SSP 发 起 端 和 目标 端 ， 同 样 ， 也 被 集成 到 了 驱动 里 。 


12.4 ”iSCSI 交互 过 程 简 析 
以 下 所 有 实例 均 为 Windows XP 操作 系统 环境 ， 抓 包 软件 为 WireShark 0.99。 
12.4.1 实例 一 : 初始 化 磁盘 过 程 


图 12-1~ 图 12-6 所 示 的 Trace 结果 是 在 Windows XP 中 ， 初 始 化 一 块 通过 iSCSI 协议 提交 
上 来 的 LUN 磁盘 的 过 程 中 抓 取 的 。 在 Windows 初始 化 一 块 新 磁盘 的 过 程 中 , 会 对 磁盘 进行 查询 
以 及 修改 其 MBR。 下 面 就 来 分 析 一 下 具体 的 动作 。 

图 12-1 中 包含 了 Framel ~ Frame8。 
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See Dostraion 
10.128.128.154 10.128.133.60 


protecsl Tio 


10.128.128.194 10.128.133.60 


10.128.133:50 -10:128,126.1%4 
10.128-128.194 = 10-128.133.60 
0.128.133:50 = 10:128.,128.1%4 
0.128.128:194 = 10-128.133.60 
10.128.133:50 -10:128,126.1%4 


TSCST SC51; REad capacTtyC1O7 LuN: Gx00 


Reed CapacityC10) LUN; 0x00 
Date In LUN; DGQ [Read Cap, 
REed CapacityC10) LUN; Gx00 
Date In LUN; DO (Read Cap, 
Resd Capacity(10) LUN: Ox00 
3 Data In_LUN; Dx00 (Read Cap, 


PE 
Ethernet 11, 3re: 00: 《oo 4 
a Tnrernar Proroco], sre: 10- 


iscsr (scst pate 1n) 
a Scs1 payload (Read CapaciryCL0] nesponse Data] 
[Luy: Gxo000] 


[sec opcode: Read capaciryC10) COx25)] 
equest in: 1] 
Teesocnse 1n: 21 
Block size in bytess S12 
a scs1 Response (Read CapaciryC0)) 


关键 帧 分 析 


00) 
Transmission Control protocol, sre Port: 3260 (3260), 


st Port: 3801 (3301), san: 0, Ack: 19, L 


[command ser:0irecr mccess Device Kox00) Custng defaulc conmandser)] 


Frame1 ~ 8: ISCSI Initiator 端 ( 主机 端 ) 首先 向 LUN ( ISCSI Target ) 发 起 Read Capacity 指 


令 来 读 取 此 LUN 的 容量 信 


这 息 。 在 Target 返回 的 数据 中 ， 可 以 看 到 这 个 LUN 共 包 含 的 LBA 数 为 


112454 个 , 总 容量 为 54MB ( 112454 x 512 二 1024 二 1024 ) 。 主 机 连续 对 Target 发 出 了 4 次 Read 
Capacity 指令 ， 这 也 是 程序 上 的 设计 ， 可 能 是 为 了 充分 保证 读 取 到 的 容量 是 准确 无 误 的 。 


12-2 包含 了 Frame9 ~ Frame10。 


|e tscsr Cscsr 
‘opcode es Respense Cnn) 
Flags: Ox 


图 12-2 Test Unit Ready 


Frame9 ~ 10: 主机 在 读 取 完 Target 端的 容量 信息 之 后 ， 便 发 起 了 一 个 Test Unit Ready 指令 
来 探寻 Target 端 是 否 处 于 可 工作 状态 或 已 经 准备 就 结 。 第 10 帧 是 Target 对 主机 的 响应 。 


图 12-3 包含 了 Frame1l ~ Frame13。 


Tem 000T 


[Sac Opeode: Mod 5ensefe) Cox13)] 


Tespanse in 131 
Node Dara Length: 180 
edium Type: Or00 
Devica-specific par arster ; Ox00 
Block nescriptor Lengchz 8 
No. of slocks: 0 
Block Langeh: S12 

二 Read/wr tre Error Recovery Mode Page 


S p19id nsk Seanetry Meee Page 
Hina Mode Page 

盏 Control Mode page 

NOtch & Parririon Mada Page 

‘>on concrol Mode page 

下 Prorocn1-Specific Porr ade Page 

Informartonal Ercspcnns Contro] Woce Page 


command Set:Direct Access vevice (pxoo) Cus'ng default commandser)] 


- ”图 12-3 Mode 


Sense 
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Frame11 ~ 13: 主机 向 Target 发 出 了 Mode Sense 指令 ， 用 来 查询 Target 在 iSCSI 处 理 逻 辑 以 
及 物理 上 的 相关 参数 。Target 在 第 12 帧 中 返回 了 结果 。 

Frame14 为 TCP 底层 的 ACK， 不 必 深 究 。 
图 12-4 中 包含 了 Frame15 ~ Frame16。 


Ox00 Cl Ox00000000，L: >) 


6 de 7e 5 er I 
c5 40 00 ee dc 0a 60 
a0 bf 7e co 
00 00 00 00 

00 4b ff ff ff 
00 cb 00 00 


图 12-4 读 取 LBA0 
Frame15 ~ 16: 主机 读 取 Target 的 第 一 个 LBA, 即 编号 为 全 0 的 LBA, 这 个 LBA 也 就 是 MBR 
扇 区 。 从 数据 内 容 中 可 以 看 出 ， 新 磁盘 的 这 个 扇 区 的 内 容 是 全 0。 


图 12-5 中 是 Frame17。 
No Tme Source Destination Protocol Info 
15 0.001581 10.128.128.194 10.128.133.60 scsI ScsI: Read(10) LUN: Ox00 (LEA: Ox00000000, Len: 1) 


ead(10) Response Data) SC 


16 0.001884 10. 60 10.128.128.194 


SCsI SCSI: Data In LUN: Ox00 (Rt 


7e 
f2 39 0a 80 80 
83 63 3b fd a2 
00 00 00 00 02 
00 4c 00 00 02 

00 00 00 00 
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Frame17: 主机 向 Target 的 0 号 LBA 写 入 了 数据 ， 也 就 是 将 一 些 必要 信息 写 入 了 MBR。 
图 12-6 中 包含 了 Frame18 ~ Frame57。 

Frame18~57: 在 写 入 MBR 之 后 ， 主 机 又 接连 多 次 发 出 Read LBA0、Read Capacity、Write 
LBA0、Test Unit Ready 指令 。 在 最 后 一 个 Test Unit Ready 指令 发 出 并 获得 返回 数据 之 后 ， 磁 盘 
初始 化 完毕 。 此 时 没有 数据 包 交 互 了 。 

对 磁盘 分 区 、 格 式 化 等 操作 过 程 ， 这 里 就 简单 地 介绍 这 么 多 。 有 兴趣 的 读者 可 以 自行 实验 。 


0.128.128.194 
8.133.50 
8.128.194 
8.133.50 


Ox00 CTEeCLO 
0x00 (LBA; 0x00000000，Len: 1) 
Ox00 (Read(10) Response Data) SCSI: Re 
Ox00 (LBA; Ox00000000, Len: 1) 


22 0:003249 10.128,133.60 10.128.128.194 Data In LUN: Ox00 (Read(10) Response Data) ScsI: Re 
23 0.003293 。 10.128.128.194 10.128.133.60 write(10) LUN: Ox00 (LBA: Ox00000000, Len; 1)ScsI: 
24 0.004619 10.128,133.60 10.128.128.194 Respcnse LUN: ox00 CwrTreCL07) CGo0d) 

25 0.004651 。 10.128.128.194 10.128.133.60 Read CapacityC10) LUN: Ox00 

25 0.004796 。 10.128.133.50 10.128.128.194 Dara In LUN: Ox00 CRead CapacityC10) Response Data; 
27 0.004827 。 10.128.128.194 10.128.133.60 Read(10) LUN: 0x00 (LSA: Ox00000000, Len: 1) 

28 0.005096 10,128,133.60 10.128.128.194 ox00 (Read(10) Response Dats) SCsT: ne 
29 0.005124 。 10.128.128.194 10.128.133.60 0x00 (LBA; Ox0000000D, Len: 1) 

30 0.005395 。 10-128.133- 50 10-128-128.194 Data In LUN: Ox00 CReadC10) Response Data ScsT: Re 
31 0.005429 。 10.128.128.194 10.128.133.60 Read Capacity(10) LUN: Ox00 

32 0.005584 。 10.128.133. 50 10.128.128.194 Data In LUN: Ox00 (Read Capacity(10) Response Data 
33 0.005611 。 10.128.128.194 10.128.133.60 Read(10) LUN: 0x00 (LBA: Ox00000000, Len: 1) 

34 0.005891 。 10.128.133. 50 10.128.128.194 Data In LUN: Ox00 (Read(10) Response Data) ScsI: Re 
35 0.005948 。 10.128.128.194 10.128.133.60 Read CapaciryC10) LUN: Oxo0 

36 0.006096 。 10.128.133.50 10.128.128.194 Data In LUN: Ox00 CRead Capacity(C10) Response Data 
37 0.006113 。 10.128.128.194 10.128.133.50 Read CapacityC10) LUN: OxO0 

38 0.006259 。 10.128.133. 50 10.128.128.194 Data In LUN; Ox00 CRead Capacity(10) Response Data 
39 0.006276 。 10.128.128.194 = 10.128.133.60 Read CapacityC10) LUN: DXOD 

40 0.006431 10.128.133.60 10.128.128.194 Data In LUN; Ox00 (Read Capacity(C10) Response Data 
41 0.0064465 。 10.128.128.194 10.128.133.60 Read CapacityC10) LUN: Ox00 

42 0.006591 10.128.133.60 10.128.128.194 Data In LUN; Ox00 CRead Capacity(10) Response Data; 


Read CapacityC10) LUN: Ox00 
Data In LUN: Ox00 CRead CapacityC1D) Response Data; 
Read Capacity(C10) LUN: OxO0 


46 和 006935 10.128.133.60 10.128.128.194 Data In LUN; 0x00 (Read Capacity(10) Response Data; 
47 0.006981 10.128.128.194 10.128.133.60 Read Capacity(10) LUN: Ox00 

48 0.007128 10.128.133.60 10.128.128.194 Data In LUN: Ox00 (Read Capacity(C10) Response Data 
49 0.007159 10.128.128.194 10.128.133.60 Read Capacity(10) LUN: Ox00 

50 0.007306 10.128.133.60 10.128.128.194 Data In LUN; 0x00 (Read Capacity(10) Response Data; 
51 0.007347 10.128.128.194 10.128.133.60 Read Capacity(10) LUN; Ox00 

52 0.007483 10.128,133.60 10. 128.128.194 Dara Im LUN: Ox00 CRead CapacityC10) Response Data; 
53 0.007499 10.128.128.194 10.128.133.60 Test Unit Ready LUN: Ox00 

54 0.007644 10.128.135.60 1o.128.128.194 Respcnse LUN; 0x00 CTest unit Ready) (Good7 

55 0.007668 10.128.128.194 10.128.133.60 Mode Sense(5) LUN: 0x00 

55 0.007875 10.128.133.60 10.128.128:194 15cs1 ScsI: Data In LUN; 0x00 (Mode sense(6) Response Data) SC 
57 0.150698 10.128.128.194 10.128.133.60 CB: 3801 > 3260 [ACK] Seq=2320 Ack=4968 Wwin=65031 Len=0 


12-6 多 种 指令 再 次 读 写 
12.4.2 实例 二 : 新 建 一 个 文本 文档 


在 图 12-7 所 示 的 10.128.134.107 这 台 主 机 通过 TCP/IP 网 络 与 10.128.133.60 那 台 磁 盘 阵 列 
通信 ， 并 在 磁盘 阵列 的 一 个 LUN 中 建立 了 一 个 新 文本 文件 。 图 12-7 所 示 为 主机 与 磁盘 阵列 交 
互 数 据 的 过 程 。 


2 reassenbled pou] 
a reassenbled FOU 
a reassenbied POU] 
2 reassenbled 

pf 3 reassembled POU 

3 ressendled POU] 


rae 7 C3 ytes on wir 
|s thernet z1, 1si_34:7F:b8 《 pst: Cisco_28:b6:c0 (00: 

|s znternet prorocol, src: 10.128.134.107 (10.128.134.107), Dst: 10.128.133.60 (10.128.133.60) 
[a Transaission control Protocol, src Port; 1061 (1061), pst Port: sapdp60 (3260), Seq: 7560, Ac 


opcode; ScsT command (Ox01) 
I: Queved delivery 


Frarme 734 bye Reaczenbled Te? (240 brie 
图 12-7 一 次 写 10 
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前 7 个 数据 帧 所 包含 的 Payload 字 节 数 为 8240。 这 8240 个 字 节 ， 就 是 主机 向 磁盘 阵列 所 发 
送 的 一 次 写 IO。 协 议 分 析 软 件 自 行 判断 了 数据 帧 中 的 协议 ， sd 7 个 数据 帧 为 一 次 
iSCSI 的 写 动作 。 这 8240 个 字 节 ， 其 实 就 是 iSCSI 也 议 应 
外 发 送 的 字 节 , 而 TCP 根据 MSS 值 , 又 将 8240B gi 人 个 数据 包 传送 出 去 。 这 8240B 
中 包含 一 个 48B 长 的 iSCSI 头 ， 以 及 剩余 部 分 最 终 都 需要 被 写 入 LUN 的 数据 。 我 们 可 以 计算 一 
下 ，8240B 减 去 48B， 等 于 8192B， 恰 好 是 16 个 磁盘 扇 区 ( 16x512B ) 的 大 小 。 也 就 是 说 ， 这 次 
传输 其 实 就 是 主机 向 这 个 LUN 的 16 个 连续 扇 区 写 入 了 数据 .图 12-8 中 也 显示 了 相关 字段 的 值 ， 
确实 为 16。 


B SCSIT CD8 write(10) 
[LuN: 0x0000] 
[Command Set:Direct Access Device (0x00) (Using default commandset)] 


[Response jn: 11] 
Opcode: wrire(10) (0x2a) 
Flags: Ox00 
000 


= WRPROTECT: Ox00 
= DPO: Disable page out is DISABLED (cache this data) 
= FuA: Read from cache if possible 

.。..0. = FUA_NV: Read from volatile or non-volatile cache permitted 
togieal Block Address (LBA): 198484 

.0 0000 = Group: 0x00 
Transfer Length: 16 
Vendor Unique = 0, NACA = 0, Link = 0 


图 12-8 ”此 I0 块 大 小 为 16 个 LBA 
如 图 12-8 在 主机 向 存储 设备 传送 的 SCSI 命令 中 ,Opcode 字段 给 出 了 这 个 命令 的 操作 代码 ， 
0x2A 表示 写 ， 如 果 为 读 ， 则 对 应 的 值 为 0x28。 同 时 也 给 出 了 要 写 入 的 初始 LBA 为 ( 也 就 是 扇 区 
号 ) 198484 和 Transfer Length 为 16。 也 就 是 说 ， 主 机 在 这 条 命令 中 通知 存储 设备 ， 将 随后 传送 
的 数据 写 入 从 198484 号 LBA 开始 的 随后 16 个 扇 区 中 。 
存储 设备 上 的 TCP 程序 返回 给 主机 3 个 ACK 应 答 开销 数据 包 后 ， 在 第 11 帧 中 , 将 iSCSI 
协议 自身 的 会 话 层 应 答 返回 给 主机 ,证 明 SCSI 命令 已 经 执行 成 功 ， 如 图 12-9 所 示 。 


No.. Time Source Destination Proiocol Info 
2 0.000000 10.128.134.107 10.128.133.60 TCF [TCP segment of a reassembled PDU] 
2 0.000017 10.128.134.107 10.128.133.60 TCF [TcP segment of a reassembled PDU] 
3 0.000027 10.128.134.107 10.128.133.60 TCF [TCP segment of a reassembled PDU] 
4 0.000036 TF [TcP segment of a reassembled PDU] 
5 0.000056 .128.133. TCF [TCP segment of a reassembled PDU] 
6 0.000064 这 8 313: 107 10.128.133.60 TCF [TcP segment of a reassembled PDU] 
7 0.000073 ee es — 10.128.133.60 iscsr SCSI: write(10) LUN: Ox00 (LBA: Ox00030754, 
8 0.000203 10.1258.134- 107 Cr sapdp60 > 1061 [ACK] Seq=0 ACK=2520 Win=655: 
9 0.000234 18: 128. 133: 5 10.128. ee 107 TCF sapdp50 > 1061 [ACK] Seq=0 Ack=5040 Win=655: 
0 10. .133- 过 5 一 一 > ee cd Seq=0 Ack=7560 Win=655: 
2 0. 10. 128. 134. 107 es 60 rcp rr 0o 
13 0.000597 10.128.134.107 10.128.133.60 TCF [TCP segment of a reassembled PDU] 
14 0.000606 10.128.134.107 10.128.133.60 TCF [TCP segment of a reassembled PDU] 
15 0.000613 10.128.134.107 10.128.133.60 iscsr SCSI: write(10) LUN: Ox00 (LBA: Ox00030334, 
16 mnnn7k7 N17R Taa FN 40 19R 124 1n7 re andnah ~ NR Thrui can-AR MTU-1NTAN une 


Frame 11 (102 bytes on wire, 102 bytes captured) 
Ethernet II, Src: cisco_28:b6:c0 (00:1a:30:28:b6:c0), Dst: Usi_34:7f:b8 (00:16:41:34:7f:b8) 
BInternet Protocol, src: 10.128.133.60 (10.128.133.60), Dst: 10.128.134.107 (10.128.134.107) 
Transmission Control Protocol, src Port: sapdp60 (3260), Dst Port: 1061 (1061), Seq: 0, Ack: 8240, Len: 48 
iscsr (scsI Response) 
opcode: scsr Response (Ox21) 
日 Flags: 0x80 


0: No overflow of read part of bi-directional command 

u: No underflow of read part of bi-directional command 
: No residual overflow occurred 

: No residual underflow occurred 

completed at target (0x00) 


ToralAHSLength: 0x00 
DaraseqmenrLenqth: Ox00000000 


图 12-9 成 功 返 回 
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我 们 来 计算 一 下 主机 向 存储 设备 发 送 了 16 个 扇 区 的 数据 ， 其 所 耗费 的 开销 大 致 为 多 少 。 
销 1: iSCSI 头 部 。iSCSI 头 部 长 48B， 每 次 IO 都 只 耗费 48B。 
销 2: TCP/IP 头 部 以 及 ACK 开销 。 在 MSS 值 与 MTU 值 适 配 的 情况 下 ， 每 个 数据 帧 均 
会 包含 40B 的 开销 ; MSS 值 大 于 MTU 值 的 情况 下 , IP 会 将 数据 包 拆 分 , 第 一 个 拆 分 包 耗 费 40B 
开销 ， 随 后 的 拆 分 包 每 个 只 耗费 20B 开销 。ACK 包 的 数量 视窗 口 大 小 以 及 两 端 协议 状态 而 定 ， 
数量 不 定 。 每 个 纯 ACK 包 耗 费 60B 开销 。 

开销 3: 以 太 网 帧 头 部 开销 。 每 个 以 太 网 帧 耗费 14B 开销 。 

根据 以 上 描述 ， 上 述 IO 共 耗 费 的 开销 为 606B。 所 以 ， 大 致 估算 出 的 开销 比例 为 606/ 
(606+8192 ) =6%。 当 然 这 个 估算 是 不 符合 统计 学 原理 的 ， 在 这 里 只 是 大 致 估算 一 下 而 已 。 

紧 接着 ， 主 机 又 向 存储 设备 发 出 了 写 入 请 求 ， 这 次 写 入 的 则 是 8 个 扇 区 ， 如 图 12-10 所 示 。 


Ne.. | Time Source Destination Protocol Inio 
6 0.000054 10.128.134.107 10.128.133.60 Tp. Diep segnent of a reaesenbled POUT 
000073 。 10.128.134.107 10.128.133.60 iscst 。 SCSIT: Write(10) LUN; 0x00 (LEA 
8 0.000203 128.133.60 。 10.128.134.107 TP Stdped > 043 [AER] Seq00 KeR2232. 
9 0.000234 。 10-128.133.60 。 10.128-134.107 TcP sapdp60 > 1061 [ACK] Seq=0 Ack=504( 


10 9-000237 10.128.133.60 10-128-134.107 Tp sapdp60 > 1061 [ACK] Seq=0 Ack=756( 
11 0-000533 。 10-128.133-60 10.128.134.107 iscsr Scs1: Response LUN: Ox00 (write(10) 


12 90-000588 10.128.134.107 10.128.133.60 TCP [TcP segment of a reassembled PDU] 
13 0.000597 10.128.134.107 10.128.133. Tp [Tcp segment of a reassembled PDU] 
14 0.000606 10.128.134.107 10.138.133. 60 Tp [TcP segment of a reassembled PDU] 


JResponse in: 17] 
opcode: write(10) (ox2a) 
日 Flags: 0x00 
000. . 


= WRPROTECT: 0x00 
= DP0: Disable page out is DISABLED (cache this data) 
.= FUA: Read from cache if possible 
0. = FUA_NV: Read from volatile or non-volatile cache permitred 
Logieal Block Address (LBA): 197428 
.0 0000 = Group: Ox00 


Vendor Unique = 0, NACA = 0, Link = 0 


图 12-10 写 请 求 


猜测 : 第 一 次 主机 向 LUN 写 入 了 16 个 扇 区 的 内 容 ， 是 这 个 新 建文 本 文件 的 实际 数据 ， 而 
第 二 次 写 人 8 个 扇 区 的 内 容 , 可 能 是 针对 这 个 文件 的 元 数据 。 当然 在 此 只 能 做 一 个 大 致 的 猜 
测 。 若 想 追 究 到 底 也 并 不 难 ， 但 是 我 们 在 此 就 不 做 过 多 分 析 了 。 


如 图 12-11 所 示 是 在 向 某 LUN 复制 一 个 大 文件 时 抓 取 的 数据 包 。 主 机 每 次 IO 请 求 写 入 的 
扇 区 数 变 成 了 128， 也 就 是 64KB 的 数据 。 从 数据 包 内 容 中 ， 可 以 看 出 这 个 文件 好 像 是 一 个 视频 
文件 ， 而 且 是 一 部 流行 的 美国 电视 剧 。 


10.1286.133.60 10.128.128.194 TCP Sapdp60 > 2960 [ACK] Seq= 


= WRPROTECT: Ox00 
Dpo: Disable page out js DISABLED (cache this dara) 

FuA: Read from cache if possible 

FUuA_NY: Read from volatile or non-volatile cache pernitted 
Logical Block Address (LEA): 305768 

.0 0000 - Group: 0x00 


Vendor unjque = 0, NACA = 0，Link = 0 
= srsr pavload furiref10) panuasr naran 


AR 而 而 而 而 页 而 而 

强 蚂 如 吕 吕 有 如 中 中 品 品 加 加 

如 及 多 四 加 990900 00 和 90939939283 的 

器 品 折 总 如 让路 9 中 基 中 中 中 站 电量 

吧台 隐 转 0899 鸳 引 昌 虞 对 昌 的 反 况 弛 

路 骂 总 总 好 全 训 和 

由 园区 人 各 的 扣 05 区 隐 be2E 罗 各 39 近 

旺 吧 党务 疾 田 名 品 冯 昨 虹 线 器 凯 程 田 

及 荨 全 胞 全 科 全 全 入 2500 二 民生 六 轴 

下 这 坚 弛 六 第 名 2 入 靖 中超 呈 呈 号 刘 

和 器 医生 区 个 史 政史 全 的 生 加 下 他 下 总 六 中 

如 唤 顺 网 名 中 吕 呈 号 中 二 到 区 区 闫 史 S 
EE 轩 


led TC (55584 byiesi | 


图 12-11 复制 一 个 大 文件 


， 
加 
a 
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由 于 Socket 的 缓冲 区 一 般 为 64KB， 所 以 上 层 程序 每 次 调用 发 送 给 Socket 最 大 的 数据 长 度 也 被 
限制 在 64KB。 由 此 就 可 以 计算 出 图 12-11 中 的 这 个 IO 将 数据 写 入 了 LBA305768 ~ LBA305895 这 128 
个 肩 区 中 。 如 果 此 时 还 需要 接着 写 入 新 数据 而 同时 LBA305895 之 后 的 肩 区 还 是 空闲 状态 的 话 ， 文 件 
人 的 扇 区 继续 写 入 。 enh 图 1 12-12 Ee IO de LBA305896 ~LBA306023 这 


125 0.051877 Tc Sapdp60 > 

126 0.052118 .128. TCP sapdp60 > 2960 

127 0.052372 。 10.128.133.60 。 10.128.128.194 TcP sapdp60 > 2960 [ACK] 
128 0.052617 10.128.133.60 10.128.128.194 TCP Sapdp60 > 2960 [ACK] 
129 0.052861 10.128.133.60 10.128.128.194 TCP sapdp60 > 2960 [ACKT] 


= ppo: Disable page out is DISABLED (cache this data) 
= FUA: Read from cache if possible 
= FUA_NV: Read from volatile or non-volatile cache permitted 


.0 0000 = Group: 0x00 
Transfer Length: 128 


Vendor unique = 0, NACA = 0, Link = 0 
BS ScsI payload (write(10) Request Data) 
[LuN: Ox0000] 


01 80 21 b4 60 


图 12-12 连续 的 64KB 等 入 


12.4.3 ”实例 三 : 文件 系统 位 图 


图 12-13~ 图 12-15 所 示 的 Trace 结果 是 在 通过 主机 上 的 文件 系统 ， 将 500MB 的 数据 从 一 
个 写 满 数 据 的 1GB iSCSI LUN 中 删除 的 过 程 中 所 抓 取 的 。 


Soom 

SC51;: Wi1cet10) LuN: Ox00 CLEA; OXO00at 
3260 > 3585 [ACK] Seq=288 Ack=27764 Wit 
ScsI: Rasponse LUN: gx00 Cwurita(L0)) Ce 
CTCP segmant of a reassembiad POU] 

Ircp segment of a reassemblad Pu] 
SC51: wire(10) LUM; Ox00 CLDA: 0x00oat 
3260 > 3585 [ACK] Saq-336 Ack-31928 wir 
ScsI: Rasponse LUN: gx00 (write(L0)) Ce 
CTCP segment of a reassemb]ad POU] 

[TcP segment of a reassembled POU] 
SCSI: Wicet10) LuN: Ox00 CLBA: 0xo0oat 
3260 > 3585 [ACEK] seq=384 Ack=36072 wir 
SCSI: Response LUN: 0x00_Cwr1TeC10DD CC 
3585 > 3200 [AcK] Seq=37296 Ack=432 wir 
[EP Segment of a ressenbled Pou 
[rcp s cf 2 rassemblad POU: 


.0064 80 10,128.128. 
.007005 10,128.133. 
007670 10,128.133. 
007715 10'128.128. 
.007725 10,128.128. 
.007733 10,128.128. 
008258 10,128.133. 
.008685 10,128.133. 
008720 10,128.125. 
.008729 10,128.128. 
008735 10,128.128. 
.009259 10,128.133. 
:009656 10, 128.133. 
162900 

451932 
451952 


128.133. 60 
:26.128.194 
3128.128.104 
128. 133. 60 
-128. 133. 60 
126. 133. 60 
.3128.128.194 
126.128.104 
128.133. 60 
128.133. 60 
128.133. 60 
128.128.104 
.1 28. 128. 194 


451976 


Frame 31 C275 bytes on wire, 1275 byteS capturedy 
iw Erherner II, Sre: Us1-4e:7e:61 CO0:1a:6b:4e:7e:61), Dst: 00:1b:90:70:e7:c1 C00:10:90:70:e7:c1) 
mInterner prorocol, src: 10.128.128.104 C10.128.128.104), Dst: 10.128.133.60 C10.128.133.60) 
@ Transmission control Prorocol, Src port: 3585 (3585), Dst Port: 3260 (3260), Seq: 40216, Ack: 432, 
[Reassombled TcP sagments (4144 bytas): #49C1460), #50C1460), #51C1224)] 
scst 《SCSI Command) 
日 ScST CDB writeC10) 
[LuN: ox0000] 
[Commanad Ser :Direcr Acress Device Cox00) Cusing defaunr commandser)] 
[pesponse in: B71 
opcode: wFiteC10) COx22) 
Flags: ox00 
| a al Block Address GueA): 10o442G? ee | 
0000 = Group: 0x00 
Transfer Length: § 
vendor unique = 0, Naca = 0, Link = 0 
mscst payload CwriteC10) aequest Dara) 


Segment of a eass 


有 

和 

8 

8 
383888882083888 


120 54 79 40 10 00 


Frame (1270 bytes) | Reassembled TcP (4144 bytes) 


图 12-13 删除 500MB 的 数据 
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12-13 为 删除 500MB 数据 时 抓 取 的 数据 包 。 
由 于 文件 系统 从 磁盘 上 删除 数据 的 过 程 中 , 只 会 修改 相关 的 链表 , 从 元 数据 中 抹 掉 相应 的 记 
录 ， 而 不 会 去 抹 掉 或 者 覆盖 被 删除 的 文件 原来 所 对 应 的 扇 区 上 的 任何 数据 ， 所 以 虽然 删除 了 
500MB 的 数据 ， 但 是 真正 的 IO 数据 远 小 于 500MB。 本 例 中 ， 这 个 过 程 只 交互 了 163 个 数据 包 。 
在 前 51 个 数据 包 中 ,所 有 IO 均 为 写 操作 ， 每 个 大 小 均 为 8 个 扇 区 ( 4096B ， 被 分 成 三 个 数 
据 帧 ) 。 可 以 判定 这 些 IO 其 实 都 是 在 更 新 文件 系统 元 数据 。 
从 第 52~ 第 80 个 数据 包 为 一 个 80 扇 区 的 写 IO， 如 图 12-14 所 示 。 


Time Source 


Protocol Info 


64 14.452107 10.128.128. I 


TEP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 
TCP 


-TCF SEONEFE of a reassenbled PDU] 
[TCP segmenr of a reassembled Pou] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled Pou] 
[TCP segmenr of a reassembled PDU] 
[TCP segmenr of a reassemb]ed PDU] 
[TCP segmenr of a reassembled PDU] 
[TCp segmenr of a reassembled PDU] 
[TCP segmenr of a reassembled PDU] 


CReassembled TCP segments C41008 bytes): #52C1460), #53C1460), #54C1460), #55C1460), #56C1460), 
scsI (scsI Command) 
日 scsIT CDB write(10) 

[LuN: Ox0000] 

[command Set:Direct Access Device (0x00) (Using default commandset)] 


[Response jin; 103] 
opcode: Write(10) (Ox2a) 
Flags: 0x00 
Logical Block Address (LBA): 1044473 
.0 0000 = Group: 0x00 


Vanrior_ Hnimie ~ N NAMA ~ MN in -A 


5525 本 
joso FF FF FF FF fF FF fF fF fF fF fF fF fF ff 
jeoso FF FF FF FF FF FF FF FF fF fF fF FF fF fF fF fF 
050 fF ff ff fr ff ff ff ff fF ff ff ff ff ff ff fF 
oo60 FF FF FF FF FF FF FF FF fF fF fF FF fF fF fF fF 
070 ff fF fF ff ff fF fF ff 下 fF 下 下 下 下 下 FF 
080 ff ff ff fr ff ff ff ff ff ff ff ff ff ff ff fF 
090 fF FF fF ffrffffrffffr ffffrfffffFfFfF 人 
0a0 fF ff ff fr ff ff ff ff fF ff ff ff fF ff fF ff 
bo fF ff ff fr ff ff ff ff ff ff ff ff fF ff ff fF 
oc fF ffff ffrffffffffr ffffrff ff ff ff ff ff 
0d0 ff ff ff fr ff ff ff ff ff ff ff ff ff ff ff 人 
0e0 fF ff ff ff ff ff ff ff ff ff ff ff ff ff ff 人 
OFO fF ff ff ff ff ff ff ff ff ff ff ff 人 ff ff fF 
100 ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff 
110 ff ff ff ff ff ff ff ff ff fF ff ff ff fF fF ff 
120 ff ff ff ff ff ff ff ff ff 作 fFffff fffF ff 
jeaio fF FF FF FF FF FF FF FF fF fFfF fF fF fF fF fF 
140 ff ff ff ff ff ff ff ff ff ff ff ff ff ff ffF ff 
so 作 任 作 作 作 作 作 作 任 作 作 作 任 作 人 在 作 
160 ff ff ff ff ff ff ff ff ff ffffffffFfFff 
70 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 
lao 作 作 作 作 作 作 作 作 fF fFfF fF fF fF fF fF 
aeo 作 作 作 作 任 作 作 作 作 作 作 任 作 作 在 作 
liao 作 作 作 作 作 作 作 作 任 作 作 任 作 作 作 作 
网 生 攻 攻 玫 不 攻 作 处 耻 休 攻 剑 休 任 休 环 
[Frame (182 bytes) | Reassembled Tcp (41008 bytes) 


图 12-14 文件 系统 位 图 (一 ) 

分 析 这 个 IO 的 实际 内 容 ， 发 现 其 包含 了 很 多 的 0xf， 即 二 进 制 的 11111111。 这 个 IO 更 新 
的 元 数据 ， 就 是 本 书 前 文中 提 到 过 的 文件 系统 位 图 ( 见 5.7.4 节 ) 。 位 图 是 一 个 元 数据 文件 ， 其 
中 用 每 个 位 来 表示 对 应 磁盘 分 区 中 的 每 个 块 (或 者 簇 , 视 设 计 不 同 而 定 ) 是 否 正 在 被 某 个 文件 所 
j。 由 于 本 例 中 ，LUN 上 依然 留 有 一 半 的 数据 ， 所 以 依然 有 一 半 的 入 被 文件 占用 着 。 这 些 簇 
b 就 是 图 中 被 标明 为 0x 企 字 节 所 对 应 的 繁 。 被 标明 0x00 的 字 节 则 对 应 着 磁盘 上 未 被 文件 占用 的 
闲 块 ( 徐 ) ,但 不 是 说 这 些 空 闻 块 中 “没有 数据 ”或 者 “数据 为 全 0”。 对 于 一 块 匀 新 的 磁盘 ， 
区 中 的 数据 可 能 为 全 0, 但 是 对 于 一 块 已 经 使 用 过 的 磁盘 ， 扇 区 中 会 保留 很 多 以 前 被 删除 文件 
“尸体 ”。 这 些 “ 己 体 ”会 被 随后 的 对 这 个 扇 区 的 写 IO 数据 所 覆盖 。 

图 12-15 所 示 的 数据 是 在 将 那个 LUN 中 剩余 的 数据 全 部 删除 的 过 程 中 所 抓 取 的 。 


Hm 


否 渤 届 
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Te Souree Destnation Protocol Info 
233 12.995438 10.128.133.60 10.128.128.194 TCP 3260 > 3585 [ACK] Seq-1488 Ack=190. 
Tep [TCP segment of a reassenbled PDU] 

Tep [TCP segment of a reassenbled PDU] 
Tep [TCP segment of a reassenbled PDU] 
Tep [TCP segment of a reassenbled PDU] 
Tep [TCP segment of a reassenbled PDU] 
Tep [TCP segment of a reassenbled PDU] 
Tep [TCP segment of a reassenbled PDU] 
Tep [rcp segment of 3 reassenbled POU] 
Tep [TCP segment of a reassenbled Pou] 
Tep [TcP segment of a reassenbled PDU] 
[rcp segment of a reassenbled PDU] 
of a ed PDU] 


955. 60 le 
248 12.995580 = 10.128.128.194 = 10.128.133.60 [TCP segment of a reassenbled Poul 
249 12.995591 10.128.128.194 10.128.133.60 iscsT ScsI: write(10) LUN: Ox00 (LBA: Ox 
[Command Set:Direct Access Device (0x00) CUsing default commandsat)] 
[Response in: 257] 
: Write(10) (Ox2a) 
Ox00 


0000 = Group: 0x00 
Transfer Length: 56 
Vendor unique = 0, NACA = 0, Link = 0 
S scst Payload (urite(10) Reouest Data) 
[LuN; oxo000] 
[command Set:Direct Access Device (0x00) (using default commandser)] 
[sRr ancnde® wriref1MY (nv7aN1 


a 
030 00 00 90 00 00 0000 90 00 00 00 
040 0 


网 始 引 由 昭 昭 昭 照 钻 巾 照 巾 照 中 如 绍 凤 


Reassembled TCP (28720 bytes) 
图 12-15 文件 系统 位 图 (二 ) 
可 以 看 出 ,LBA1044425 以 及 随后 ( 包括 其 自身 ) 的 56 个 扇 区 为 存放 位 图 的 扇 区 ( 当然 这 只 
一 部 分 ， 还 可 能 有 其 他 扇 区 也 用 来 存放 位 图 ) 。 由 于 删除 文件 导致 LUN 上 的 空闲 志 增 加 ， 所 

以 文件 系统 必须 修改 位 图 映射 表 ， 这 就 产生 了 图 12-15 中 第 246 个 数据 包 所 对 应 的 写 IO 操作 。 
通过 数据 包 内 容 可 以 看 出 , 位 图 中 几乎 所 有 字 节 都 为 0x00。 这 就 说 明 此 时 LUN 上 已 经 几乎 都 是 
空闲 块 了 。 

读者 可 以 自行 操作 并 分 析 一 下 iSCSI 以 及 文件 系统 的 逻辑 。 但 是 要 注意 一 点 , 由 于 主机 上 的 
文件 系统 是 有 缓存 的 ， 当 向 LUN 做 了 一 次 操作 之 后 ， 会 被 文件 系统 缓存 一 段 时 间 ( 几 秒 或 者 十 
几 秒 都 有 可 能 ) ， 然 后 才 批 量 Flush 到 硬盘 (LUN ) 上 。 所 以 此 时 一 定 要 保持 网 卡 抓 包 软件 继续 
执行 抓 取 ,直到 十 几 秒 钟 之 后 ， 流 量 面板 中 没有 新 的 数据 包 被 抓 取 到 ， 此 时 方 可 停止 抓 取 ,获得 
Trace 数据 。 


12.5 ”iSCSI 磁盘 阵列 


当年 FC 闹 革 命 的 时 候 ， 可 谓 是 万 稻 烈 烈 , 气 壮 山河 。 当 时 ， 那 场 革命 对 磁盘 阵列 架构 的 改 
变 真 是 太 彻底 了 ， 所 以 至 今 人 们 仍然 记忆 犹 新 。 而 TCP/IP 想 在 已 经 被 FC 革命 过 的 江湖 上 再 曾 
出 点 动静 来 ， 可 就 不 是 那么 容易 了 。 毕 竟 TCP/IP 所 依靠 的 以 太 网 相对 于 FC 来 说 ， be 
换 网 络 ， 而 且 很 多 概念 都 类 似 甚至 相同 。 很 多 盘 阵 厂商 并 不 看 好 TCP/IP 的 介入 。 但 是 最 终 
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有 一 批 喜 欢 标新立异 、 敢 于 创新 的 厂商 ， 举 起 大 旗 来 支持 TCP/IP。 

图 12-16 便 是 一 个 典型 的 iSCSI 磁盘 阵列 的 基本 架构 。 可 以 看 到 ， 其 前 端 IO 设备 就 是 普通 
的 以 太 网 卡 。TCP/P 以 及 iSCSI 逻辑 均 运行 在 主 内 存 中 。 后 端的 磁盘 可 以 以 任何 方式 接 入 总 线 ， 
甚至 可 以 是 独立 的 磁盘 阵列 。 磁 盘 经 过 VM 虚拟 化 层 之 后 ， 通 过 前 端 接口 供 主机 访问 。iSCSI 盘 
阵 与 FC 盘 阵 结构 类 似 ， 只 不 过 前 端 接口 成 了 以 太 网 口 而 已 。NetApp 的 FAS 系列 产品 在 同一 个 
控制 器 上 实现 了 多 种 协议 的 接口 ， 包 括 iSCSI、FCP、CIFES、NEFS 以 及 其 他 的 一 些 基于 TCP/IP 
的 数据 访问 协议 。 


图 12-16 iSCSI 盘 阵 架构 示意 图 


注意 : VM 意 为 Volume Manager，Virtualization Manager。 


我 们 可 以 发 现 ， 这 台 盘 阵 的 架构 与 PC 无 异 。 的 确 , 不 管 是 主机 还 是 磁盘 阵列 ， 它 们 都 是 由 
计算 机 系统 的 老 三 样 一 -CPU、 内 存 、 外 设 组 成 的 。 其 所 实现 的 功能 ， 关 键 是 靠 所 运行 的 软件 。 
主机 上 的 老 三 样 运 行 的 是 处 理 业 务 逻辑 的 应 用 程序 ; 而 运行 在 盘 阵 老 三 样 上 的 则 是 专门 处 理 通过 
不 同 网 络 协 议 传输 进来 ,或 者 出 去 的 SCSI 指令 以 及 优化 磁盘 读 写 的 程序 。 从 本 质 上 来 说 ， 它 们 
二 者 是 相同 的 ， 只 不 过 是 分 工 不 同 而 已 。 

提示 : 正 因为 它们 本 是 同根 生 ， 所 以 相 前 又 何 太 急 呢 ! PC 只 要 运行 了 盘 阵 上 的 软件 ， 就 是 

一 台 盘 阵 ; 相反 ， 盘 阵 如 果 运 行 了 应 用 程序 ， 则 就 可 以 当成 一 台 主 机 来 使 用 。 


目前 ， 几 乎 各 种 操作 系统 都 已 经 有 了 iSCSI Initiator 软件 。 有 些 操作 系统 ， 比 如 Windows、 

Linux 等 还 有 了 iSCSI Target 软件 。 它 们 安装 了 Target 软件 ， 也 就 变 成 了 盘 阵 ， 只 不 过 在 性 能 、 

功能 和 容量 上 没有 专业 盘 阵 强悍 。 

目前 ，TCP/IP 只 是 占领 了 盘 阵 前 端 接口 的 部 分 阵地 。 而 对 于 后 端 磁盘 接口 的 进攻 ， 也 不 是 
没有 设计 和 尝试 过 。 当 年 FC 可 是 一 举 拿 下 了 盘 阵 的 前 端 和 后 端 。 而 如 今 老 工 能 有 FC 的 那个 本 
事 么 ? 确实 有 些 厂家 的 盘 阵 将 TCP/IP 协议 作为 后 端 磁盘 到 适配器 之 间 的 传输 协议 , 但 是 这 样 的 
设计 似乎 并 没有 得 到 认可 。 这 个 结果 也 是 可 以 预知 的 ，TCP/IP 之 所 以 可 以 与 FC 竞争 ， 就 是 因 
为 其 优良 的 扩展 性 ， 而 不 是 因为 它 的 速度 。 后 端 需要 的 首先 是 性 能 ， 而 不 是 扩展 性 。 所 以 ,后 端 
还 是 乖 冬 地 交 给 FC 才 是 明智 的 选择 。 


12.6 IP SAN 


后 来 , 人 们 索性 将 iSCSI 为 代表 的 以 TCP/IP 作为 传输 方式 的 网 络 存储 系统 称 做 IP SAN, 即 
基于 IP 的 存储 区 域 网 络 。 值 得 说 明 的 是 ，IP SAN 并 不 一 定 要 用 以 太 网 作为 链 路 层 ， 可 以 用 任何 
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支持 卫 的 链 路 层 ， 比如 ATM ( IPoA ) 、PPP、HDLC， 甚 至 是 Fibre Channel 也 可 以 作为 IP 的 链 
路 层 。 

这 样 ， 就 使 得 IP SAN 的 可 扩展 性 变 成 了 无 限 ， 它 可 以 扩展 到 世界 上 任何 一 个 有 Internet 网 
络 接 入 的 地 方 。 这 也 是 Internet Small Computer System Interface 名 称 的 由 来 。 

iSCSI 的 方便 和 灵活 性 逐渐 显现 出 了 优势 -的 确 ,现在 还 有 哪 台 主机 上 不 带 以 太 网 适配器 的 ? 
还 有 哪 台 主 机 上 不 运行 TCP/IP 协议 的 呢 ? 就 连 大 型 机 设备 都 有 自己 的 前 置 TCP/IP 处 理 机 了 。 

FC 网 络 虽 然 比 并 行 SCSI 总 线 的 扩展 性 高 了 很 多 ,但 是 相对 于 TCP/IP 的 扩展 性 ，FC 就 是 
小 焉 见 大 巫 了 。 

iSCSI 与 NAS 的 区 别 如 下 。 
虽然 iSCSI 与 NAS 都 是 利用 TCPVIP+ 以 太 网 来 实现 的 ， 但 是 二 者 所 传输 的 语言 是 大 相 径 庭 
的 。NAS 传输 的 是 文件 系统 语言 ， 而 iSCSI 传输 的 是 SCSI 指令 语言 。NAS 设备 上 必须 运行 一 种 
或 者 多 种 文件 系统 逻辑 , 才能 称 为 NAS; 而 iSCSI Target 设备 上 不 需要 运行 任何 文件 系统 逻辑 ( 盘 
阵 自身 操作 系统 文件 管理 除外 ) 。 

在 相同 的 条 件 下 ，iSCSI 与 NAS 在 速度 与 性 能 方面 相差 不 大 。 


12.7 ”增强 以 太 网 和 TCP/IP 的 性 能 


老 工 对 IP SAN 可 谓 是 投入 了 一 腔 热血 。 它 想 尽 一 切 办 法 要 提高 TCP/IP 的 性 能 , 以 便 与 FC 
抗衡 。 


1. Checksum Offload ( CO ) 


计算 每 个 TCP 包 的 校 验 数 据 是 一 件 极 其 枯燥 乏味 和 耗费 资源 的 工作 。 由 于 TCP/IP 程序 均 
需要 运行 在 主机 操作 系统 中 ， 所 以 计算 校 验 数 Broadcom NetLink (TM) Gigabit Ethernet 属性 [ealed 
据 的 任务 当然 要 落 在 主机 CPU 身上 。CPU 不 ea 
得 不 拿 出 额外 的 指令 周期 来 计算 每 个 TCP 包 | 此 了 上天 全 下 2 几 性 在 在 边 音 击 您 双 亦 的 必 性 ， 然 后 在 


的 校 验 数据 ,这 对 于 CPU 处 理 能 力 比较 弱 的 主 位 四 : 
机 来 说 ， 性 能 影响 是 不 可 忽略 的 。 BEE 


为 了 将 CPU 解脱 出 来 ， 一 种 称 为 
Checksum Ofoad 的 技术 被 开发 出 来 。 这 种 技 
术 将 计算 校 验 数 据 的 工作 完全 转移 到 了 网 卡 的 
硬件 上 ， 对 于 向 外 发 送 的 TCP 包 ，CPU 可 以 
不 经 校 验 直接 传送 给 网 卡 ， 由 网 卡 芯片 来 做 校 
验 ; 同样 ， 对 于 接收 到 的 数据 包 ， 在 没 提交 到 
主机 内 存 之 前 ， 就 已 经 做 好 了 校 验 匹 配 。 图 
12-17 就 是 Checksum O 皇 oad 功能 的 一 个 图 示 。 


2. Large Send Offload (LSO ) 图 12-17 网 卡 的 Checksum 0ffload 功能 


TCP 需要 根据 底层 链 路 的 MTU 值 来 适 配 其 每 次 发 送 的 数据 大 小 。 如 果 上 层 传递 过 来 的 数 
据 大 于 其 允许 的 最 大 分 段 长 度 ( MSs 值 ) ， 则 TCP 会 将 这 些 数据 分 成 若干 个 数据 包 发 送出 去 ， 
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这 就 是 所 谓 的 Large Send。 这 项 工作 目前 也 可 以 被 转移 到 网 卡 上 来 完成 。 
3. TCP/IP Offload (TO ) 


TCP/IP Offload 则 干脆 将 TCP/EPP 整个 程序 都 放 到 网 卡 硬件 芯片 上 来 运行 。 这 种 特殊 的 以 太 
网 卡 称 为 TOE 卡 ， 即 TCP/IP Ofload Engine Card。 图 12-18 是 TOE 卡 在 存储 盘 阵 上 的 应 用 及 
架构 图 。 


图 12-18 使 用 TOE 卡 的 iSCSI 人 盘 阵 层次 架构 示意 图 
4. Security Offload ( SO ) 


Security Ooad 不 仅 将 TCP/IP 协议 从 主机 上 OfMoad 了 下 来 ， 它 还 可 以 在 硬件 上 直接 实现 
IPSEC 相关 的 协议 ， 将 对 数据 包 的 加 解密 过 程 也 从 主机 上 Ofhoad 下 来 。 


5. isCSI Offload (IO ) 


iSCSI Offload 将 TCP/IP+iSCSI 的 整套 逻辑 都 放 到 网 络 适 配 卡 上 来 运行 。 由 于 iSCSI 的 上 层 
是 SCSI， 所 以 一 张 iSCSI 卡 对 于 主机 来 说 , 会 表现 为 一 张 SCSI 卡 。 不 同 的 是 , 这 张 虚拟 的 SCSI 
卡 可 以 设置 其 自己 独立 的 了 P 地 址 以 及 其 他 TCP/IP 和 iSCSI 的 参数 。 图 12-19 所 示 为 iSCSI 硬 卡 
在 存储 阵列 上 的 应 用 及 架构 图 。 


图 12-19 使 用 iSCSI 0ffload 卡 的 iSCSI 盘 阵 架构 示意 图 
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12.8 FC SAN 节 节 败退 


1. 成 本 问题 


说 来 有 点 惊讶 ， 部 署 FC SAN 的 成 本 是 部 署 IP SAN 的 10 倍 甚 至 十 几 倍 。 以 太 网 卡 和 以 太 
网 交换 机 相 比 FC 卡 与 FC 交换 机 便宜 了 很 多 。 所 以 ， 对 于 对 性 能 要 求 不 是 很 苛刻 的 用 户 来 说 ， 
部 署 IP SAN 无 疑 是 性 价 比 最 高 的 方法 。 


2. 可 扩展 性 问题 


FC 是 一 个 专用 网 络 。 虽然 FC 当初 是 作为 像 以 大 网 一 样 的 通用 的 网 络 传输 技术 被 设计 出 来 ， 
但 是 目前 , 其 专门 被 用 作 存 储 网 络 ,也 算是 命 该 如 此 。FC 长 期 被 束缚 在 这 样 一 个 狭小 的 环境 内 ， 
不 仅 造成 了 其 不 思 进 取 的 性 格 ， 而 且 也 造成 了 其 成 本 的 居 高 不 下 ， 所 以 FC 很 难 被 扩展 出 去 。 


3. 易 用 性 问题 


曲 高 则 和 寡 。 既 然 FC 这 么 不 开放 ， 那 么 就 注定 难 用 。 部 署 一 个 FC 存储 网 络 比 部 署 一 个 IP 
存储 网 络 要 复杂 ， 对 技术 人 员 的 要 求 也 比较 高 。 


4. 兼 容 性 问题 


由 于 FC 极其 不 开放 ， 即 使 FC 有 相关 的 标准 ， 但 不 同 的 生产 厂家 生产 出 的 FC 设备 ， 有 时 
候 并 不 一 定 会 完全 兼容 ， 总 会 出 现 一 些 莫名 其 妙 的 问题 。 相 比 来 说 ，TCP/PP 由 于 已 经 在 完全 开 
放 的 环境 中 摸 息 深 打 了 很 长 的 时 间 ， 所 有 已 经 被 发 现 的 bug 也 都 被 修复 了 。 


12.9 iSCSI 配置 应 用 实例 


本 实例 用 一 台 NetApp FAS3050 系列 磁盘 阵列 充当 iSCSI 的 Target 设 备 ,用 一 台 运 行 于 Windows 
XP 操作 系统 的 PC 充当 iSCSI Initiator 端 ,PC 上 的 iSCSI Initiator 软 件 为 微软 的 MS iSCSI Initiator 2.07 
版 本 。 本 例 中 将 描述 如 何在 存储 设备 上 一 步 步 地 创建 LUN， 然 后 映射 给 主机 使 用 。 


12.9.1 第 一 步 : 在 存储 设备 上 创建 LUN 


1. 创建 Aggregate 


所 谓 Aggregate 是 指 RaidGroup 的 组 合 ,一 个 Aggt Aggregate ) 可 以 包含 多 个 RG Raid Group )。 
如 图 12-20 所 示 ， 这 人 台 盘 阵 在 其 后 端的 0a 和 0b 个 FC 通道 下 各 连接 了 两 台 扩 展柜 ( Shelfl 和 
Shelf2 ) ， 每 台 扩展 柜 包 含 14 块 硬盘 ， 这 样 每 个 通道 包含 了 28 块 硬盘 。 
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slot 0: Fc Host Adapter 0a CDual-channel, QLogic 2322 rev. 3, 64-bit, L-port, <UP>) 


Firmware rev: 3.3.25 
Host Loop Id: 7 Fc Node Nane: 5:00a:098200:00F542 
CacheTine size: 16 FC Packer size: 2048 

SRAM parity: Yes Fxternal GeIc: No 


Link Data Rare: 2 cbit 


15 妆 74_HPrTAL46FLO NA03 136.055 520B/sect (v579536AY 
17 X274_HPYTAL46F1O NAO3 136.06B 520B/sect (V5YBYATAY 
18 X274_HPYTAL46F1O NAO3 5320B/sect (V5Y9SENAY) 
19 X274_HPrTAL46F1O NAO3 320B/sect (v5ro4G9AY 
20 X274_HPYTAL46F1O NA03 520B/sect (V5r9488AY 
21 X274_HPYTAL46F1O NAO3 520B/sect (V5Y9LLRAY 
22 74_HPYTAL46F1O NA03 520D/sect (v5r9PUUAY 
23 X274_HPYTAL46F1O NAO3 520B/Sect (V5YOR3NA: 
24 X274_HPYTAL46F1O NAO3 520B/Sect (V5YOT6PA: 
25 X274_HPYTAL46F1O NAO3 5208/sect (v5Y5PBVA: 
26 X274_HPYTAL46FLO NA03 520B/sect (V5YOPYUA: 
27 闪 74-HPYTAL46FLO NA03 520B/sect (V5Y9SGIA: 
328 当 74-HPYTAL46FLO NAO3 520B/sect (v5YOSKNA: 
29 X274_HPYTAL46F1O NAO3 520B/sect (V5Y9540A: 
到 X274_HPYTAL46F1O NAO3 85ect (VaroR7eA 
33 X274_HPYTALA6FLO NAO3 520B/sect (v5Y9GHDA: 
34 X274_HPYTAL46F1O NA03 520B/sect (V5Y9VISA. 
3 并 74-HPYTAL45FLO NAQ3 320B/Sect (V5Y9JPHA: 
36 X274_HPYTAL46F1O NAO3 520B/sect (V5YOREH 
37 X274_HPYTAL46F1O NAO3 520B/sect (V5YOMVNA: 
38 X274_HPrTAL4GF1O NA03 320B/sect (V5rAGB3A: 
39 X274_HPYTALA6F1O NA03 520B/sect (V5YAGPBA: 
40 X274_HPYTAL46F1O NAO3 520B/Sect (V5YONOS 
41 74_HPYTAL46F10 NAD3 520D/Sect (V5YAGWWA: 
42 : NETAPP X274_HPYTAL46F1O NAO3 520B/sect (V5YOPPKA: 
43 :; NETAPP 。 X274-HPYTAL46FLO NAD3 520B/sect (V5YAGHWA: 
44 ;NETAPP X274_HPYTAL46F1O NAO3 520B/sect (V5YONGY) 
45 : NETAPP 。 X274_HPYTAL46F1O NAO3 520B/sect (V5Y9MYEA 
shelf 1: ESH2 Firmware rev. ESH A: 19 ESH B: 19 


Shelf 2: ESH2 Firmware rev. ESH A; 19 ES3H B: 19 
1/0 base 0x0000ce00, size 0x100 
Memory mapped Ifo bsse dxers0900, 3512804000 
slor 0: FE Host Adaprer Ob Coual-channel, QLogic 3322 rev. 3, 64-bit, L-port, <Up>) 
Firmware rev: 3.3.25 
Host foop Id: 了 FC Node Nane: 5:00a:098300:007542 
CacheTine siz2e: 16 FC Packer si29: 2048 
SRA parity: es External GBI 
Link bara Rare: 2 Gbic 
16 : NETAPP X274_HPYTAI46F1O NAO3 


520B/sect (V5YORLAA. 


17 : NETAPP X274_HPYTAL46F1O NAO3 520B/sect (V5Y95PN 

18 ; NETAPP X274_HPYTAL4GFLO NAD3 3208/Sect (V5YoMzD/ 

19 : NETAPP X274_HPYTAL46F1O NAO3 520B/sect 《VY5Y90LSA: 
20 : METAPP 。 X274-HPYTAL46FLO NAO3 520B/Sect 《V5Y9NSXA: 
21 ; NETAPP 。 yx274-HPYTAL46FLO NAO3 520B/5ect 《v5Y9N7zA: 
22 : NETAPP 。 X274-HPYTAL46FLO NAO3 520B/sect (V5Y95DEA. 
23 : NETAPP X274-HPYTAL46FIO NAO3 520B/Sect 《V5Y9SKT 

24 : NETAPP 。 >274HPYTAL46FLO NAO3 520B/sect 《v5Y9K53 

25 : NETAPP 。 X274-HPYTAL46FLO NAO3 520B/sect 〔《VY5Y95MwA: 
26 : NETAPP 。 X274-HPYTAL46FLO NAO3 520B/Sect (V5Y9N90A: 
27 : NETApp 。 >x274-HPYTAL46FLO NAO3 520B/sect 《v5YopLKA: 
28 : NETAPP 。 X274-HPYTAL46FLO NAO3 520B/sect (V5Y95I3A. 
29 : NETAPP X274_HPYTAL4A6FLO NAD3 53208/Sect (V5Y95EIA. 
32 : METAPP X274_HpYTALAGFLO NAO3 520B/sect (V5Yos7LA 
33 : NETAPP X274_HPYTAL46F1O NAO3 520B/sect (V5YOKOEA. 
34 : NETAPP X274_HPrTAL46FLO NAO3 520B/Sect 【v5Y9K37A: 
35 : NETApP 。 x274-HPYTAL46FLO NAO3 520B/sect (V5YONABA. 
36 : NETAPP X274_HPYTAL46F1O NAO3 520B/sect (V5Y9SONA. 
37 : NETAPP X274_HPYTAL46FLO NAO3 3208/Sect 《V5Y9IVRA: 
38 : NETAPP X274_HPYTAI46F1O NAO3 136.06B 520B/sect (V5Y9RZHA: 
39 : NETAPP Xa/4_HPYTALIOFLO NAU3 136. 0GB YUB/sect (VyYSMXAA, 
4D : NETAPP X274_HPYTAl46FIO NA03 136,0G3 5208/sect (V5YSPUTA. 
41 : NETAPP X274_HPYTAL46FLO NA03 136.0G3 5208/sect (v5YSJUNA. 
42 ; NETAPP X274_HPYTAL46FIO NA03 136.0G3 520B/sect 《V5YSNO7A， 
43 ; NETAPP 。 X274-HPYTAL46FLO NA03 136.0G3 5208/sect (v5YOSLWA. 
44 : NETAPP X274_HPYTAl46F1O NA03 136,0G3 5208/sect (v5YMV4A. 
45 : NETAPP X274_HPYTAL46FLO NA03 136.0G3 5208/sect 《V5Y948NA. 


Shelf 1: ESH2 Firmare rev, ESH A: 19 ESH 日 19 
She1f 2: ESH2 Firmare rev, ESH A: 19 ESH 8: 19 

I/0 base 0x0000cf00，size 0x100 

mpnnryv manner T/0 hasp Oxp1R41000. «17p Oi 000 


图 12-20 系统 硬盘 列表 
图 12-21 所 示 的 是 系统 中 目前 还 没有 被 分 配 到 RG 中 的 磁盘 ， 标 为 Spare， 共 16 块 。 


spare disks 


RAID Disk Device HA SHELF BAY CHAN Poo] Type RPM Used (MB/blks) Phys (mB/blks) 


Spare disks for block or zoned checksum traditional volumes or aggregates 


spare 0a.22 oa 1 6 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed; 
spare 0a23 0a 1 7 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare oa 1 8 — FCAL 10000 136000/278528000 137422/281442144 (tnot zeroed 
spare oa 1 9 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare 0a 1 10 ~ FCAL 10000 136000/278528000 137422/281442144 《not zeroed: 
spare oa 和 4 - FCAL 10000 136000/278528000 137422/281442144 (not zeroed; 
spare 0a 1 12 -~ FCAL 10000 136000/278528000 137422/281442144 (tnot zeroed 
spare 0a 1 13 - FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare 0a 2 6 - FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare oa 27 - FCAL 10000 136000/278528000 137422/281442144 (not zeroed: 
spare oa 2 8 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare 0a 2 9 — FCAL 10000 136000/278528000 137422/281442144 《not zeroed 
spare oa 2 10 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare oa 2 1 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare 0a 2 12 — FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare oa 2 13 — FCAL 10000 136000/278528000 137422/281442144 《not zeroed 


图 12-21 Spare 硬盘 列表 
使 用 “aggr create” 命 令 创 建 一 个 aggr， 如 图 12-22 所 示 。“-r 6” 参 数 表 示 每 个 RG 最 大 
允许 包含 6 块 磁盘 , 如 果 超 过 6 块 , 则 自动 形成 男 一 个 RG;“-traid_dp” 参数 表示 RG 的 RAID 
类 型 为 RAIDDP ( 这 种 RAID 类 型 本 书 不 做 描述 ， 具 体 可 以 在 Intemet 上 搜索 ) ; 12 表示 这 个 
aggr 包含 12 块 盘 。 计算 一 下 这 样 正 好 可 以 形成 两 个 RG, 每 个 RG6 块 盘 。 “aggrtest” 为 这 个 aggr 
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的 名 字 。 


MelonHead> aggr creare ai 


Thu In 9 14:42. 


X274_HPYTAL46F10 NAO3] 让 [v5YA6HwA] to 
12:08 co [Mel SR 二 raid. vol.d 
VSY 


Th 
Pp 
Th 
Pp 
Th 


[9 


Jun 19 14: 


EE 
EME 
SNS 
记忆 
SE 
Eel 

已 


p 
Th 


2 
s 
§ 
bt 
9 
人 
时 


24 _HPYTALAG 
Thu Jun 19 14:12 
X274_HPYTAL46! 
Thu Jun 19 14;12 
X274_HPYTAL46! 


Thu Jun 19 14:12 
X274_HPYTA146! 
Thu Jun 19 14:12: 
X274_HPYTAL46! 


yx274_HPYTA146i 
Thu Jun 19 14:12: 

yx274_HPYTAL46i 
creatfon of an al 
MelonHead> Thu ] 


MelonHead> 


grrest -r 6 -t raid_dp 12 
08 CST PeTenneag: rajdrvo1 -99sk .add 


a 

re 
aggregat， 
caid ve? .338395 


E10 NAD3 
:08 CST 
F10 NAO3 


S/N 区 3YAawwa to EE gregate 
Me1onHead: raid.vol. disk,add 
S/N [V5Y5P8VA] to. ea 
:08 CST [me1onHead: raid.vol.disk.add 
E19 Wao3], Sdn, [VSYorePA] Colagar erase 
:08 CST [melontiead: raid.vol.disk.add 
E10 NA03] SAN, [YSYonosAl to- ager eoate 
08 CST [welonHead: raid.vol.disk.add 
E19 MAO3 Ta99 es 

8 CST d.vol. dfsk. add 
NAO3] S/N [V5YAGPBA] to 95 
8 CST_[MelonHiead; raid,.vol. disk,add 
S/N [V5Y9PUUA] 
08 CST [welonHiead: raid. 
E10 RAD3] E/N" [SSYA693A] Yo 399g5egafe 
ggregate with 12 disks_has completed. 
un 19 14:12:09 CsT [MelonHead: wafl.v' 


B28 
858 


F10 M03 0013989339 


vol. disk. add 


图 12-22 创建 aggr 


创建 好 的 aggr 中 有 两 个 分 别 包含 6 块 盘 的 RG， 如 图 


MelonHead> sysconfi 
Aggregate aggrtest Le raid_dp) 
Plex /aggrtest/plexO (oniine, norma 


12-23 所 示 。 


block checksums) 
active) 


RAID group /aggrtest/plexO/rgo Cnormal) 


RAID Disk Device HA SHELF BAY 


0a. 0a 
pe 0a.22 0a 1 6 
data 0a.39 0a 时 是 
data 0a.23 0a 和 业 里 
data 0a.40 0a | | 
data 0a.24 0a 1 8 


CHAN Poo1 Type RPM Used (MB/blks) 


1 00 
136000/278528000 


FC:A 10000 

FC:A 一 10000 136000/278528000 
FC:A 一 10000 136000/278528000 
FC:A - 10000 136000/278528000 
FC:A - 10000 136000/278528000 


RAID group /aggrtest/plexO/rgl (normal) 


RAID Disk Device HA SHELF BAY 
dparity 0a.25 0a : 外 
parity 0a.41 oa 2 9 
data 0a.26 0a 1 10 
data 0a.42 0a 2 10 
data 0a.27 0a 了 也 
data 0a.43 0a 也 
图 12-23 


CHAN Poo1 Type Used (MB/blks) 

136000/278528000 
136000/278528000 
136000/278528000 
136000/278528000 
136000/278528000 
136000/278528000 


aggrtest 中 包含 两 个 RG 


(MB/b1lks) 


Ft .44 
137422/281442144 
137422/281442144 
137422/281442144 
137422/281442144 
137422/281442144 


Phys (me/blks) 

137422/281442144 
137422/281442144 
137422/281442144 
137422/281442144 
137422/281442144 
137422/281442144 


刚 创建 好 的 aggr 名 为 aggrtest， 大 小 为 955GB， 其 中 给 快照 预 留 的 空间 为 47GB， 实 际 可 用 
在 线 存 储 用 户 数据 的 空间 为 008GB， 如 图 12-24 所 示 。 


MelonHead> dt -Ah 
Aggregate 

aggr2 

er snapshot 


3 snapshot 


vo10/. snapshot 

gottast 
use: snapshot 

MelonHead> 国 


total used avail SS 
340GB 12MB 340GB 
17GB 63MB 17GB O% 
340GB 20GB 320GB 6% 
17GB 63MB 17GB 0OX 
95GB 822MB 94GB 1% 
23GB 57MB 23GB 0% 
908GB 164kB 908GB 0% 
47GB 0GB 47GB 0% 


图 12-24 aggr 的 空间 分 布 


2. 在 aggr 中 创建 Vol 


即 卷 , 是 凌驾 于 aggr 之 上 的 一 层 虚 拟 化 产物 ， 目 的 是 为 了 更 加 灵活 地 取 用 aggr 所 提供 


的 存储 空间 。Vol 可 以 任意 创建 删除 ， 任 


如 图 12-25 所 示 ， 在 aggrtest 中 创建 了 一 个 名 为 voltest， 然 后 将 ofnine 删除 。 


此 


简单 ， 命 令 发 出 之 后 立即 生效 。 


E 意 增加 或 者 减 小 容量 。 


这 个 过 程 非常 
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MelonHead> vol create voltest 和 500G 

creation of volume ‘voltest’ with size 500g on containing aggregate 

SE has completed. 

MelonHead> vol off1ine voltest 

Thu Jun 19 14:17:09 CST [MelonHead: waf1.vvo1.offline:info]: volume “voltesT” has been set temporarily offline 
Volume 'voltest' is now offline. 

velonHead> vol destroy voltest 

Are YOU sure You want to destroy this volume? y 

Thu Jun 19 14:17:16 CST [MelonHead: wafl.vvol.destroyed:info]: Volume voltest destroyed. 


Volume 'voltest' destroyed. 
图 12-25 创建 /删除 一 个 Vol 
在 aggrtest 上 创建 两 个 卷 : iSCSIL 和 iSCSI2， 大 小 均 为 300GB ， 如 图 12-26 所 示 。 


MelonHead> vD1_create iscsil aggrtest 300G 

creation of volume 'iscsi1i' with size 300g on containing aggregate 
va9grrest。 has completed. 
MelonHead> vo1 create iscsi2 aggrtest 300G 

creation of volume “iscsi2 wi size 300g on containing aggregate 
Wane has completed. 

Me 


onHead> 国 
图 12-26 创建 两 个 新 卷 
3. 在 Vol 中 创建 LUN 


LUN 是 最 终 提交 给 主机 使 用 的 一 块 存储 空间 ，NetApp 将 LUN 容纳 于 Vol 的 空间 之 下 ， 
且 LUN 也 可 以 任意 增 、 删 、 扩 、 缩 。 
在 每 个 Vol 中 分 别 创建 一 个 大 小 为 200GB 的 LUN， 如 图 12-27 所 示 。 


MelonHead> lun create -s 2Z00G -t windows /vol1/iscsil/iscsi1unl 
un create: created a LUN of size: 200.09g (214778511360) 
MelonHead> lun create -s 200G -t windows /vol/iscsi2/iscsilun2 
1un create: created a LUN of size: 200.0g (214778511360) 


MelonHead> 上 国 
图 12-27 创建 LUN 


4. 创建 Igroup 并 映射 LUN 


所 谓 Igroup, 是 用 来 管理 LUN - 主机 映射 关系 的 。 本 书 前 文中 描述 过 这 种 灵活 的 映射 关系 。 
Igroup 就 像 一 个 桥梁 ,主机 和 LUN 如 果 都 映射 到 某 个 Igoup ,那么 这 台 主 机 就 可 以 访问 这 些 LUN。 

如 图 12-28 所 示 ， 创 建 一 个 名 为 IG 的 iSCSI 类 型 的 Igroup， 并 将 它 映射 到 了 一 个 主机 端的 
iSCSI Initiator 的 IQN 地 址 。 接 着 ,将 两 个 LUN 都 映射 到 了 这 个 Igroup 中 。 


MelonHead> igroup create -i -t windows IG iqn.1991-05.com.microsoft:dongz-xp.ab.iscsil.com 

MelonHead> lun map /vol/iscsi1l/iscsilunl IG 

Thu Jun 19 16:58:00 CST el olead: Jun.map:info]: LUN /vol/iscsi1/iscsilunl was mapped to initiator group IG=0 
MelonHead> lun map /vol/iscsi2/iscsilun2 IG 

Thu Jun 19 16:58:14 CST [MelonHead: Tun.map:info]: LUN /vol/iscsi2/iscsilun2 was mapped to initiator group 1G=1 


we1lonHead> 国 
图 12-28 创建 Igroup 并 映射 LUN 和 主机 
12.9.2 第 二 步 : 在 主机 端 挂 载 LUN 


1. 确认 主机 端的 IQN 名 称 
确认 主机 端 SCSI Initiator 的 IQN 名 称 是 否 与 Igroup 中 所 配置 的 一 致 ， 如 图 12-29 所 示 。 
2. 添加 iSCSI Target 端 地 址 


添加 iSCSI Target 端 地 址 ， 发 现 其 上 的 LUN， 如 图 12-30 和 图 12-31 所 示 。 
已 经 发 现 iSCSI 目标 ， 但 处 于 未 激活 状态 。 


[ 泣 
下 
Oy 
已 
乞 
dl 
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Ci aun alae 二 9 
Vite Neo Nowe i i0108 eennirao org 
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汪汪 和 a rr 
ee 
Taue Psec TarelMide esdeser, tik 人 re eeeteee rr pane end code merer fe ootalyod 
en pepo 
addene or DNS ramet Fort 
hows po RAR 


[mr | 
DK Cancd Appb CK Cance Apply 
图 12-29 IQN 名 称 图 12-30 添加 iSCSI Target 端 地 址 


Genaal| Discover Taroets | Peisen Tagste| Bound Vohmes/Devices| 


Select a larget and dick Log Dn to accese he torage device forthat 
target Cheh dois to see rematon about the seseore comnectpn 
evces for hal tget 


Dalal Loaon. Rehesh 


| 二 后 
图 12-31 添加 完成 图 12-32 未 激活 状态 的 Targe 


3. 激活 iSCSI 目标 端 ,发现 LUN 


单 击 图 12-32 中 的 Log On 按钮 ， 如 图 12-33 所 示 。 
单 击 OK 按钮 后 ， 可 以 在 图 12-34 中 看 到 ， 目 标 已 经 连接 ， 此 时 LUN 会 被 主机 识别 到 。 


| 
Geneal| Discovery Tagets | Parsitert Tatgels | Bourd Volumes/Devices| Seneal | Dacovery Tarcets | Peniseni Targets | EoundVobmes/Devices| 
Select a target and clck Log On lo access the storage devices for that a jn to accere ， dovicer 
tet hho oe Poration he Wo sendo a cart end DR 
dover fer thattoraet doces tonihat mo 
ca Name T saus ] 
[2 0 on 208 eon ropapp en TC 134517 Torneried 
Atonaticaly restore is connecton when the system boots 
厂 Enabl multi-path 
入 Cnly select ths option FF SCSI muti-path software ts already installed 
on Your compusr, 


Ee 若 


I 
Deak logOn. Refresh [= | pereh 


3 area EE ok Cancel EE 
图 12-33 激活 iSCSI 目标 图 12-34 处 于 激活 状态 的 iSCSI 目标 
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4. 使 用 LUN 


如 图 12-35 所 示 ， 在 主机 的 磁盘 管理 器 中 会 发 现 两 块 未 初始 化 的 磁盘 ， 其 对 应 的 是 存储 设 
备 上 的 两 个 LUN。 
初始 化 之 后 格式 化 这 两 块 磁盘 (LUN ) ， 如 图 12-36 所 示 。 


atl sarae 


由 动 vecandoppcdbm 


图 12-35 新 识别 到 的 两 个 LUN 图 12-36 初始 化 之 后 格式 化 磁盘 
如 图 12-37 和 图 12-38 所 示 ， 这 两 块 磁盘 已 经 可 以 正常 使 用 了 。 


EY 
oi 
a wn 
Lp 
2 后 
图 12-37 磁盘 状况 正常 图 12-38 “我 的 电脑 ”显示 的 磁 抢 


12.10 iSCSI 卡 Boot 配置 示例 


上 文 提 过 iSCSI 卡 ， 即 向 操作 系统 表现 为 一 块 SCSI 卡 ， 底 层 却 用 IP 网 络 来 传输 SCSI 协议 
和 数据 。 本 节 介绍 如 何 配置 系统 从 iSCSI 启动 。 在 阅读 本 节 之 前 最 好 先 阅读 9.9 节 ， 本 节 介 绍 的 
内 容 与 FC Boot 过 程 类 似 。 

如 图 12-39 所 示 ， 系 统 加 电 后 进入 iSCSI 卡 的 Optional ROM 配置 界面 。 首 先 配置 iSCSI 
Initiator 端的 信息 ， 比 如 卫 地 址 、 网 关 地 址 等 。 配 置 完 后 进入 Target 端 配置 界面 。 

配置 Target 端的 卫 地 址 和 IQN 名 ， 如 图 12-40 所 示 。 配 置 完 毕 后 退出 。 在 系统 主 Bios 中 
配置 已 经 识别 到 的 iSCSI LUN 作为 第 一 启动 盘 ， 如 图 12-41 所 示 。 
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图 12-39 配置 iSCSI Initiator 端 图 12-40 配置 iSCSI Target 端 信息 I 


图 12-42 所 示 为 Intel Pro 1000/PT iSCSI 卡 的 配置 界面 


Dell Ine. (wdell.con) ~ PowerElge 1898 


Intels Xeon” Processor BIOS Version: AG2 
Processor Speed; 3.98 cz Service Tag ; 9f12571 


图 12-41 主 Bios 中 配置 第 一 启动 盘 I 图 12-42 Intel Pro 1000/PT iSCSI 卡 的 配置 界面 
当 iSCSI 卡 配置 完成 之 后 ， 系 统 重启 的 过 程 中 会 出 现 类 似 图 12-43 所 示 的 界面 。 


图 12-43 配置 完毕 系统 重启 之 后 的 界面 


12.11 10Gb 以 太 网 的 威力 初 显 


2010 年 3 月 ,Microsoft 与 Intel 合作 进行 了 一 项 在 10Gb/s 以 太 网 之 上 基于 iSCSI 协议 的 IOPS 
及 吞吐 量 测试 .测试 中 硬件 使 用 基于 Intel Xeon processor 5580 CPU 的 服务 器 ,以 及 基于 Intel 82599 


10 Gigabit Ethernet Controller 的 10Gb/s 以 太 网 适配器 ; 操作 2 


可 以 用 Windows Server 2008 R2， 


第 12 章 异军突起 一 一 存储 网 络 的 新 军 IP SAN @ 


以 及 Microsoft iSCSI Initiator 软件 ; 存储 端 使 用 StarWind 公司 的 iSCSI Target 软件 ， 交 换 机 使 用 
Cisco Nexus 5020 10Gb/s 以 太 网 交换 机 。 整 个 系统 中 使 用 10 台 iSCSI Target Server 和 1 台 iSCSI 
Client，Client 使 用 单 10Gb/s 以 太 网 口 连 接 交换 机 。 在 512Byte IO Size 和 连续 IO 条 件 下 ， 获 得 
了 双向 总 共 超过 100 万 的 IOPS 值 。 如 图 12-44 所 示 分 别 为 IOPS 和 吞吐 量 ( 双向 ) 。 


Intel" 92599 10 Gigabit Ethernet Controller Single Port Read/Vrite Throughput Performance 


Intel 82599 10 Gigablt Ethernet Controller Single Port Read/vrite IOPS Performance 


1000000 中 mo 
B00000 和 

OPS soo0o0 本 
400000 4 
200000 2 


Sl Wk 2 Kk Bk ek ak 64K lzax 256¢ Sax IM 52 Kk a XK Bk ek axk 5K leek 256k Siak IM 
Wo sze (Bytes) Wo See (Bytes) 


图 12-44 10Gb/s 以 太 网 的 IOPS 和 吞 叶 量 

当然 , 连续 小 块 IO 是 最 能 够 获得 高 IOPS 的 IO 方式 , 并 且 测 试 使 用 的 硬件 和 软件 都 是 做 了 
充分 优化 的 ， 比 如 Intel@ 82599 适配器 开启 了 众多 的 Offhload， 包 括 Checksum、Large Send 等 ， 
以 及 针对 Intel Xeon5000 系列 CPU 的 一 些 额 外 优化 ， 比 如 在 中 断 和 DMA 方面 。 

这 个 测试 的 目的 是 为 了 饱和 链 路 的 IOPS, 证 明了 10Gb/s 以 太 网 + 软 iSCSI Initiator 在 经 过 优 
化 设置 之 后 , 完全 有 能 力 饱 和 底层 链 路 的 IOPS 和 带宽 。 目 前 业界 对 TCP/IP+ 以 太 网 组 合 的 协议 
效率 有 很 多 质疑 ， 质 疑 其 效率 非常 低 ， 有 人 甚至 说 效率 只 有 50%， 这 完全 是 无 稽 之 谈 。 

随 着 整个 网 络 骨 干 速度 的 提升 ， 以 太 网 取代 不 开放 的 FC 平台 ， 是 迟早 的 事情 。 


12.12 小 结 


IP SAN 出 现 之 后 ，FC SAN 的 统治 地 位 被 大 大 地 动摇 了 。FC 目前 唯一 可 以 用 来 与 IP SAN 
抗衡 的 武器 ， 就 是 其 高 速度 。 但 是 这 个 武器 的 震慑 力也 在 降低 。 我 们 可 以 发 现 ， 以 太 网 的 速度 每 
次 革新 都 是 以 10 倍速 为 单位 ， 从 10Mb/s 到 100Mb/s、1Gb/s，10Gb/s 速率 的 以 太 网 也 已 经 发 布 
了 。 而 FC 每 次 革新 均 以 2 倍速 为 单位 ， 从 一 开始 的 1Gb/s、2Gb/s， 到 目前 正在 被 广泛 使 用 的 
4Gb/s 速率 ,而 FC 的 下 一 个 速率 级 别 为 8Gb/s (或 者 10Gb/s ) ， 而 且 这 个 标准 还 正在 制定 当中 。 
以 太 网 已 经 在 计划 上 抢先 了 FC 一 步 。 不 知道 在 10Gb/s 时 代 ，FC 还 能 不 能 守住 它 那 仅 有 的 一 点 
点 沙漠 绿洲 。 

说 明 : 现在 已 经 出 现 了 HyperSCSI 以 及 ATA over Ethemet 这 两 种 欲 抛 弃 略 显 低 效 的 TCP/AP 

协议 而 男 立 门派 的 协议 , 但 是 由 于 各 种 原因 ， 尚 未 得 到 推广 。 
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第 3 


握手 言 和 一 一 IP 与 FC 融合 的 结果 


。 FC 
。 Jp 

” 协议 之 间 的 相互 作用 
， 协议 融合 


才 


话说 FC 和 卫 各 占 一 方 , 谁 也 不 让 谁 , 互相 竞争 了 数 年 ， 
两 者 各 立 门 派 ， 势 不 两 立 。 但 是 “ 夫 天 下 之 势 ， 分 久 必 合 ， 
合 久 必 分 ”。 

数 年 来 , 两 者 在 市 场 上 竞争 得 可 谓 你 死 我 活 。FC 仅仅 拿 
着 FC SAN 的 速度 和 稳定 性 来 炮 稻 耳 SAN ,而 卫 也 不 甘 示 弱 ， 
处 处 举 着 可 扩展 性 和 成 本 的 大 旗 , 声讨 FC SAN, 闹 得 江湖 上 
风 风 雨 雨 。FC 凭借 着 它 的 速度 优势 ， 占 据 了 高 端 市 场 , 而 卫 
则 以 成 本 优势 在 低 端 市 场 占据 了 一 席 之 地 。 然 而 两 人 谁 都 想 
一 统 天 下 ， 把 对 方 彻底 驱逐 出 市 场 ， 但 是 ， 相 持 了 数 年 ， 谁 
也 没 能 把 谁 干掉 ， 两 人 都 累 了 。 这 么 多 年 的 互相 攻击 ， 谁 也 
没有 取得 丝毫 胜利 ，FC 还 是 稳固 地 占据 高 端 市 场 ，IP 依然 
驰 怠 低 端 。 

终于 有 一 天 ,FC 和 卫 决定 握手 言 和 ,不 再 投入 无 谓 的 
人 力 、 物 力 、 财 力 来 和 对 方 竞争 。 与 其 大 肆 攻 击 对 方 ， 不 如 
多 用 点 精力 来 提升 和 发 展 自身 的 技术 , 同时 学 习 对 方 的 技术 ， 
取长补短 ， 方 为 正道 啊 ! FC 和 卫 彻夜 长 谈 ， 终 于 取得 了 一 
致 的 见解 ,决定 双方 各 取 所 长 ， 共 同 为 江湖 做 贡献 。 

首先 ，FC 决定 由 卫 入 股 自己 的 公司 ,给 FC SAN 提供 
更 高 的 扩展 性 架构 解决 方案 ; 同时，FC 也 入 股 P 的 公司 ， 
给 卫 提供 研发 经 费 ， 用 于 其 研发 出 基于 以 太 网 的 、 新 型 的 、 
适合 存储 区 域 网 络 的 专用 协议 体系 。 
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13.1 FC 的 窘境 


入 股 FC 公司 之 后 , IP 便 开始 研究 如 何 将 FC 协议 体系 转向 可 扩展 的 、 开 放 的 结构 。 说 到 可 
扩展 且 开放 的 网 络 传输 协议 , 一定 非 TCP/IP 莫 属 。 可 是 FC 和 TCP/IP 是 两 套 毫 不 相干 的 协议 
体系 ,如 果 将 FC 全 部 转 为 TCP/PP, 那 岂 不 是 叛变 成 IP SAN 了 么 ? 但 是 如 果 丝 毫 不 变 , 那 只 能 
是 FC SAN， 还 是 不 具备 开放 和 扩展 性 。 


1. FC 的 扩展 性 问题 


FC 为 什么 扩展 性 差 ?就 是 因为 如 果 通 信 双 方 距离 太 远 的 话 ， 需 要 自己 架设 光缆 ， 或 者 租用 
电信 的 专线 光缆 ， 这 两 者 成 本 都 很 高 。 如 果 租 用 电信 部 门 的 专线 光缆 ， 则 FC 最 低速 度 为 1Gb/s， 
且 租 用 电信 部 门 的 1Gb/s 带宽 的 专线 光缆 ， 其 费用 不 是 一 般 机 构 能 承担 的 。 

提示 : 目前 电信 提供 的 专线 接 入 ， 其 骨干 网 一 般 采 用 PDH 或 者 SDH 协议 传输 ， 到 终端 用 

户 所 能 承受 的 速率 为 2Mb/s 的 El1 线路 。 当 然 也 可 以 直接 从 高 速 骨 干 网 直接 分 离 出 相对 高 速 

的 线路 ， 比 如 0C3、0C48 等 ， 但 是 费用 还 是 过 于 高 郧 ， 令 人 无 法 承受 。 


El 线路 有 自己 的 编码 格式 ， 不 能 将 电信 部 门 接 入 的 光纤 直接 插 到 FC 设备 上 ， 因 为 两 端的 
编码 方式 不 同 , 不 能 和 局 端的 设备 建立 连接 , 所 以 需要 增加 一 个 协议 转换 设备 ( 准确 来 说 是 协议 
隧道 封装 设备 ) ， 将 E1 协议 解 封装 ， 转 换 成 协 转 设备 后 面 的 协议 逻辑 ， 比 如 V35 串口 、 以 太 网 
等 其 他 协议 。 目 前 已 经 存在 FC over Sonet、FC over ATM 等 协 转 设备 了 , 不 过 这 些 专 线 的 扩展 性 
仍然 不 强 ， 而 且 这 种 方案 以 及 对 应 的 设备 也 非常 昂贵 和 稀少 。 
目前 看 来 ， 如 果 要 扩展 FC 网 络 ， 让 相隔 很 远 的 两 地 之 间 用 上 FC 协议 ， 最 好 的 办 法 就 是 自 
己 架 设 专用 光缆 。 可 是 自己 架设 光缆 也 只 能 在 自己 可 控 的 范围 内 , 比如 一 个 大 厂区 之 内 , 但 是 如 
果 是 在 市 内 ,或 者 两 个 城市 、 两 个 省 之 间 ， 私 自 架设 光缆 是 绝对 被 禁止 的 。 


2. 解决 方案 


怎么 办 ? 首先 , 要 走出 去 , 就 一 定 要 租用 电信 部 门 的 线路 。 电 信 提 供 了 两 种 线路 : 一 种 是 接 
到 Internet 的 线路 ， 也 就 是 接 入 电信 部 门 的 Internet 运营 网 络 ， 通 信 的 双方 都 接 入 ， 并 且 使 用 
TCP/IP 通信 ; 另 一 种 就 是 光缆 专线 ， 也 就 是 通信 的 双方 都 接 入 电信 部 门 的 专用 传输 骨干 网 络 ， 
这 条 专线 端 到 端的 带宽 由 接 入 提供 商 保证 ， 只 要 两 端的 设备 支持 ， 其 上 可 以 运行 任何 上 层 协议 。 
上 层 帧 会 被 底层 封装 协议 (比如 El 等 ) 再 成 帧 传送 到 电信 部 门 骨干 传输 网 络 中 。 

虽然 Internet 接 入 可 以 获得 100Mb/s 或 者 1000Mb/s 的 速率 ,但 是 这 只 是 本 地 带宽 ( 从 本 地 
到 局 端 设备 之 间 的 链 路 带宽 ) ， 端 到 端的 带宽 ， 以 现在 的 电信 部 门 TCP/IP 网 络 环境 ,除非 购买 
接 入 商 的 QOS 或 者 MPLS TE 服务 ,否则 没有 人 能 够 保证 两 点 间 的 通路 带宽 ( 速率 ) 。 


提示 : 如 果 两 地 之 间 相 距 很 近 , 那么 不 妨 考虑 Intermet 链 路 。 因 为 如 果 两 地 同时 接 入 相同 城 
市 的 ISP 网 络 , 数据 包 被 路 由 的 跳 数 就 不 会 很 高 , 甚至 有 可 能 只 经 过 1 跳 或 者 2 跳 便 可 以 被 
对 方 收 到 。 更 有 其 者 , 同城 的 两 地 可 能 连接 在 局 端的 同一 台 设 备 上 。 这 样 可 获得 的 带宽 速率 
就 会 非常 可 观 , 就 可 以 像 在 内 网 通信 一 样 利 用 VPN 来 让 两 个 站 点 之 间 联 通 。 但 要 澄清 一 点 ， 
由 于 Intemet 链 路 不 能 时 刻 保 障 稳定 的 带宽 ， 所 以 这 种 方法 只 适合 对 数据 传输 实时 性 要 求 不 
高 , 但 同时 又 要 求 高 带宽 的 情况 。 
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而 专用 线路 虽然 保证 了 带宽 ， 但 是 只 能 承受 E1 等 低速 专线 ， 且 价格 相对 Intemet 接 入 要 贵 
很 多 。 而 且 目 前 只 有 V35 - E1 封装 解 封 设备 和 E1 一 以 太 网 封装 解 封 设备 ， 并 没有 E1 一 FC 封装 
解 封 设备 。 而 V35 串口 和 以 太 网 这 两 种 二 层 协 议 ， 都 普遍 被 用 来 承载 IP 协议， 所 以 目前 来 说 ， 
E1 一 般 用 来 承载 IP 作为 网 络 层 协 议 。 有 些 路 由 器 自 带 E1 封装 解 封 模块 ， 可 以 不 用 外 接 协 转 ， 
直接 连接 从 光端机 分 离 出 来 的 一 路 或 者 几 路 G703 或 者 BNC 接头 , 直接 编码 与 解码 E1 协议 。 但 
是 这 些 也 都 是 人 P 路 由 器 ， 和 FC 丝毫 没有 关系 。 

可 以 看 出 , FC 如 果 脱 离 了 “后 端 专用 ”这 四 个 字 到 开放 领域 , 显然 是 无 法 生存 的 。 而 IP SAN， 
则 软 硬 通 吃 ， 只 要 有 IP 的 地 方 , 不管 其 下 层 是 什么 链 路 协议 ,就 可 以 部 署 IP SAN。 这 就 是 为 何 
称 TCP/IP 为 协议 中 的 秦始皇 的 原因 : 秦始皇 统一 了 货币 ， 到 哪里 都 通用 ,同样 ，TCP/IP 也 统 
一 了 下 层 凌 乱 的 各 种 协议 。 


13.2 ”协议 融合 的 迫切 性 


说 到 这 里 , 租用 Internet 线路 ， 只 能 承载 也 ， 而 租用 点 对 点 专线 ,也 普遍 用 来 承载 也, 可 能 
感觉 FC 的 扩展 似乎 就 是 死路 一 条 了 。 但 是 , IP 想起 了 ISCSI， 当 初 自己 不 就 是 把 SCSI 协议 给 封 
装 到 了 TCP/IP 协议 中 来 传输 ， 才 扩展 了 SCSI 协议 么 ? 也 就 是 说 如 果 将 一 种 协议 封装 到 另 一 种 
协议 中 传输 ， 就 可 以 使 用 另 一 种 协议 带 来 相应 的 好 处 了 。 不 妨 就 这 么 假设 一 下 ，FC 不 可 扩展 ， 
TCP/IP 扩展 性 很 强 ， 那么 如 果 把 FC 协议 封装 到 TCPVIP 协议 中 来 传输 ， 是 不 是 也 可 以 获得 
TCP/IP 的 扩展 性 呢 ? 这 个 想法 比较 大 胆 , 因为 FC 本 身 也 是 作为 一 种 可 以 传输 其 他 协议 的 协议 ， 
FC 甚至 可 以 承载 IP， 作 为 IP 的 链 路 层 ， 那 么 为 什么 现在 却 反 过 头 来 需要 用 IP 来 承载 呢 ? 

提示 : Protocol over Protocol，PoP， 即 一 种 协议 被 打包 封装 或 者 映射 到 另 一 种 协议 之 上 。 这 

种 思想 在 网 络 协议 领域 中 经 常 使 用 。 我 们 姑且 称 其 为 “协议 融合 ”, 认为 其 已 经 可 以 形成 一 

个 独立 的 科目 。 

要 谈 协议 融合 ， 还 得 从 以 太 网 和 TCP/P 说 起 。 

1. 以 太 网 和 TCP/IP 一 一 不 能 不 说 的 故事 

前 面 已 经 详细 介绍 了 以 太 网 和 TCP/IP 协议 。 我 们 知道 ， 以 太 网 是 一 个 网 络 通信 协议 。 

提示 : 记得 某 人 曾经 说 过 一 句 话 : “网 络 就 是 水 晶 头 。” 这 句 话 比 较 有 意思 ， 它 反映 出 说 

这 句 话 的 人 对 网 络 的 不 了 解 , 但 是 也 证 明 他 平时 所 见 到 的 网 络 , 确实 只 有 水 蝇头, 且 以 太 网 

普遍 使 用 水 晶 头 , 这样 “网 络 就 是 水 晶 头 ”这 句 话 ,也 不 是 那么 可 笑 了 。 它 从 某 种 角度 也 反 

喘 出 了 以 太 网 在 当今 的 普及 程度 。 
前 面 讲 到 以 太 网 是 可 以 寻 址 的 ， 也 就 是 说 它 涉 及 了 OSI 第 三 层 网 络 层 的 内 容 。 大 家 都 连接 
到 一 个 以 太 网 环境 中 , 不 需要 任何 其 他 上 层 协议 ， 就 可 以 区 分 开 对 方 ， 进行 通信 。 既 然 这 样 ， 为 
什么 连 新 闻 联 播 的 主持 人 都 知道 Internet 是 利用 TCP/IP 协议 而 不 是 以 太 网 来 通信 呢 ? 为 何 我 们 
总 是 说 以 太 网 +TCP/IP 协议 二 元 组 ， 而 不 是 仅仅 说 以 太 网 ,或 者 TCP/IP 协议 ? 

因为 以 太 网 和 TCP/IP 协议 是 逻辑 上 分 开 的 , 它们 各 自 是 不 同 的 协议 体系 ,那么 为 什么 总 是 
把 它们 组 合 起 来 说 呢 ? 它们 之 间 有 什么 割舍 不 断 的 恩 恩怨 忽 呢 ? 这 其 中 原因 ， 还 要 从 IP 讲 起 。 


357 


日 大 话 存储 【终极 版 ] 一 一 存储 系统 底层 架构 原理 极限 剖析 


358 


2.IP 本 位 


前 面 也 说 过 了 ,IP 就 是 一 个 身份 标志 ， 是 用 来 与 其 他 人 区 别 的 一 个 中。 以 太 网 协议 中 规定 的 
MAC 地 址 ， 从 原理 上 讲 ， 就 足够 用 来 区 分 网 络 中 各 个 节点 了 。 但 是 前 面 也 分 析 过 ， 完 全 靠 MAC 
来 寻 址 的 缺点 : 一 是 MAC 地 址 太 长 ，48b， 用 于 路 由 寻 址 时 效率 太 低 ; 二 是 世界 上 并 不 是 每 个 环 
境 中 都 用 以 太 网 来 建立 网 络 , 除了 以 太 网 , 还 有 其 他 各 种 方式 的 网 络 系统 , 各 自 有 各 自 的 寻 址 方式 ， 
如 果 要 让 所 有 类 型 的 网 络 之 间 无 障碍 的 相互 通信 ， 就 需要 一 个 秦始皇 来 统一 天 下 的 货币 。 

IP 就 是 这 个 被 选中 的 货币 。 不 管 以 太 网 , 或 者 串口 协议 , 或 者 EDDI 等 类 的 局 域 网 方式 , 我 
们 最 终 都 要 让 其 之 间 相 互通 信 ， 才 能 形成 mternet。 

提示 : 如 果 你 是 秦始皇 ， 你 会 怎么 来 处 理 各 国 众多 的 货币 呢 ? 虽然 秦始皇 最 终 将 其 他 货 

回收 废除 了 ,但 是 耳 却 不 能 在 短 时 间 内 将 所 有 网 络 形式 都 废除 ， 而 用 以 太 网 统一 ， 因 为 现 

在 已 经 不 是 一 个 人 说 了 算 的 时 代 了 -秦始皇 可 以 在 各 个 使 用 不 同 货币 的 地 方 设立 一 个 专门 的 

兑换 机 构 ， 只 要 到 了 这 个 地 方 ， 就 兑换 成 这 里 使 用 的 货币 。 


同样 ,我 们 也 给 每 个 网 络 设立 一 个 网 络 地 址 兑换 设备 ， 也 就 是 协议 ， 将 统一 的 耳 地址 兑换 成 
这 个 网 络 的 自用 私有 地 址 , 用 这 种 方式 实现 各 种 类 型 网 络 的 相互 联通 。 网 络 中 的 兑换 机 制 , 是 通过 
ARP 协议 实现 的 , ARP 协议 可 以 将 一 种 网 络 地 址 映射 成 另 一 种 网 络 地 址 。 每 种 网 络 要 想 用 IP 来 统 
一 ， 都 必须 运行 各 自 的 ARP 协议 ， 比 如 以 太 网 中 的 ARP 协议 ， 帧 中 继 网 络 中 的 ARP 协议 等 。 

对 于 以 太 网 来 说 ，Z 就 是 统一 货币 ，MAC 就 是 以 太 网 货币 。 另 外 , 还 有 各 种 各 样 其 他 类 型 的 
货币 ， 比 如 主机 名 ( Hosmame ) 、 域 名 等 。 大 家 在 访问 网 站 的 时 候 ， 其 实 就 是 和 提供 网 站 服务 的 
服务 器 来 建立 通信 ,获取 它 的 网 页 和 其 他 服务 , 在 正 浏览 器 中 输入 这 个 网 站 的 域名 之 后 ，DNS 竞 
换 程 序 会 自动 向 DNS 服务 器 查询 , 获得 这 个 域名 所 对 应 的 人 P 地 址 , 然后 用 卫 地 址 与 服务 器 通信 。 

数据 包 带 着 IP 地 址 到 了 服务 器 所 在 的 局 域 网 之 后 ， 会 通过 局 域 网 的 路 由 器 发 出 ARP 请 求 ， 
来 把 IP 地 址 再 兑换 成 服务 器 所 在 局 域 网 络 的 地 址 。 如 果 服 务 器 所 在 的 局 域 网 是 以 太 网 ， 则 对 应 
成 MAC 地 址 ， 然 后 通过 以 太 网 交换 设备 ， 找 到 这 个 MAC 地 址 所 在 的 交换 机 端口 ， 将 数据 包 发 
向 这 个 端口 ， 从 而 被 服务 器 收 到 。 

为 什么 要 经 过 多 次 兑换 呢 ? 首先 把 IP 转换 成 域名 ， 是 为 了 方便 记忆 ,不 必 记忆 那些 复杂 的 
IP 地 址 ; 其 次 把 MAC 转换 为 卫 ， 是 为 了 天 下 统一 ， 相 互 流通 。 

其 实 如 果 所 有 人 都 用 以 太 网 联网 ， 那 么 就 可 以 完全 抛弃 IP 这 一 层 寻 址 了 ， 但 是 实际 是 不 可 
能 的 ,以 太 网 现在 还 没有 一 统 天 下 ， 而 且 就 算 一 统 天 下 了 ， 人 们 也 似乎 不 愿意 抛弃 IP, 就 像 在 同 
一 个 局 域 网 内 ， 还 是 用 IP 来 直接 通信 ， 而 不 是 直接 用 MAC。TCP/IP 实在 是 被 使 用 的 已 经 太 普 
遍 了 ， 以 至 于 就 算 牺牲 一 点 性 能 ， 局 域 网 内 通信 也 普遍 使 用 也。 而 实际 上 ,以 太 局 域 网 内 部 通信 
的 话 ，NetBEUI 协议 的 性 能 比 TCP/IP 协议 要 高 许多 。 

其 实 整个 Internet 不 仅仅 都 是 以 太 网 , 以 太 网 适合 局 域 网 联网 通信 , 但 是 不 适合 广域网 情况 ， 
广域网 的 联网 协议 ， 比如 PPP、HDLC、Frame Relay、x25、ATM 等 ， 也 像 以 太 网 一 样 各 有 各 的 
寻 址 体系 。 在 一 个 mternet 上 有 这 么 多 种 不 同 地 址 的 网 络 ， 它 们 之 间 若 要 相互 融合 、 寻 址 ， 就 必 
须 在 各 种 地 址 之 间 ， 相 互 翻译 、 转 换 、 映 射 ， 数 据 包 每 经 过 一 种 网 络 ， 就 转换 一 次 ， 这 样 非常 麻 
烦 。IP 地 址 的 出 现 使 得 所 有 联网 的 节点 ， 不 管用 的 是 以 太 网 ,还 是 Frame Relay， 统 统 都 分 配 一 
个 IP 地 址 给 每 个 节点 ， 对 外 最 终 以 IP 地 址 作为 寻 址 地 址 ， 而 将 P 地 址 再 映射 到 自己 所 在 网 络 
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的 所 使 用 的 地 址 上 ， 比 如 外 映射 到 以 太 网 的 MAC, 或 者 全 映射 到 Frame Relay 的 DLCI、 映射 
到 ATM 的 地 址 等 。 

用 来 进行 地 址 映射 的 程序 ， 称 为 Address Resolution Protocol， 即 ARP。 很 多 人 上 听 到 ARP， 就 
认为 是 以 太 网 ， 其 实 这 也 是 错误 的 ，ARP 不 仅仅 代表 以 太 网 中 的 全 地 址 和 MAC 地 址 的 映射 ， 它 
代表 任何 种 类 地 址 之 间 的 映射 对 应 关系 ,从 这 一 点 来 说 ,DNS 协议 也 应 该 归 入 广义 的 ARP 协议 中 。 

IP 统治 了 OSI 的 第 三 层 , 将 原来 占据 第 三 层 的 凌乱 地 址 种 类 统一 了 。 映 射 到 ( 承载 于 ) 以 
太 网 的 人 P, 称 为 IPoE( IPoE 也 就 是 “基于 以 太 网 的 TCP/IP”) ; 映射 到 帧 中 继 的 耳 , 称 为 IpoFR; 
映射 到 ATM 的 全， 称 为 IPoA 等 。 从 此 一 种 新 的 概念 诞生 了 : PoP， 即 Protocol over Protocol。 


3. IP 缺乏 传输 保障 功能 


IP 统一 了 天 下 还 不 够 ， 因 为 IP 最 大 的 作用 就 是 寻 址 和 路 由 以 及 适 配 链 路 层 MTU， 它 并 不 
提供 其 他 功能 ,而 作为 一 个 健全 的 网 络 传输 协议 , 必须 具有 传输 保障 功能 。 而 以 大 网 是 一 个 面向 
无 连接 的 网 络 ， 它 不 保障 数据 一 定 会 传送 的 对 方 , 是 一 个 不 负责 任 的 网 络 , 不 管 目的 端口 有 没有 
收 到 ， 源 端口 只 管 向 外 发 送 。 而 Frame Relay 协议 ， 其 前 身 x25 协议 ， 是 一 个 有 着 很 好 传输 保障 
功能 的 协议 ， 在 TCP/IP 没有 出 现 之 前 ，x25 的 传输 保障 机 制 做 得 非常 到 位 ， 因 为 x25 的 设计 初 


因 哮 废 食 了 ， 所 以 其 改良 版 本 Frame Relay， 就 逐渐 蔡 代 了 x25，FR 抛弃 了 x25 中 很 多 无 谓 的 传 
输 保障 机 制 ， 而 仅仅 留 下 一 些 流 控 机 制 。 相 对 于 以 太 网 的 不 负责 任 ，FR 起码 在 链 路 层面 ， 实 现 
了 比较 好 的 流 控 措施 。 

但 是 , 不 管 是 以 太 网 , 还 是 FR， 都 没有 实现 端 到 端的 传输 保障 。 端 到 端 ， 是 相对 于 “过 路 ” 
来 说 的 。 过 路 是 指 在 两 个 终端 之 间 通 信 路 径 上 的 网 络 设备 之 间 的 路 径 。 链 路 层 的 传输 保障 就 是 一 
种 过 路 保障 ， 因 为 链 路 层 只 保证 相连 的 两 个 设备 之 间 传 送 数据 正常 无 误 , 但 是 不 能 保障 通信 和 最终 
端 接收 和 发 送 的 数据 正常 无 误 。 因 为 在 一 个 典型 的 包 交 换 网 络 中 , 数据 包 一 般 都 是 一 跳 一 跳 地 被 
传送 的 ， 每 一 跳 两 端的 设备 用 链 路 层 协议 进行 传输 保障 。 

但 是 最 终 目 的 是 要 让 通信 的 最 终 两 端 无 误 地 收 到 数据 ， 才 能 算 作 真 正 的 传输 保障 ， 即 端 到 端 
的 保障 。 而 FR 协议 所 做 的 ， 只 是 在 过 路 的 时 候 保障 链 路 正确 传输 。 如 果 链 路 正确 传输 给 了 终端 ， 
而 终端 到 最 终 上 层 的 某 个 环节 出 错 了 , 那么 数据 同样 也 是 错误 的 , 所 以 , 要 实现 端 到 端的 传输 保障 ， 
一 定 要 在 最 终 传输 终端 上 运行 一 个 侦 错 和 纠 错 逻辑 ， 用 来 发 现 链 路 层 所 发 现 不 了 的 错误 。 图 13-1 
为 端 到 端 保障 与 过 路 保障 的 示意 图 。 


端 到 端 保障 


a 二/ 


运行 TCP < > 运行 TCP 
三 次 握手 ， 建 立 连接 


过 路 保障 过 路 保障 


| | i 
图 13-1 过 路 保障 与 端 到 端的 保障 运行 中 IP 及 其 下 层 链 路 层 协议 
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4. TCP 保驾 护航 


为 了 实现 这 个 目的 ，TCP 出 现 了 。TCP 作为 一 个 程序 运行 在 通信 的 两 个 终点 ， 不 管 两 点 之 
间 用 什么 样 的 链 路 连接 ， 经 过 了 多 少 网 络 设备 ，TCP 程序 始终 运行 在 通信 终端 上 ， 监 控 终 端 最 
终 发 送 和 接收 到 的 数据 包 的 顺序 、 缓 存 区 、 校 验 等 信息 ,检查 是 否 出 现 丢 包 、 阻 塞 等 事件 ,一 旦 
发 现 错误 ， 立 刻 纠正 重 发 数据 包 。 

TCP 不 是 运行 在 通信 路 径 上 的 ， 而 是 运行 在 通信 终点 的 两 端 设备 上 。 即 使 过 路 链 路 保障 机 
制 再 健全 ，TCP 也 是 有 必要 的 ， 因 为 数据 包 只 有 被 终端 正确 接收 到 ， 才 能 算 真正 的 传输 保障 。 

所 以 , 在 全 之 上 ,又 凌驾 了 一 层 TCP 逻辑 ， 用 来 保障 端 到 端的 无 误 传输 。 而 FR 等 链 路 层 
协议 的 保障 机 制 ， 只 能 保障 本 段 链 路 传输 无 误 , 不 能 保障 端 到 端的 正确 收发 ,所 以 只 能 沦 为 数据 
链 路 层 协议 的 角色 了 ， 用 来 承载 中 和 TCP。 

我 们 可 以 体会 到 , 协议 之 间 也 是 在 互相 利用 , 互相 排挤 、 知 并 及 融合 ， 以 适应 不 同 的 应 用 环 
境 , 因为 不 可 能 为 每 一 种 应 用 环境 都 设计 一 种 协议 , 协议 之 间 互 相 利 用 、 融 合 , 才 是 最 好 的 解决 
办 法 。 


5. 最 佳 拍档 一 一 TCP/IP 和 以 太 网 


现在 可 以 回答 上 面 没 有 找到 答案 的 那个 问题 了 ， 为 什么 以 太 网 偏 要 和 “TCP/IP 组 合成 一 对 
呢 ? 因 为 以 太 网 使 用 得 太 广泛 了 ， 而 OSI 的 第 三 层 、 第 四 层 ， 也 几乎 被 P、TCP 给 统一 了 ， 所 
以 以 太 网 +TCP/IP， 当 然 就 成 了 一 对 好 搭档 了 。 

虽然 一 个 协议 可 能 实现 OSI 的 所 有 7 个 层次 ,但 是 如 果 它 要 和 其 他 协议 合作 ， 那 么 就 要 有 
个 分 工 ， 而 不 能 越权 ， 比 如 IPoA、ATM 只 要 传输 IP 包 到 目的 就 可 以 ， 而 不 管 数 据 是 否 出 错 、 
乱 序 等 ,虽然 ATM 可 能 有 这 个 功能 。 以 太 网 虽然 自己 可 以 寻 址 ， 但 是 它 还 是 配合 也， 进行 PP 
到 MAC 的 映射 ， 统 一 使 用 耳 寻 址 ， 它 默默 无 闻 ， 所 有 光辉 都 被 TCP/IP 所 披挂 。 


13.3 ”网 络 通信 协议 的 四 级 结构 


网 络 通信 协议 ， 一 般 可 以 分 成 Payload 层 、 信 息 表示 层 、 交 互 逻辑 层 和 寻 址 层 。 其 中 最 重要 
的 是 交互 逻辑 层 ， 它 是 一 个 协议 的 灵魂 。 


1. Payload 层 


Payload 是 协议 所 承载 的 与 本 协议 逻辑 无 关 的 最 终 数据 ， 是 通信 终端 通过 本 协议 最 终 需 要 传 
送 给 对 方 的 数据 。Payload 也 就 是 协议 所 运输 的 货物 。Payload 层 中 的 数据 ， 既 可 以 是 最 终 应 用 产 
生 的 数据 ， 也 可 以 是 另 一 种 协议 的 信息 表示 层 +Payload 数据 。 如 果 Payload 封装 的 是 最 终 应 用 产 
生 的 数据 , 则 表示 这 个 协议 是 直接 被 上 层 应 用 程序 来 调用 , 从 而 完成 程序 之 间 的 远程 网 络 通信 的 。 

如 果 Payload 封装 的 是 另 一 种 协议 的 信息 表示 层 +Payload 数据 ， 那 么 就 证 明 这 个 协议 此 时 正 
在 承载 那个 协议 。 比 如 协议 A 封装 了 协议 B 的 信息 表示 层 +Payload， 则 就 可 以 说 协议 A 封装 了 
协议 B, 或 者 协议 A 承载 了 7 协议 B, 或 者 说 协议 Bisover 协议 A (BoA ) 。 我 们 后 面 会 描述 一 种 
协议 被 Map (映射 ) 到 另 一 种 协议 ， 而 不 是 被 封装 ， 这 种 融合 方式 称 为 AmB， 是 彻底 的 协议 转 
换 ， 而 不 是 仅仅 做 隧道 封装 。 
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2. 信息 表示 层 


信息 表示 层 就 是 附加 在 Payload 数据 之 外 的 一 段 数据 ， 也 称 作协 议 开销 ， 因 为 这 段 数据 和 最 
终 应 用 程序 无 关 , 是 运行 在 通信 双方 的 通信 协议 用 来 交互 各 自 的 状态 ,从 而 使 双方 做 出 正确 动作 
的 一 段 重要 数据 。 这 段 数据 可 以 想象 成 提货 单 或 者 信封 。 信 封 封装 了 信纸 ,信封 上 的 地 址 、 姓 名 
等 信息 ， 就 是 信息 表示 层 ， 它 可 以 让 对 方 检测 到 当前 通信 所 处 的 状态 。 


3. 交互 逻辑 层 


这 一 层 其 实 就 是 运行 在 通信 双方 协议 系统 上 的 动作 程序 代码 逻辑 , 它 根据 对 方 传送 过 来 的 信 
息 表示 层 数据 来 做 出 相应 的 动作 逻辑 , 再 生成 自己 的 信息 表示 层 发 送 给 对 方 , 然后 对 方 再 做 相同 
的 处 理 判 断 动 作 ， 就 这 样 完成 通信 双方 之 间 的 正确 动作 。 交 互 逻辑 层 其 实 就 是 协议 的 设计 思想 。 
交互 逻辑 层 对 于 每 种 协议 都 不 相同 ， 但 是 很 多 都 类 似 ， 可 以 说 网 络 通信 协议 基本 思想 是 类 似 的， 
因为 它们 所 实现 的 目的 都 是 一 样 的 ， 就 是 将 数据 通过 网 络 传输 到 目的 地 。 
正 因为 如 此 , 各 种 协议 的 交互 逻辑 层 才 可 以 相互 融会 贯通 , 将 一 种 协议 的 逻辑 , 映射 翻译 到 
另 一 种 协议 的 逻辑 ， 从 而 将 各 种 协议 的 优点 结合 起 来 ,完成 目标 。 协 议 逻 辑 层 一 般 都 是 运行 在 通 
信 双 方 两 端的 , 但 是 像 IP 路 由 协议 等 ， 通 信 双 方 经 过 的 路 径 上 的 所 有 设备 ， 也 都 需要 运行 ， 因 
为 耳 包 是 一 跳 一 跳 被 接收 并 且 转 发 的 。 


4. 寻 址 层 


它 是 帮助 协议 来 找到 需要 通信 的 目标 的 一 套 编 址 和 寻 址 机 制 。 比 如 IP 地 址 、MAC 地 址 、 
DLCI 地 址 、 电 话 号 码 等 。 如 果 是 点 对 点 传输 协议 ， 则 可 以 忽略 此 层 ， 因 为 不 需要 寻 址 。 而 且 不 
同 协议 之 间 的 寻 址 层 ， 可 以 互相 映射 翻译 。 

以 上 的 这 四 层 , 是 任何 一 个 网 络 通信 协议 所 必须 具备 的 ,不 管 多 么 简单 或 者 多 么 复杂 的 协议 。 


5. 通信 协议 的 相似 性 


相似 性 是 通信 协议 之 间 相互 融合 的 一 个 条 件 。 而 协议 之 间 相互 融合 的 另 一 个 促成 因素 , 就 是 
协议 使 用 广泛 程度 不 同 ， 有 时 如 果 要 完成 一 个 目标 ， 不 得 不 借用 某 种 协议 。 

就 像 TCP/P 协议 , TCP/IP 协议 占领 了 全 球 Intemet 的 领地 。 如果 有 一 种 协议 想 跨越 地 域 或 

国家 来 进行 通信 , 但 是 自己 又 无 能 为 力 , 因为 它 首先 没有 专门 为 它 准备 的 物理 线路 , 其 次 它 的 设 
计 ， 也 不 适合 大 范围 、 长 距离 的 广域网 环境 , 那么 它 只 能 来 租用 TCP/IP 协议 , 将 自己 封装 到 人 P 
包 中 传送 。 能 适合 Internet 规模 的 网 络 通信 协议 , 唯 TCP/IP 莫 属 ! 而 其 他 协议 想 要 完成 Internet 
范围 的 通信 ， 就 不 得 不 借助 TCP/IP， 搭 TCP/IP 的 车 ， 让 TCP/VIP 来 承载 它们 。 它 们 是 怎么 搭 
上 TCP/IP 的 快车 呢 ? 
我 们 不 妨 类 比 一 下 。 在 整理 本 章 的 时 候 , 恰 逢 大 连 刚刚 开通 了 一 稻 新 的 火车 箱 滚 装 船 。 我 想 
用 这 个 例子 来 比喻 协议 融合 , 再 适合 不 过 了 。 从 山东 烟台 到 大 连 , 最 近 的 路 径 就 是 走 渤海 湾 水 路 ， 
如 果 搭 乘 陆路 火车 ， 则 需要 绕 一 大 圈 ， 所 以 很 多 货运 汽车 ,甚至 火车 ， 都 选择 乘 船 到 大 连 ， 下 船 
后 ,车 厢 用 火车 头 拉 走 这样, 在 增加 很 少 成 本 的 条 件 下 ， 节 约 了 大 量 时 间 。 协 议 融 合同 样 遵循 
这 个 原则 ， 只 要 能 使 总 体 拥有 成 本 降低 ， 性 价 比 提高 ， 任 何 协议 都 可 以 融合 。 
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13.4 协议 融合 的 三 种 方式 


协议 和 协议 之 间 的 相互 作用 ， 有 三 种 基本 的 思想 。 
m ”第 一 种 是 调用 ( Use ) ， 也 就 是 一 种 协议 完全 利用 另 一 种 协议 。 
m 第 二 种 是 隧道 封装 (Tunnel ) ， 一 种 协议 将 另 一 种 协议 的 完整 数据 包 全 打包 隧道 
封装 到 新 协议 数据 包 中 。 
sm ”第 三 种 是 映射 (Map ) ， 也 就 是 一 种 协议 对 另 一 种 协议 进行 映射 翻译 ， 只 将 原来 协 
议 的 Payload 层 数据 提取 出 来 ， 重 新 打包 到 新 协议 数据 包 中 。 


1. 调用 关系 


所 谓 调用 , 也 就 是 一 种 协议 自身 没有 某 些 功能 , 需要 使 用 另 一 种 协议 提供 的 功能 。 比 如 TCP 
调用 IP， 因 为 TCP 没有 寻 址 功能 ， 所 以 它 利用 I 了 P 来 寻 址 。 而 了 P 又 可 以 调用 以 太 网 , 因为 人 P 只 
有 寻 址 功能 ， 它 没有 链 路 传输 的 功能 ， 所 以 它 利用 以 太 网 提供 的 链 路 传输 ( 交换 机 、Hub 等 ) 。 。 
IP 调用 PPP 来 传输 等 ， 也 就 是 上 层 协议 为 了 达到 通信 目的 ， 使 用 另 一 种 协议 为 其 服务 。 这 种 关 
系 严 格 来 说 ， 不 算是 融合 。 


2. 隧道 关系 


隧道 封装 ， 顾 名 思 义 ， 就 是 将 一 种 协议 的 完整 数据 包 ( 包括 Payload 和 协议 开销 ) 作为 另 一 

种 协议 的 Payload 来 进行 封装 ， 打 包 传 输 到 目的 地 ， 然 后 解 开外 层 协议 的 封装 信息 ， 露 出 内 部 被 
封装 承载 的 协议 完整 数据 包 ， 再 提交 给 内 层 协 议 处 理 逻 辑 模 块 进行 处 理 。 也 就 是 说 , 进行 协议 转 
换 的 设备 根本 就 不 需要 去 理解 内 层 协议 到 底 是 什么 东西 , 到 底 想 要 干什么 , 只 要 将 数据 包 统 统 打 
包 发 出 去 。Tunnel 的 出 现 ， 往 往 是 由 于 被 Tunnel 的 协议 虽然 和 外 层 协议 都 在 某 一 方面 具有 相似 
甚至 相同 的 功能 ， 但 是 在 某 些 特定 的 条 件 下 ， 被 Tunnel 协议 不 比 外 层 协议 表现 得 优秀 ， 不 适合 
某 种 特定 的 环境 ， 而 这 种 环境 ， 恰 恰 被 外 层 协议 所 适合 。 这 就 像 用 船 来 装 火 车 箱 一 样 。Tunnel 
的 另 一 个 目的 是 伪装 内 层 协 议 。 


3. 映射 关系 


Map 是 比 Tunnel 更 复杂 、 更 彻底 的 协议 融合 方式 。 所 谓 Map， 也 就 是 映射 ， 就 是 将 内 层 协 
议 的 部 分 或 者 全 部 逻辑 , 映射 翻译 到 外 层 协议 对 应 的 功能 相似 的 逻辑 上 ， 而 不 是 仅仅 做 简单 的 封 
装 。Map 相对 于 Tunnel， 是 内 外 层 协 议 的 一 种 最 彻底 的 融合 ， 它 将 两 种 协议 的 优点 ， 融 合 得 天 
衣 无 颖 。 内 层 协 议 的 Payload 层 在 Map 动作 中 是 不 会 改动 的 ， 因 为 Payload 层 的 数据 只 有 两 端 通 
信 的 应 用 程序 才能 理解 。 


13.5 Tunnel 和 Map 融合 方式 各 论 


例如 火车 、 汽 车 是 两 种 运输 工具 ,它们 看 似 有 太 多 的 不 同 , 但 是 它们 的 功能 都 是 相同 的 ， 
是 将 货物 运送 到 目的 地 。 而 火车 需要 在 铁道 上 跑 ， a 路 上 跑 ( 物理 层 不 同 , 链 路 
不 同 ) ; 火车 因为 铁轨 很 平滑 ， 需 要 用 钢铁 轮子 ， 而 汽车 因为 公路 很 颠 艇 ， 需 要 用 充气 轮胎 ; 火 
车 不 需要 红绿灯 来 制约 , 而 汽车 在 公路 跑 上 , 会 有 很 多 红绿灯 来 制约 它 ; 火车 由 于 跑 在 专用 的 铁 
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轨 上 ， 所 以 它 能 达到 很 高 的 时 速 ， 而 汽车 由 于 在 共享 的 公路 上 跑 , 它 能 , 但 是 不 敢 达 到 太 高 的 时 
速 ; 火车 只 能 按照 它 的 轨道 来 运行 ， 而 汽车 几乎 随处 可 去 …… 

以 上 列举 出 了 火车 和 汽车 的 种 种 特点 , 相应 地 飞机 、 轮 船 、 火 箭 等 都 可 以 拿 来 对 比 , 这 些 特 
点 就 像 各 种 通信 协议 自身 的 特点 一 样 。 同 样 都 是 运输 货物 , 但 是 它们 都 适应 了 不 同 的 需要 。 只 不 
过 网 络 通信 协议 运输 的 不 是 货物 ， 而 是 一 串 0 和 1， 是 高 低 变 化 的 电 平 ， 是 数据 ， 是 信息 。 不 同 
的 通信 协议 同样 也 是 为 了 满足 不 同 的 情况 、 不 同 的 需求 。TCP/IP 协议 满足 了 Intermet 范围 的 网 
络 通信 ; FC 协议 满足 了 后 端 存储 的 专用 高 速 公路 这 个 环境 ， 二 者 都 各 自 占有 自己 的 领地 ， 谁 也 
取代 不 了 谁 。 就 像 铁路 不 可 能 为 了 和 民航 竞争 ， 而 把 轨道 往 天 上 修 ,航空 公司 也 不 可 能 为 了 和 陆 
运 公司 竞争 ， 而 让 飞机 跑 在 公路 上 。 

TCP/IP 适合 整个 Internet 范围 的 通信 ， 而 SCSI 协议 不 适合 ， 所 以 如 果 SCSI 协议 需要 跨越 大 
范围 通信 ， 就 要 将 其 承载 到 TCP/IP 上 ， 也 就 形成 了 iSCSI 协议 ,然而 TCP/IP 根本 就 不 关心 什么 
是 SCSI, 更 不 知道 SCSI 是 怎样 一 种 作用 逻辑 ， 它 只 是 负责 封装 并 传输 。 同样 ， 因 为 以 太 网 是 个 面 
向 无 连接 的 网 络 ， 没 有 握手 过 程 ， 也 没有 必要 有 终端 认证 机 制 、 没 有 NCP 机 制 (PPP 协议 中 用 来 
协商 上 层 协议 参数 的 机 制 ) ， 而 PPP 却 有 这 些 机 制 ， 它 非常 适合 ISP 用 来 对 接 入 终端 进行 认证 和 
管理 ,但 是 PPP 的 使 用 程度 远 远 不 如 以 太 网 广泛 ， 怎 么 办 ? 融合 吧 ! 于 是 形成 了 PPPoE 协议 。 


13.5.1 Tunnel 方 式 


ISCSI 和 PPPoE 这 两 个 协议 ， 是 典型 的 Tunnel 模式 。 前 面 已 经 给 Tunnel 下 过 定义 了 。 首先 
一 种 PoP 的 模式 被 定义 为 Tunnel 的 前 提 ， 就 是 这 两 种 协议 对 某 一 特定 的 功能 均 有 自己 的 实现 。 
如 果 一 种 协议 在 某 方面 的 功能 ， 另 一 种 协议 没有 实现 ， 那 么 另 一 种 协议 就 是 “调用 ” 那 种 协议 ， 
而 不 是 被 Tunnel 到 那 种 协议 。 比 如 ，IPoE 就 是 典型 的 调用 ， 而 不 是 Tunnel 或 者 Map ， 因 为 中 
没有 链 路 层 功能 。 

注意 : IP 与 Ethermet 之 间 的 编 址 迎 辑 是 映射 关系 而 不 是 使 用 关系 ， 即 卫 地 址 与 MAC 地 址 

的 相互 映射 。 


用 iSCSI 来 分 析 , TCP/IP 可 以 实现 寻 址 和 传输 保障 , SCSI 协议 也 可 以 实现 寻 址 和 传输 保障 ， 
所 以 它们 具备 了 这 个 前 提 ; 同样 , PPPoE 也 是 一 种 Tunnel 方式 的 融合 协议 , 因为 PPP 和 Ethernet 
都 是 链 路 层 协议 。 


1.VPN 的 引入 


Tunnel 的 另 一 个 作用 ， 就 是 伪装 。 有 时 候 虽 然 两 种 协议 实现 的 功能 、 适 用 环境 都 相同 ， 但 
还 是 将 其 中 一 种 Tunnel 到 另 一 种 之 上 ， 这 是 为 什么 呢 ? 有 些 情况 确实 需要 这 种 实现 方式 。 比 如 
IP 协议 中 的 GRE， 通 用 路 由 封装 ， 就 是 这 样 一 种 协议 。 它 将 IP 协议 承载 到 IP 协议 本 身 之 上 ， 
自己 承载 自己 ， 再 封装 一 层 ， 这 样 就 可 以 使 得 一 些 不 能 在 公 网 路 由 的 IP 包 ， 封 装 到 可 以 在 公 网 
路 由 的 钙 包 之 中 ， 到 达 目 的 地 后 再 解 开封 装 ， 露 出 原来 的 卫 包 ， 再 次 路 由 。 这 就 是 伪装 。 
利用 这 种 思想 ， 人 们 设计 出 了 VPN， 即 Virtual Private Network， 用 来 将 相隔 千里 的 两 个 内 
部 网 络 ， 通 过 Internet 连接 起 来 ， 两 端 就 像 在 一 个 内 网 一 样 ， 经 过 Internet 的 时 候 ， 使 用 公 网 地 
址 封装 内 网 的 人 P 包 。 这 是 最 简单 的 VPN。 在 这 基础 上 , 又 可 以 对 IP 包 进 行 加 密 、 反 修改 等 , 形 
成 IPSec 体系 ,将 其 和 原始 的 VPN 结合 ， 形 成 了 带 加 密 和 反 修 改 的 IPSec VPN， 真正 使 得 这 种 
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PoP 穿越 外 层 协议 的 时 候 ， 能 够 保障 数据 安全 。 


2. 例 解 Tunnel 


下 面 再 举 个 例子 来 说 明 ， 到 底 什么 是 Tunnel。 

邮政 系统 ， 目 前 已 经 是 举步维艰 。21 世纪 之 前 ， 网 络 还 不 很 普及 ,除了 电话 、 电 报 ， 写 信 
似乎 是 大 家 长 距离 通信 的 唯一 选择 。 寄 信人 将 自己 的 信件 (数据 ，Payload ) 装 入 信封 ( 协议 信息 
表示 层 数据 段 ) ， 填 好 收 信人 人 地址、 邮编 、 名 称 ( 通信 协议 的 信息 表示 层 、 寻 址 层 ) 等 ， 交 给 邮 
局 ( 网络 交 换 路 由 设备 ) ， 由 邮局 进行 层 层 路 由 转发 ， 最 终 到 达 目 的 地 。 

IP 网 络 和 邮政 系统 极其 相似 。 而 为 什么 邮政 系统 目前 已 经 陷入 了 困境 呢 ? 原因 就 是 竞争 。 

进入 21 世纪 之 后 ， 物 流 业 快速 兴起 ， 它 们 借助 公路 、 水 路 、 航 路 、 铁 路 等 “ 链 路 层 ” ,加 
上 自己 的 一 套 流 程 体系 ( 协议 交互 逻辑 ) ， 充 分 利用 这 些 资 源 达 到 物流 目的 。 以 前 只 有 邮政 一 种 
方式 ,而 现在 出 现 了 许多 的 物流 公司 , 每 个 公司 都 有 自己 不 同 的 物流 体系 , 但 是 基本 思想 大 同 小 
异 ， 都 是 要 将 用 户 的 货物 运送 到 目的 地 。 

21 世纪 ， 虽 然 网 络 已 经 很 发 过 ， 但 是 网 络 只 能 走 信 息 流 ， 走 不 了 实物 流 。 所 以 物流 公司 还 
是 能 占据 一 定 市 场 。 

提示 : 我 们 来 看 看 21 世纪 ， 用户 是 怎么 来 寄 出 一 封 信件 或 者 包 里 的 。 同 样 寄 出 一 封 信 ， 如 

果 还 是 用 古老 的 协议 ， 比 如 信封 + 80 分 邮票 的 形式 ， 还 是 可 以 的 ， 大 街 上 现在 还 有 邮 简 。 

但 是 很 多 快递 公司 也 提供 信件 包 庄 服务 ， 只 不 过 他 们 用 的 信封 ， 比 普通 信封 大 、 结 实 ， 而且 

他 们 信封 上 的 标签 , 所 包含 的 信息 更 加 具体 和 丰富 ， 比 如 增加 了 收 件 人 电话 、 发 件 日 期 、 受 

理 人 签字 、 委 托 人 签字 等 。 邮 政信 封 具有 的 ， 快 递 信封 都 具有 。 


这 样 就 可 以 看 出 这 两 种 协议 的 不 同 之 处 了 。 用 户 可 以 把 信件 封装 到 邮政 普通 信封 直接 发 送 ， 
也 可 以 封装 到 快递 公司 信封 中 发 送 ， 也 就 是 选用 其 中 一 种 协议 。 

那么 如 果 用 户 先 把 信件 ( 最 终 数据 ) 封装 到 普通 信封 中 , 填 好 信封 头 信息 ( 协议 信息 表示 层 
和 和 寻 址 层 ) ， 然 后 将 封装 好 的 普通 信封 ,再 封装 到 快递 公司 的 信封 中 , 并 再 次 填 一 份 快递 公司 的 
信封 头 信 息 ; 快递 公司 按照 这 些 信 息 , 将 信件 送 到 目的 地 ， 目 的 收 到 之 后 , 解 开外 层 信封 ， 然 后 
解读 内 层 信封 的 信息 头 ， 再 次 转发 ,或 者 直接 打开 。 刚才 描述 的 这 种 情况 ， 就 是 一 个 典型 的 协议 
Tunnel 方式 的 相互 作用 ,把 邮政 协议 Tunnel 到 快递 公司 的 协议 , 这 种 Tunnel 的 目的 , 就 是 为 了 
获得 快速 、 优 质 的 服务 ， 因 为 普通 邮政 协议 提供 不 了 快速 高 效 的 服务 。 

思考 : 我 们 再 来 看 这 种 情况 ， 比 如 快递 公司 A， 在 北京 没有 自己 的 送 货机 构 ， 但 是 青岛 有 

人 需要 向 北京 送 货 ， 怎 么 办 ? 


此 时 当然 要 考虑 借助 在 北京 有 送 货机 构 的 快递 公司 B, 让 他 们 代 送 , 将 信件 封装 到 快递 公司 
A 的 信封 ,然后 再 将 A 的 信封 装 入 快递 公司 B 的 信封 ,让 快递 公司 B 做 转发 ,到 目的 地 之 后 ,B 
的 送 货 员 剥 开外 层 信封 ， 最 终 用 户 会 收 到 一 个 快递 公司 A 的 信封 ， 客 户 就 认为 是 快递 公司 A 全 
程 护送 过 来 的 ， 其 实 不 是 。 这 样 就 很 好 地 伪装 了 信件 。 这 是 Tunnel 的 另 一 个 目的 。 

13.5.2 Map 方式 


说 完了 Tunnel， 我 们 再 来 说 说 Map。Map 就 是 将 一 种 协议 的 逻辑 ， 翻 译 映 射 成 男 一 种 协议 
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的 逻辑 ，Payload 数据 完全 不 变 ， 达 到 两 种 协议 部 分 或 者 完全 融合 。 

还 是 快递 公司 的 例子 。 两 个 快递 公司 ( 两 种 协议 ) ,快递 公司 A 在 青岛 没有 自己 的 送 货机 
构 , 但 是 B 有 。 所 以 A 和 B 达成 协议 ，A 将 青岛 地 区 的 送 货 外 包 给 B， 凡 是 A 公司 在 青岛 的 业 
务 , 都 由 B 来 运送 , 但 是 表面 上 必须 保持 A 的 原样 ， 这 种 方式 目前 实际 已 经 广泛 使 用 。 起 初 的 
做 法 是 : 先 将 客户 信件 装 入 A 信封 ,然后 再 封装 一 层 B 信封 , 带 着 A 信封 来 转发 , 也 就 是 Tunnel。 
后 来 , B 公司 嫌 这 种 方法 浪费 成 本 , 因为 额外 携带 了 一 个 A 信封 , 这 增加 了 信件 的 重量 和 信封 成 
本 。 所 以 B 公司 琢磨 出 一 套 方法 : 

先 让 B 公司 的 取 件 人 了 解 寄 件 人 所 要 提供 的 信息 ， 此 时 取 件 人 担当 A 公司 的 角色 ， 用 户 认 
为 取 件 人 是 A 公司 的 ， 用 户 按照 A 公司 的 协议 ， 将 信封 头 信息 告 诉 取 件 人 ; 然后 取 件 人 此 时 并 
没有 将 信件 装 入 A 公司 信封 ， 而 是 直接 装 入 了 B 公司 信封 ,但 是 在 填写 B 公司 信封 头 的 时 候 ， 
取 件 人 将 用 户 提供 的 针对 A 公司 特有 的 信封 头 信息 ， 转 换 翻 译 成 B 公司 特有 的 信封 头 信息 ; 经 
过 B 公司 转发 ， 到 达 目 的 地 之 后 ， 送 货 员 再 次 将 B 公司 的 信封 头 信息 ， 转 换 翻 译 成 A 公司 所 特 
有 的 信封 头 信息 。 

这 样 ， 两 端的 用 户 ， 同 样 也 丝毫 感觉 不 出 中 间 环 节 其 实 是 B 公司 完成 的 。 但 是 这 种 方式 相 
对 于 Tunnel 方式 的 确 节约 了 B 公司 的 成 本 ， 使 得 开销 变 小 了 ， 提 高 了 转发 效率 。 这 种 方式 的 协 
议 之 间 的 相互 作用 ， 就 是 Map。 


1. IP 和 以 太 网 之 间 的 寻 址 关系 Map 


最 简单 的 Map 就 是 IP 和 以 太 网 之 间 的 寻 址 关系 Map。IP 地 址 必须 映射 到 MAC 地 址 , 才能 
享受 以 太 网 的 服务 。 正 如 IP 和 以 太 网 之 间 的 Use+Map 关系 一 样 ， 实 际 上 ,各 种 协议 之 间 的 相互 
作用 ， 不 可 能 只 是 其 中 一 种 作用 方式 : 寻 址 体系 之 间 一 定 需 要 Map ( 同 种 协议 自身 Tunnel 的 情 
况 除 外 ) ， 交 互 逻 辑 层 可 以 Tunnel， 也 可 以 Map，Payload 一 定 需 要 Tunnel。 所 以 针对 协议 不 同 
的 层次 ， 都 有 相对 应 的 相互 作用 方式 。 


2. 协议 交互 逻辑 的 Map 


协议 交互 逻辑 的 Map， 比 寻 址 层 的 Map 要 复杂 得 多 。 寻 址 层 的 Map 只 要 维护 一 张 映射 表 就 
可 以 ， 交 互 逻 辑 的 Map 则 需要 维护 一 个 代码 转换 逻辑 模块 。 

两 种 协议 的 状态 机 的 互相 融合 作用 是 很 复杂 的 。 比 如 TCP 的 流 控 机 制 和 FC 协议 的 流 控 机 制 
之 间 的 Map, TCP 是 靠 窗 口 机 制 实现 端 到 端的 流 控 , FC 靠 Buffer to Buffer( 过 路 流 控 ) 和 End to End 
( 端 到 端 流 控 ) 两 种 机 制 实现 流 控 。 如 果 把 FC 协议 承载 到 TCP/IP 协议 之 上 , 那么 就 会 出 现 Tunnel 
模式 和 Map 模式 ， 当 然 Tunnel 中 也 可 能 需要 Map ，Map 中 也 同样 需要 一 定 的 Tunnel 成 分 。 

我 们 不 妨 称 作 : 以 Tunnel 为 主 的 模式 和 以 Map 为 主 的 模式 。 

如 果 是 Tunnel 为 主 的 模式 ， 那 么 TCP/IP 根本 不 管 FC 协议 的 交互 逻辑 是 怎样 的 ，TCP 仅 
仅 把 FC 当成 Payload 来 封装 并 传送 。 

而 Map 模式 中 ， 进 行 Map 操作 的 设备 或 者 软件 ， 就 需要 既 了 解 TCP/VIP 协议 的 交互 逻辑 ， 
又 了 解 FC 协议 的 交互 逻辑 ， 因 为 只 有 了 解 了 双方 的 逻辑 ， 才 有 可 能 进行 Map。 比 如 ，FC 协议 
发 出 了 一 个 信号 ， 说 本 方 缓存 将 满 ， 请 降低 发 送 速度 。Map 设备 收 到 这 个 信号 之 后 ， 就 会 Map 
成 TCP/P 可 识别 的 信号 ， 即 本 方 处 理 受 阻 ， 窗 口 减 小 至 某 某 数值 ， 这 就 是 FC 协议 到 TCP/IP 
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协议 关于 流 控 机 制 Map 的 一 个 方法 。 
如 果 在 Tunnel 模式 中 ，FC 协议 发 出 的 这 个 流 控 信 号 ， 则 会 被 TCP/IP 给 Tunnel 传送 到 对 
方 ， 然 后 再 由 对 方 的 FC 协议 模块 来 根据 这 个 信号 来 判断 流 控 机 制 应 该 做 出 的 动作 ， 动 态 调整 发 
注意 : 这 个 信号 是 直接 原封 不 动 地 被 传送 到 FC 协议 的 对 端 处 理 机 上 处 理 ， 而 不 是 像 Map 
模式 中 在 本 地 就 终结 了 FC 逻辑 。Tunnel 模式 中 ，TCP/IP 不 参与 任何 FC 协议 内 部 的 逻辑 。 
除了 FC 流 控 逻 辑 的 映射 ， 其 他 Flogin 登录 机 制 、 连 接 机 制 等 映射 也 都 有 自己 的 实现 。 比 
如 ，FC 发 起 一 个 Plogin 过 程 ， 那 么 Map 设备 可 以 Map 到 TCP/IP 的 一 个 握手 过 程 等 。 
提示 : Tunnel 和 Map 这 两 种 模式 ， 在 第 8 章 还 有 一 个 将 FC AL 的 环 接 入 FC Fabric 中 的 
例子 。 


13.6 FC 与 IP 协议 之 间 的 融合 


哗啦 ……, 早晨 的 微风 把 人 P 吹 醒 。 原来 人 P 做 了 一 场 美梦 。 根据 梦 中 的 指示 ,IP 鬼使神差 地 
将 FC 协议 映射 到 了 IP 上。 并 做 了 两 种 模式 , 一 种 是 以 Tunnel 为 主 的 模式 , 称 做 FCIP; 另 一 种 
是 以 Map 为 主 的 模式 ， 称 做 IFCP。 

在 FCIP 模式 中 , 通信 的 双方 各 增加 一 个 FCIP 网 关 , 任何 FC 协议 的 逻辑 , 哪怕 是 一 个 小 小 
的 ACK 帧 ， 都 需要 封装 到 TCP/IP 协议 中 传输 。 两 端的 FC 协议 处 理 机 不 会 感知 到 中 间 TCP/IP 
的 存在 ， 它 们 认为 对 方 就 是 一 个 纯粹 的 FC 设备 。 

在 IFCP 模式 中 , 通信 的 双方 各 增加 一 个 IFCP 网 关 ， 作 为 协议 转换 设备 使 用 。IFCP GW 将 
FC 协议 终止 在 本 地 , 提取 Payload 数据 ,对 外 以 TCP/IP 设备 的 形式 出 现 并 传输 数据 ， 到 达 对 方 
之 后 ， 对 方 的 IFCP GW 再 从 IP 包 中 提取 出 Payload， 然 后 将 其 封装 到 FC 帧 中 ， 对 其 内 部 以 FC 
设备 的 形式 出 现 。 通信 双方 中 间 的 TCP/IP 协议 , 将 大 部 分 或 者 全 部 FC 的 逻辑 都 映射 成 TCP/IP 
的 逻辑 。 

比如 每 当 一 个 FC 设备 需要 和 远 端 的 FC 设备 通信 , 发 起 Plogin, 那么 IFCP GW 就 向 对 方 建 
立 一 条 TCP 连接 , 用 多 条 TCP 连接 和 不 同 的 IP 地 址 来 区 分 不 同 的 FC 设备 。 此 外 , 还 需要 保存 
一 个 TCP 端口 或 者 人 P 地 址 对 FC 设备 24b 的 Fabric 地 址 的 映射 表 。 如 果 两 端的 FC 设备 的 ID 有 
冲突 ， 这 个 映射 表 还 需要 考虑 NAT， 将 地 址 翻译 成 其 他 ID。 相 对 于 IFCP，FCIP 协议 则 不 能 识 
别 FC 的 逻辑 ， 因 为 它 只 是 Tunnel， 如 果 两 端 Fabric 中 有 ID 冲突 的 ， 那么 也 只 能 冲突 着 了 。 

至 此 ，FC 协议 终于 可 以 享受 TCP/IP 带 来 的 扩展 性 了 ，FC 搭 上 了 TCP/IP 的 车 ， 远 隔 干 里 
都 可 以 跑 上 FC 协议 了 。IP 大 获 成 功 ! IP 和 FC 从 此 握手 言 和 ! 


伟大 的 SCSI 协 议 


可 以 说 整个 网 络 存储 系统 ， 都 起 源 于 一 个 协议 体系 ， 这 个 协议 体系 就 是 SCSI 协议 。 网 络 存 
储 的 任何 内 容 , 最 终 都 是 为 了 将 这 个 协议 体系 发 扬 光大 。 人 们 将 这 个 协议 强行 划分 解体 成 了 多 个 
层次 ， 然 后 把 它 的 最 上 面 的 几 层 ， 与 男 一 个 协议 体系 一 一 Fabre Channel 协议 的 下 几 层 进行 融合 ， 
形成 了 FCP 协议 ， 这 种 协议 目前 运行 在 各 个 三 家 的 高 端 磁盘 阵列 上 。 曾 经 一 度 时 间 ， 以 太 网 其 
至 也 看 好 了 SCSI 协议 , 想 与 其 融合 成 所 谓 的 “ESCSI” 协议 , 但 结果 没有 成 功 。 以 太 网 失败 之 后 ， 
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它 的 好 兄弟 P 接 着 跟 上 ， 最 终 成 功 地 与 SCSI 协议 进行 了 融合 ， 生 成 了 ISCSI 协议 ,目前 也 被 广 
泛 应 用 于 一 些 低 端 盘 阵 。 

为 何不 是 IATA 或 者 FATA 呢 ? 原因 就 是 因为 SCSI 协 议 体系 本 身 就 比 ATA 协议 体系 高 效 并 
且 功 能 强大 ， 此 外 ，SCSI 的 硬盘 性 能 也 普遍 比 ATA 硬盘 转速 快 ， 性 能 高 ， 用 于 服务 器 系统 ， 所 
以 SCSI 当然 是 首选 了 。 另 外 , 一 个 巴掌 拍 不 响 ，SCSI 协议 本 身 就 想 把 自己 给 “ 嫁 ” 出 去 ， 因 为 
它 很 早 就 已 经 迫不及待 地 将 自己 分 成 了 很 多 层次 ， 来 吸引 其 他 协议 。 

协议 融合 的 结果 , 就 形成 了 目前 形形色色 的 网 络 存储 世界 , 各 种 融合 协议 、 各 种 产品 、 各 种 
解决 方案 ， 好 不 热闹 ! 而 原本 的 SCSI 协议 ， 除 了 一 些 磁带 机 以 及 主机 本 机 硬盘 外 ， 已 经 不 再 使 
用 。SCSI 融合 入 了 各 种 协议 中 ， 它 无 处 不 在 ， 虽 然 它 的 躯体 已 经 是 七 零 八 落 ， 但 是 它 的 精深 思 
想 ， 以 及 为 技术 而 献身 的 精神 ， 将 在 形形色色 的 技术 中 永 放 光 芒 ! 


13.7 无 处 不 在 的 协议 融合 


之 所 以 提出 “协议 融合 ”这 个 名 词 ,而 不 是 “协议 映射 ” 或 者 “协议 隧道 ”, 是 因为 “融合 ” 
这 个 词 更 加 通俗 易 懂 ; 另外 , 也 更 加 具有 生物 学 色彩 。 计算 机 就 是 人 类 所 创造 的 另 一 种 形式 的 “ 生 
物 ”， 人 类 就 是 计算 机 的 上 帝 。 


1. 协议 融合 和 基因 了 融合 


分 子 生物 学 家 们 将 不 同 功能 的 基因 段 整合 到 一 起 , 再 用 核糖 体 蛋白 机 器 读 取 其 代码 , 表达 成 
肽 链 , 然后 折 释 成 三 维 结构 的 新 功能 蛋白 质 分子 ， 比 如 抗洪 小 麦 、 发 光 的 白鼠 等 。 这 就 是 基因 融 
合 。 这 个 过 程 与 协议 融合 类 似 。 

协议 融合 是 无 处 不 在 的 , 正如 不 同 快递 公司 之 间 的 合作 一 样 。 甚 至 连 劳动 合同 方面 都 出 现 了 
融合 , 劳务 派 遗 公司 与 劳动 者 签订 合同 , 然后 将 劳动 者 输送 到 用 工 单位 工作 ,用 工 单位 不 必 维 护 
人 事 系统 ， 将 人 事 系统 外 包 给 劳务 派 踪 公司 。 


2. 航空 公司 的 协议 融合 


习 前 ， 国 际 上 大 多 数 的 大 型 航空 公司 都 利用 IBM 或 者 Unisys 的 大 型 机 系统 作为 订 票 和 离 港 
系统 的 处 理 机 。 世界 各 地 的 售票 和 离 港 终端 都 通过 某 种 网 络 系统 与 大 型 机 连接 并 且 通 信 。 航空 业 
的 大 型 机 与 终端 通信 协议 也 经 历 了 纯 种 和 融合 阶段 。 

IBM 利用 ALC 协议 与 其 终端 通信 , Unisys 主机 则 通过 UTS 协议 与 其 终端 通信 。 但 是 随 着 IP 
网 络 的 成 本 不 断 降低 ， 质 量 不 断 提 高 ，UTS 和 ALC 这 两 种 古老 的 纯 种 协议 ， 不 得 不 考虑 将 自己 
嫁 给 卫 网 络 ,从 而 出 现 了 MATIP 协议 ， 也 就 是 将 这 些 协议 承载 于 IP 之 上 。Cisco 公司 也 为 航空 
业 专 门 开 发 了 这 种 融合 协议 ， 称 为 ALPS 协议 。 然 而 ALPS 最 终 没有 成 为 RFC 标准 ， 而 MATIP 
协议 ， 却 最 终 登 上 了 RFC 宝座 。MATIP 协议 的 文本 可 以 查看 RFC2153。 


13.8 ”交叉 融合 


提示 : 在 本 书写 作 之 时 ，FCoE 这 个 由 FCP 与 以 太 网 结 姻 所 产生 的 融合 协议 , 正在 被 一 些 厂 
商 炒 作 得 沸沸扬扬 。FC 协议 与 SCSI 协议 融合 之 后 形成 FCP 协议 , 而 FCP 协议 又 与 Ethemet 
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融合 形成 FCoF 协议 。 
如 图 13-2 所 示 为 协议 融合 树 。 


从 图 13-2 可 以 看 到 ，FCP 协议 与 IP 协议 融合 的 后 代 是 双胞胎 。 各 种 协议 之 间 相互 融合 ， 
甚至 产生 了 交叉 ,但 是 一 切 融合 都 是 为 了 更 好 地 适合 市 场 需求 。 


La SCSI 协 议 ee 
= 


图 13-2 协议 融合 树 
提示 : 另外 ,由 于 IP 网 络 的 大 肆 普 及 ， 众 多 的 协议 动 加 就 要 非 卫 不 嫁 ， 而 卫 和 以 太 网 绝 
对 是 铁 哥 们 儿 ， 所 以 以 太 网 也 借 下 的 光 ， 就 赁 着 自己 仅仅 1Gb/s 的 带宽 到 处 招摇 撞 骗 ， 这 
不 ,成 功 地 把 比 它 多 3Gb/s 带宽 的 FCP 协议 给 忽悠 过 来 了 。 不 过 以 太 网 也 在 潜心 修炼 ， 等 
练 成 出 关 之 后 ， 其 10Gb/s 的 速率 ， 将 会 让 人 望 而 生 胰 ， 但 愿 那 时候 以 太 网 统一 天 下 ! 


13.9 IFCP 和 FCIP 的 具体 实现 


上 面 说 到 人 P 根据 网 络 通信 协议 之 间 的 相互 作用 , 成 功 地 将 FC 协议 和 TCP/IP 协议 进行 了 融 
合 ， 生 成 了 一 种 FCIP 的 Tunnel 协议 和 一 种 IFCP 的 Map 协议 。 

蓝图 有 了 ， 那么 具体 怎么 来 将 其 实现 呢 ? 我 们 知道 不管 是 FCIP 的 简单 Tunnel 模式 ,还 
是 IFCP 的 复杂 Map 模式 ,进行 这 种 PoP 操作 的 角色 , 一 定 是 一 端面 对 FC 协议 的 网 络 ， 另 一 端 
对 TCP/IP 协议 的 网 络 。 


1. 协议 转换 器 


同时 面 对 多 种 协议 , 并 在 多 种 协议 之 间 实 现 相互 融合 、 相 互 转换 的 设备 , 就 称 做 协议 转换 器 。 
如 果 这 个 转换 器 只 是 起 到 一 个 桥 联 的 作用 ,只 在 一 条 链 路 上 串联 , 那么 就 称 其 为 协议 桥接 器 。 如 
果 这 种 转换 器 ,不 但 要 实现 单条 链 路 上 的 协议 转换 工作 ， 而 且 还 需要 实现 一 些 转发 动作 , 即 在 多 
条 链 路 、 多 个 网 络 之 间 互 相 转 发 数据 ， 则 可 以 称 其 为 协议 路 由 转换 器 。 如 果 某 种 协议 路 由 器 可 以 
实现 多 于 两 种 协议 的 网 络 互联 , 则 称 其 为 多 协议 路 由 转换 器 , 因为 它 能 在 多 种 协议 之 间 互 相 转 换 
并 做 路 由 转发 。 

SAN 要 想 获得 扩展 性 , 即 要 想 将 相隔 两 地 很 远 的 两 个 SAN 网 络 通过 IFCP 或 者 FCIP 连接 起 
来 ， 就 必须 在 双方 的 SAN 系统 前 端 各 增加 一 个 协议 转换 设备 ， 这 个 设备 后 端 连 接 各 自 的 SAN， 
前 端 连接 人 P 网 络 ， 在 广域网 络 上 运行 FCIP 或 者 IFCP 协议 通信 ， 达 到 协议 转换 的 目的 。 

两 个 独立 的 系统 连接 起 来 ， 就 涉及 了 两 种 情况 。 

ma 第 一 种 : 两 个 系统 连接 之 后 ， 在 逻辑 上 还 是 独立 的 ， 即 一 个 系统 不 影响 另 一 个 系统 ， 
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但 是 它们 之 间 可 以 通过 协议 转换 设备 来 通信 。 
ma 第 二 种 : 两 个 系统 融合 成 一 个 大 的 系统 ， 逻 辑 上 是 一 体 的 ， 只 不 过 相处 两 地 ， 之 间 用 
协议 转换 设备 连接 。 就 像 以 太 网 络 一 样 ， 如 果 用 光 绕 将 两 地 的 两 个 局 域 网 直接 连接 起 
来 ， 两 地 的 系统 同 在 一 个 广播 域 中 ， 这 样 就 相当 于 把 两 个 系统 融合 起 来 了 。 
但 是 如 果 两 地 各 自 接 一 个 耳 路 由 器 ,广域网 链 路 上 承载 的 是 基于 广 域 链 路 协议 之 上 的 耳 包 ， 
那么 两 地 的 局 域 网 就 没有 被 融合 ， 只 是 可 以 相互 通信 而 已 。 
提示 : 有 的 时 候 ， 两 地 的 系统 必须 融合 ， 而 有 的 时 候 ， 不 需要 融合 。 是 否 融合 ， 需 要 看 最 
终 的 需求 。 所 以 协议 转换 设备 也 必须 能 够 处 理 这 两 种 情况 。 对 于 需要 融合 的 情况 , 协议 转换 
设备 不 需 对 两 端的 SAN 迎 辑 做 任何 附加 处 理 , 而 只 需要 将 两 端的 逻辑 Tunnel 或 者 Map 到 广 
域 网 协议 上 就 可 以 了 ; 而 对 于 不 需要 融合 的 情况 , 协议 转换 设备 就 需要 对 两 端 系统 的 小 辑 做 
一 系列 的 处 理 、 屏 项 、 虚 拟 和 欺骗 了 。 


2. TCP/IP 和 以 太 网 络 实例 解析 


我 们 不 妨 拿 TCP/IP 和 以 太 网 络 来 做 一 个 例子 。 

假如 一 个 公司 , 在 a 地 和 b 地, 分 别 有 一 个 办 事 处 , 每 个 办 事 处 有 一 台 以 太 网 交换 机 ， 上 面 
各 连接 了 几 台 终端 。 现 在 为 了 业务 资源 共享 ， 公 司 决定 将 两 地 的 网 络 融合 起 来 。 公 司 向 ISP 申请 
了 一 条 2Mb/s 的 E1 专线 ( 当然 也 可 以 申请 Internet 线路 ， 两 端 都 接 入 Internet， 然 后 做 L2VPN 
或 者 L3VPN ) 。 

公司 有 两 种 选择 方案 。 

一 种 是 直接 用 这 条 专线 把 两 地 的 交换 机 连接 起 来 ， 在 这 条 线路 上 直接 承载 以 太 网 帧 。 

另 一 种 选择 就 是 两 端 各 加 一 个 路 由 器 ， 隔 离 两 边 的 局 域 网 ， 但 是 保持 它们 之 间 的 通信 。 

这 个 公司 最 终 选择 了 后 一 种 方案 , 原因 就 是 为 了 保持 双方 的 独立 性 , 同时 保证 性 能 。 因为 毕 
竟 是 两 个 办 事 处 ， 如 果 彻 底 进 行 融合 ,不 但 不 安全 ,也 不 利于 扩展 ,而且 容易 造成 广域网 流量 太 
大 ， 因 为 彻底 融合 之 后 ， 以 太 网 广播 就 要 跨 广域网 来 互相 传递 ,这 无 疑 是 浪费 资源 的 。 在 隔离 的 
基础 上 ， 同 样 能 够 保持 双方 无 障碍 的 相互 通信 ， 只 是 不 能 像 在 一 个 局 域 网 内 那样 直接 利用 MAC 
来 点 对 点 通信 。 如 果 a 地 某 个 节点 需要 和 b 地 某 个 节点 通信 ，a 地 的 这 个 节点 需要 先 把 数据 发 给 
a 地 的 路 由 器 ， 也 就 是 网 关 设备 ， 然 后 让 网 关 来 转发 给 b 地 。 虽 然 增 加 了 一 层 操作 ， 但 是 这 样 做 
的 可 扩展 性 、 可 管理 性 都 增强 了 。 在 路 由 器 上 可 以 做 访问 控制 、 地 址 转换 、QOS 、 策 略 路 由 等 基 
于 人 P 甚 至 TCP 层次 的 个 性 化 动作 。 如 果 是 直接 局 域 网 融合 ， 则 这 些 特 性 都 不 能 实现 。 


3. SAN 系统 实例 解析 


再 来 看 SAN 的 情况 。 还 是 这 个 公司 ，a 地 和 b 地 各 有 一 个 SAN 系统 。 为 了 实现 存储 资源 直 
接 共 享 ， 公 司 决 定 将 这 两 个 SAN 联通 起 来 。 同 样 也 存在 两 种 情况 ， 即 彻底 融合 或 者 相对 独立 的 

如 果 是 彻底 融合 的 话 , 那么 广域网 链 路 就 完全 相当 于 一 条 ISL 链 路 , 只 不 过 通信 协议 可 能 是 
FCIP 或 者 IFCP 协议 。 

对 于 FCIP， 任 何 FC 帧 都 将 被 透明 地 传递 。 对 于 IFCP， 一 部 分 FC 帧 会 被 屏蔽 或 者 MAP。 
但 是 这 些 被 屏蔽 或 者 MAP 的 帧 ,都 是 和 底层 通信 有 关 的 ， 而 上 层 逻 辑 性 质 的 帧 , IFCP 也 需要 透 
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传 到 对 端 。 

这 些 业 务 逻 辑 性 质 的 帧 ， 比 如 RSCN 帧 ， 用 来 传递 Fabric 网 络 中 的 重要 变化 信息 给 已 经 注册 
了 这 项 服务 的 节点 ; 再 比如 Plogin、Process Login 等 这 些 都 是 业务 逻辑 性 质 的 ， 和 底层 通信 无 关 。 

彻底 融合 之 后 ， 两 个 SAN 系统 就 融合 为 了 一 个 系统 ， 那 么 这 个 系统 就 会 有 一 个 主 交换 机 。 
主 交换 机 为 系统 中 其 他 交换 机 分 配 域 ID, 并 且 两 个 交换 机 之 间 需 要 运行 FSPF 路 由 协议 , 不 停 地 
发 送 一 些 路 由 控制 帧 ， 再 加 上 主 交 换 机 选举 时 产生 的 帧 ， 主 交换 机 失败 时 ， 整 个 Fabric 的 重建 过 
程 中 每 个 交换 机 发 出 的 各 种 帧 都 需要 经 过 广域网 链 路 进行 传送 。 

不 但 这 些 帧 要 占用 广域网 带宽 ， 而 且 一 旦 主 交 换 机 发 生 故 障 ， 那 么 对 方 的 SAN 系统 会 进行 
Rebuild， 包 括 重新 选举 主 交换 机 、 重 新 建立 路 由 表 等 ， 这 个 过 程 中 ，IO 就 会 暂时 中 断 。 

注意 : 由 于 广域网 链 路 速度 相对 慢 , 稳定 性 相对 差 ， 所 以 一 旦 这 条 链 路 发 生 不 稳定 的 振荡 ， 

那么 就 会 造成 主 交换 机 重新 选举 。 如 果 链 路 频繁 内 断 的 话 ， 那 么 两 端的 SAN 系统 根本 无 法 

正常 工作 。 

所 以 说 ,两 地 SAN 系统 彻底 融合 的 话 ， 一 旦 某 地 的 系统 故障 ， 就 会 影响 到 另 一 个 系统 的 正 
常 运行 ,而 且 要 占用 额外 多 的 宝贵 的 广域网 资源 。 由 于 访问 存储 资源 对 性 能 和 延迟 要 求 较 高 , 所 
以 彻底 融合 两 个 SAN， 最 好 只 在 局 域 网 内 进行 ， 交 换 机 间 的 链 路 最 好 是 裸 光 费 或 者 高 速 链 路 ， 
否则 最 好 采用 另外 一 种 融合 方式 ， 即 逻辑 独立 、 全 局 连通 的 融合 方式 。 


13.10 ”局 部 隔离 /全 局 共享 的 存储 网 络 


将 SAN 系统 彻底 融合 ， 扩 展 性 差 、 管 理性 差 ， 而 且 耗 费 广域网 链 路 资源 。 所 以 这 个 公司 同 
样 也 选择 了 相对 独立 的 连通 方式 。 下 面 来 看 一 下 相对 独立 的 融合 到 底 是 个 什么 概念 , 它 的 作用 机 

“a 地 的 SAN 交换 机 (E 端口 ) -a 地 协议 转换 器 一 广域网 链 路 -b 地 协议 转换 器 - (E 端 口 ) 
b 地 SAN 交换 机 ”这 种 拓扑 不 管 是 彻底 融合 ， 还 是 独立 融合 都 一 样 ， 只 不 过 协议 转换 器 在 两 种 
方式 下 所 做 的 工作 不 一 样 。 彻底 融合 方案 中 , 协议 转换 指 Tunnel 或 者 Map 通信 底层 的 协议 逻辑 ， 
而 不 管 上 层 业 务 逻辑 ， 也 就 是 只 要 从 E 端口 收 到 了 帧 ， 协 转 就 将 其 Tunnel 或 者 Map 到 IP 协议 
中 发 送 给 对 端 。 而 相对 独立 的 融合 ， 不 但 要 Tunnel 或 者 Map 底层 协议 逻辑 帧 ， 它 还 要 理解 FC 
的 上 层 逻 辑 ， 做 到 “报喜 不 报 忧 ”。 


独立 融合 /全 局 共享 


所 谓 独立 融合 ， 就 是 说 两 端的 SAN 系统 都 可 以 独立 运作 ， 而 不 依靠 男 一 方 ,或 者 受 男 一 方 
的 影响 。 这 样 就 不 能 像 彻 底 融合 那样 一 端 为 主 交换 机 , 一 端 为 非 主 交换 机 , 而 要 让 两 端 独立 起 来 。 
由 于 两 端的 Fabric 中 都 各 自 只 有 一 台 SAN 交换 机 ， 所 以 两 端的 SAN 交换 机 都 是 主 交 换 机 ,各 自 
为 政 。 

既然 这 样 , 怎样 和 对 方 的 SAN 进行 通信 呢 ? 协议 路 由 器 自 有 其 招数 。 协议 路 由 器 与 SAN 交 
换 机 之 间 通 过 E 端口 连接 , 它 欺骗 两 端 SAN 交换 机 , 让 交换 机 认为 它 正 在 连接 着 另 一 台 交换 机 ， 
而 这 个 由 协议 转换 器 虚拟 出 来 的 交换 机 级 别 比 它 低 , 所 以 它 自己 认为 自己 就 是 主 交 换 机 。 虚拟 交 
换 机 和 SAN 交换 机 之 间 运 行 FSPF 路 由 协议 ， 所 以 这 个 虚拟 交换 机 就 获得 了 SAN 交换 机 下 面 所 
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有 连接 的 终端 节点 信息 。 

获得 这 些 信息 之 后 ，a 地 的 协 转 通过 广域网 链 路 将 这 些 信息 通告 给 b 地 的 协议 转换 器 。b 地 
的 协议 转换 器 同样 和 b 地 的 SAN 交换 机 之 间 运 行 着 FSPF 路 由 协议 ， 同 样 也 欺骗 了 b 地 交换 机 。 
b 地 协议 转换 器 收 到 了 a 地 协议 转换 器 发 来 的 关于 a 地 SAN 交换 机 上 所 连接 的 所 有 节点 信息 之 后 ， 
就 利用 和 的 SAN 交换 机 之 间 的 FSPF 路 由 协议 ， 将 这 些 节 点 信息 通告 给 b 地 SAN 交换 机 ， 所 
以 b 交换 机 就 有 了 a 交换 机 上 节点 的 信息 , 同样 a 交换 机 也 会 拥有 b 交换 机 上 节点 的 信息 , 这 样 ， 
a 和 b 交换 机 之 间 就 可 以 通信 了 ， 其 实 它们 都 不 知道 中 途 有 两 个 中 介 在 骗 它 们 。 

如 果 其 中 一 个 SAN 系统 发 生 故障 ， 那 么 这 个 系统 中 的 协 转 设备 ， 会 将 这 个 重大 消息 屏蔽 ， 
不 告诉 对 端的 SAN 系统 。 因 为 一 旦 被 对 方 系统 得 知 , 便 会 发 生 Fabric 的 重建 过 程 , 影响 本 端 SAN 
系统 的 IO。 有 了 SAN 路 由 器 ， 远 端 SAN 访问 的 超时 ， 并 不 会 影响 本 地 SAN 的 访问 。 此 即 所 谓 
“报喜 不 报 忧 ”。 同 样 ， 一 个 SAN 系统 中 的 诸如 RSCN 等 广播 类 的 帧 ， 也 会 被 协 转 设备 根据 策 
略 而 终结 在 本 地 ， 不 会 跨越 广域网 链 路 通告 给 对 方 。 协 转 设 备 还 应 该 具有 访问 控制 功能 。 

这 种 方案 被 称 做 “SAN 路 由 ”， 因 为 它 具 有 与 卫 路 由 类 似 的 功能 和 架构 。 


13.11 多 协议 混杂 的 存储 网 络 


多 协议 混杂 的 存储 网 络 如 图 13-3 所 示 ， 其 中 的 中 枢 引擎 是 两 个 互相 连接 的 多 协议 路 由 器 。 
这 个 多 协议 处 理 机 ， 就 像 一 台 计 算 机 的 CPU，Fabric 和 以 太 网 络 就 像 计 算 机 的 IO 总 线 ， 磁 盘 便 
是 计算 机 的 外 设 和 输入 设备 ， 各 种 存储 控制 器 便 可 以 理解 为 计算 机 上 的 各 种 IO 控制 器 ， 前 端的 
Fabric 和 以 太 网 便 是 前 端的 IO 总 线 ， 主 机 服务 器 则 是 输出 设备 。 即 磁盘 上 的 数据 ， 经 过 输入 总 
线 输入 CPU 进行 运算 ， 然 后 通过 输出 总 线 ， 输 出 给 主机 服务 器 。 这 又 是 一 个 轮回 ， 不 折 不 扣 的 
轮回 ， 循 环 嵌 套 ， 永 无 止境 。 


IFCP/FCIP/FC 


广域网 


图 13-3 多 协议 混杂 的 存储 网 络 
图 13-3 所 示 的 拓扑 ， 可 以 说 是 一 个 大 的 统一 的 拓扑 。 存 储 网 络 不 外 乎 就 是 图 13-3 中 列 出 
的 元 素 。 磁 盘 经 过 一 层 层 的 IN 和 OUT, 一 层 层 的 虚拟 化 或 者 桥接 透 传 , 最 终 被 主机 看 作 是 一 个 


371 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


372 


LUN 或 者 目录 。 不 妨 将 其 抽象 ， 隐 去 复杂 的 部 分 ， 就 形成 了 图 13-4 的 拓扑 。 
再 抽象 一 下 ， 得 到 如 图 13-5 所 示 的 模型 。 


图 13-4 一 次 抽象 后 的 系统 架构 图 13-5 本 质 模型 
13.12 IP Over FC 


FC 可 以 为 了 提高 扩展 性 而 与 P 合作， 同样 ，IP 也 可 以 Over 到 FC 上 来 搭 个 快车 过 把 疗 。 难 
道 可 以 给 每 个 FC 口 设置 一 个 人 P 地 址 甚至 多 个 IP 地 址 ， 然 后 上 层 的 应 用 程序 就 像 使 用 一 块 网 卡 一 
样 使 用 FC 卡 么 ? 当然 可 以 , FC 本 来 就 是 一 块 网 卡 , 只 需要 在 链 路 层 之 上 封装 一 层 PoP 逻辑 即 可 。 
比如 , 给 FC 卡 上 的 每 个 接口 配置 一 个 IP 地址 和 掩 码 , 甚至 网 关 , 然后 对 目标 人 P 地 址 发 起 Ping 操 
作 ，OS 接收 到 Ping 操作 指令 后 ， 随 即 调用 到 ICMP 协议 层 ， 然 后 下 到 TCP/IP 层 ，TCP/IP 层 的 
下 位 就 是 FC 卡 的 驱动 程序 层 了 , PoP 逻辑 正 是 生效 于 此 层 。 这 个 特殊 的 驱动 程序 首先 检查 目标 人 P 
地 址 , 并 查找 它 所 维护 的 IP-WWPN 地 址 映射 表 ( 这 张 表 可 以 手动 编辑 , 也 可 以 使 用 ARP 协议 来 
自动 发 现 和 维护 ， 基 于 FC 网 络 的 ARP 协议 在 IETE 协议 规范 中 可 以 找到 ) ， 找 出 这 个 IP 地 址 在 
网 络 中 对 应 的 FC 网 络 地 址 ; 找到 之 后 ,如果 尚 未 发 起 Plogin 过 程 则 发 起 , 否则 直接 将 ICMP 数据 
包 打 包 入 FC 帧 传送 到 对 应 的 FC Target。FC Target 收 到 数据 包 之 后 便 依次 向 上 层 传递 ， 当 传递 到 
驱动 程序 时 ,驱动 程序 解析 数据 包 中 的 高 层 协议 并 向 对 应 的 上 层 调 用 程序 , 即 TCPVIP 发 送 ,TCP/IP 
层 处 理 后 将 其 转发 到 调用 应 用 程序 层 , 即 ICMP 协议 层 。ICMP 协议 处 理 之 后 会 做 出 相应 反应 , 比 
如 生成 一 个 Echo Reply 数据 包 ， 发 送 到 请 求 端 ， 发 送 过 程 与 之 前 类 似 。 

哟 .…… 又 吹 , 做 梦 呢 吧 ? 我 清醒 着 呢 , 虽然 现在 快 午夜 12 点 了 , 但 是 我 依然 保持 文 如 泉涌 。 
Qlogic 公司 早已 发 布 了 这 种 IP Over FC 的 驱动 程序 。 目 前 ， 其 QLE2464 型 号 的 4 端口 4GB/s 的 
FC 适配器 〈 如 图 13-6 所 示 ) 在 Windows 系统 中 已 经 可 以 在 这 款 驱 动 程序 下 实现 IP Over FC 功 
能 , 安装 这 个 驱动 之 后 ,系统 会 在 网 络 适配器 列表 中 生成 一 个 特殊 的 网 络 设备 ,其 使 用 与 普通 以 
太 网 卡 类 似 ， 而 且 可 以 对 其 配置 IP 地 址 等 参数 。 


图 13-6 QLE2464 适 配 卡 
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有 了 这 样 的 设计 ， 就 可 以 在 FC 的 链 路 层 上 透明 地 使 用 iSCSI 或 者 NAS 协议 来 访问 数据 了 。 
这 样 做 的 目的 只 有 一 个 : 速度 ! 让 iSCSI 和 NFS/CIFS 也 可 以 享用 FC 带 来 的 4GB/s 甚至 8GB/s 
的 速度 ， 搭 上 快车 兜 风 的 感觉 ， 爽 ! 

话 锋 回转 。FC 为 了 O 到 IP 上 ， 整 出 了 一 对 双胞胎 协议 。 然 而 ，IFCP 或 者 FCIP 协议 都 需 
要 一 个 外 部 硬件 协议 转换 器 来 实现 ， 为 何不 能 像 IPoFC 一 样 搞 法 呢 ? FC 虽然 也 可 以 按照 OSI 
模型 分 层 ， 但 是 其 链 路 层 和 网 络 层 甚 至 更 高 层 一 般 都 是 运行 在 FC 卡 上 的 ， 要 实现 PoP 逻辑 , 被 
承载 协议 逻辑 必须 运行 在 承载 协议 逻辑 的 上 层 。 所 以 要 将 FC 承载 于 IP 之 上 , 就 要 求 FC 的 网 络 
层 及 以 上 的 所 有 层次 必须 作为 软件 运行 在 主机 上 而 不 是 FC 卡 上 , 然后 主机 再 将 封装 映射 好 的 数 
据 包 通过 TCP/IP 及 以 太 网 卡 发 送出 去 。 目 前 ， 有 一 些 低 端的 FC 卡 的 网 络 层 及 以 上 逻辑 确实 运 
行 在 主机 上 ， 也 就 是 运行 于 FC 卡 的 驱动 程序 中 ， 而 FC 适 配 卡 上 的 芯片 只 负责 实现 FC 的 物理 
层 和 链 路 层 功 能 ( 这 种 低 端 软 FC 卡其 需要 利用 主机 CPU 来 实现 FC 的 上 层 逻 辑 ， 所 以 CPU 占 
用 率 会 比 纯 硬 FC 卡 , 在 主机 CPU 负载 比较 高 的 时 候 , 就 会 影响 底层 驱动 程序 的 效率 造成 IO 性 
能 受到 一 定 影响 ) 。 如 果 将 FC 卡 变 为 以 太 网 卡 ， 而 保留 原 有 FC 卡 驱动 中 的 FC 上 层 逻 辑 处 理 
层 , 即 FC 网 络 层 及 以 上 的 处 理 逻 辑 ， 然 后 在 以 太 网 卡 和 FC 处 理 逻 辑 之 间 插 入 TCP/IP 协议 栈 ， 
之 上 再 插入 一 层 PoP 逻辑 ,PoP 逻辑 生成 虚拟 的 WWPN 地 址 来 欺骗 上 位 的 FC 处 理 层 ,利用 ARP 
协议 来 获取 和 维护 网 络 中 的 地 址 映射 , 这 样 做 理论 上 可 以 达到 单纯 的 FCoIP 的 效果 。 但 是 回头 想 
一 想 ， 这 是 没有 任何 意义 的 ! 

仔细 想 一 下 ，FC 为 何 要 O 到 IP 上 呢 ? 就 是 因为 IP 可 扩展 能 力 强 ， 那 么 如 今 我 们 在 一 个 没 
有 FC 任何 硬件 参与 的 情况 下 ， 强 行 在 TCP/IP 协议 之 上 增加 了 一 层 额 外 的 与 TCP/IP 功能 类 似 
的 网 络 协议 ,然后 再 在 二 者 之 间 插 入 映射 翻译 层 ， 这 不 是 没事 找事 么 ? 没有 FC 硬件 参与 ， 以 太 
网 络 硬件 之 上 的 TCP/IP 之 上 的 软 FC 上 层 逻 辑 ， 这 简直 就 是 一 个 累 普 。 我 们 直接 用 iSCSI 或 者 
NFS/CIFS 不 就 得 了 么 ? 干 嘛 非 要 在 其 上 安插 一 个 累 效 呢 ? 

同 为 FCoIP 的 实现 方式 , 那 为 何 IFCP 和 FCIP 就 不 是 累 歼 呢 ? 因为 IFKCP 和 FCIP 是 为 了 将 
一 个 现存 的 、 由 众多 FC 适配器 和 FC 网 络 交换 设备 组 成 的 Fabric 网 络 与 男 一 个 Fabric 相互 连通 
而 连通 用 的 网 络 传输 协议 为 IP。 所 以 , 如 果 想 让 两 个 以 太 网 之 间 互 相连 接 而 互联 通道 使 用 高 速 的 
FC 连接 ， 这 便 是 有 意义 的 。 

哦 ,那么 刚才 说 的 IPoFC, 以 此 类 推 是 不 是 也 可 以 被 定义 为 没有 任何 意义 了 呢 ? 这 就 需要 从 
另 一 个 角度 看 了 。 因 为 TCP/IP 已 经 普遍 使 用 ， 基 于 TCP/IP 的 存储 协议 也 很 多 ， 比 如 iSCSI、 
NFS、CIFS、FTP 甚至 HTTP 等 , 而 基于 FC 的 存储 协议 呢 ? 只 有 FCP。 而 为 了 让 这 些 开 放 存 储 
协议 运行 在 比 以 太 网 更 加 高 速 的 网 络 上 ,将 它们 O 到 FC 上 当然 是 有 意义 的 。 有 人 又 说 了 , 哦 .…… 
那么 说 如 果 FC 也 像 TCP/IP 一 样 有 很 多 基于 它 的 开放 协议 被 广泛 使 用 ， 那 么 很 有 可 能 也 有 人 开 
发 单纯 FCoIP 了 么 ? 这 又 得 从 另外 一 个 角度 考虑 ， 即 使 FC 哪 天 达到 像 TCPVIP 一 样 了 ,那么 将 
高 速 的 FC 链 路 变 为 当前 的 1Gbps 的 以 太 网 链 路 , 就 为 了 单纯 的 FCoIP, 你 干 么 ? 除非 给 它 O 到 
10Gbps 的 以 太 网 上 ， 这 也 就 是 FCoE 的 做 法 了 。 

图 13-7 和 图 13-8 示 出 了 FCoIP 和 IPoFC 的 区 别 。 
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图 13-7 IPoFC 示意 图 图 13-8 FCoIP 示意 图 


13.13 FCoE 


13.13.1 FCoE 的 由 来 


以 太 网 的 速率 从 1Gb/s 直接 跳跃 到 10Gb/s， 今后 还 会 再 跳 到 40Gb/s、100Gb/s。FC 呢 ， 从 
1Gb/s 跳 到 2Gb/s 再 跳 到 4Gb/s 和 8Gb/s， 将 来 的 规划 还 是 乘 2， 也 就 是 下 一 步 是 16Gb/s。FC 总 
是 想 搭 顺 风车 ， 前 几 年 以 太 网 只 普及 到 1Gb/s， 它 看 好 了 IP 的 扩展 性 , 结果 OQ 了 IP( IFCP 和 
FCIP 双胞胎 ) 。 结 果 这 俩 后 代 不 争气 ， 用 的 很 少 。O 完了 IP 不 过 首 ， 看 到 以 太 网 迅速 强大 , 自 
己 却 步履 蹦 中， 打算 直接 O 到 Ethemet 上 苟 延 残 喘 ,， 也 就 有 了 FCoE。 如 图 13-9 所 示 , 传统 FC 
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图 13-9 FCoB、FC 的 路 标 对 比 


13.13.2 ”FcoE 的 设计 框架 


然而 , 并 不 像 你 所 想象 的 那样 ,比如 , iSCSI 直接 就 是 在 主机 端 操作 系统 中 的 TCP 协议 栈 之 
上 加 一 层 逻 辑 , 直接 利用 现 有 的 IP 网 络 , 那么 FCoE 是 不 是 也 类 似 , 直接 在 主机 端 安装 一 个 FCoE 
协议 栈 ， 直 接 将 其 承载 到 以 太 网 上 呢 ? 如 果真 的 是 这 样 ，FCoE 与 iSCSI 就 没有 什么 本 质 上 的 大 
区 别 了 ， 也 就 无 法 体现 其 价值 所 在 了 。 那 么 FCoE 到 底 是 一 种 什么 形态 呢 ? 我 们 知道 ， 传 统 FC 
环境 下 在 主机 端 原 本 是 靠 一 块 FC HBA 来 实现 FC 网 络 接 入 的 ， 全 部 FC 逻辑 都 运行 在 这 块 卡 上 
(SCSI 逻辑 运行 在 主机 端 OS 内 核 中 ) ， 这 样 做 可 以 充分 降低 主机 资源 消耗 。 如 果 现 在 要 将 FC 
的 上 层 逻 辑 全 部 拿 来 主机 端 协议 栈 中 运行 ， 那 么 效率 势必 要 打折 扣 ， 对 主机 CPU 资源 的 消耗 也 
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必 将 增加 。 那 么 iSCSI 就 不 消耗 主机 资源 么 ? 当然 消耗 ， 那 为 何 iSCSI 可 以 存在 ， 就 不 允许 FC 
的 软 协议 栈 存 在 呢 ? 要 知道 ，1Gbps 的 以 太 网 环境 下 ，iSCSI 软 协议 栈 不 会 消耗 主机 端 太 多 资源 
(根据 实测 一 颗 单 核 Intel 至 强 CPU 约 可 承载 300MB/s 的 大 块 连续 IO 的 iSCSI 流量 ， 此 时 CPU 
已 经 满载 ， 如 果 是 IO 密集 型 流量 ，CPU 会 更 快 满载 ) ,但 是 在 10Gbps 以 太 网 的 环境 下 ，iSCSI 
软 协议 栈 对 主机 CPU 的 消耗 就 不 可 同日 而 语 了 , 有 数据 表明 , 10Gbps 下 的 软 iSCSI initiator 对 主 
机 CPU 的 占用 率 在 30%~ 60% 之 间 ， 这 已 经 不 可 容忍 了 。 所 以 ，10Gb/s 以 太 网 承载 的 iSCSI 协 
议 , 迫切 需要 运行 在 硬 iSCSI HBA 上 , 这 才 是 可 以 向 企业 级 用 户 所 交付 的 合适 形态 。 至 于 前 期 微 
软 与 Intel 合作 进行 的 iSCSI 百 万 IOPS 测试 结果 ( 见 之 前 章节 ) ， 只 是 一 个 测试 而 已 ， 恐 怕 其 
CPU 利用 率 已 经 达到 很 高 的 程度 了 ， 这 种 测试 不 具备 实用 性 价值 ， 况 且 Intel 是 做 CPU 的 ， 这 
种 测试 的 目的 大 家 都 明白 。 所 以 同样 ，FCoE 也 需要 运行 在 一 块 硬 的 HBA 上 。 
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好 , 明白 了 这 一 点 , 我 们 再 往 下 走 一 层 。 我 们 知道 传统 以 太 网 并 不 提供 链 路 层 保障 功能 ， 而 
FC 的 传输 保障 在 链 路 层 与 传输 层 都 有 实现 ， 两 者 是 紧密 结合 的 。 如 果 要 将 FC over 到 Ethermet 
上 , 那么 势必 要 砍 掉 FC 的 链 路 层 而 用 以 太 网 链 路 层 蔡 代 , 但 是 这 样 over 之 后 , 新 协议 就 没有 链 
路 层 保障 机 制 了 ， 不 能 与 FC 传输 层 保障 机 制 进行 互相 配合 。 为 此 ， 必 须 给 以 太 网 增加 链 路 层 传 
输 保障 机 制 ， 所 以 新 的 标准 出 现 了 ， 这 就 是 CEE ( Converged Enhanced Ethernet ) ， 即 增强 型 以 
太 网 协议 ，Cisco 称 之 为 DCE ( Data Center Ethernet ) 。 这 样 ，FC 就 可 以 没有 后 顾 之 忧 地 使 用 以 
太 网 作为 传输 链 路 了 。 
我 们 再 往 下 走 一 层 。 以 太 网 亲自 出 马 改变 自身 来 迎合 FC 的 大 驾 , 这 个 举动 可 谓 是 兴 师 动 众 
了 ， 由 于 已 经 对 链 路 层 进行 了 改变 , 所 以 传统 的 以 太 网 卡 不 可 能 符合 要 求 ， 以 太 网 交换 机 也 是 一 
样 。 这 样 的 话 ， 就 得 开发 专门 的 以 太 网 卡 和 以 太 网 交换 机 来 支持 CEE 了 ， 确 实 是 的 。 我 们 先 来 
看 一 下 以 太 网 卡 ， 前 面 说 过 ，FCoE 必须 做 成 一 个 硬件 HBA， 而 现在 以 太 网 卡 也 需要 重新 做 ,所 
以 , 一 块 类 似 iSCSI 硬 HBA 的 硬 FCoE 卡 也 就 水 到 渠 成 地 出 炉 了 ; CNA 卡 ，Converged Network 
Adapter, 将 FC 卡 与 增强 型 以 太 网 卡 结合 的 产物 , FC 卡 把 其 上 层 的 FC 逻辑 处 理 部 分 拿 出 来 融合 
到 增强 型 以 太 网 卡 中 ,然后 再 在 这 片 卡 件 中 增加 一 个 FCoE 协议 处 理 模块 , 在 数据 帧 中 增加 一 个 
FCoE 协议 表示 层 区 段 ( 这 个 概念 见 本 章 之 前 部 分 ) 用 以 执行 协议 转换 控制 任务 ， 所 有 的 逻辑 都 
集成 到 一 块 ASIC 芯片 中 以 达到 很 高 的 执行 效率 。 图 13-10 所 示 为 Brocade 生产 的 某 型 号 的 
CNA/FCoE 卡 的 实物 图 ， 出 口 为 两 个 10Gbps 的 以 太 光 口 。 


图 13-10 CNA/FCoE 卡 实物 图 
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iSCSI 硬 HBA 只 能 用 作 和 承载 iSCSI 协议， 而 不 能 作为 承载 人 P 的 以 太 网 卡 使 用 了 。 但 是 FCoE 
卡 却 可 以 同时 承载 FCoE 流量 和 承载 IP 的 以 太 网 流量 ， 也 就 是 说 可 以 把 一 块 FCoE 卡 同时 当做 
FC 卡 与 以 太 网 卡 使 用 ， 互 不 影响 。 

FCoE 卡 相 比 于 FC 卡 来 讲 , 除 了 在 操作 系统 驱动 层面 有 所 变化 之 外 ,上 层 的 协议 栈 比如 SCSI 
层 之 类 并 没有 大 的 变化 。 


13.13.4” FCoE 交换 机 


好 ， 我 们 接着 往 下 走 ， 再 来 看 看 以 太 网 交换 机 的 改变 。 除 了 在 交换 机 端 对 应 地 增加 对 CEE 
的 支持 之 外 , 以 太 网 交换 机 还 需要 做 一 项 重大 的 改变 。 我 们 知道 FC 交换 机 是 整个 Fabric 的 核心 ， 
任何 一 个 通过 FC 接 入 Fabric 的 节点 都 要 首先 获得 一 个 Fabric ID 然后 执行 Fabric Login 过 程 ， 这 
些 过 程 都 需要 FC 交换 机 来 参与 执行 。 而 以 太 网 交换 机 并 没有 提供 任何 这 些 Fabric 服务 ， 这 样 的 
话 ， 通 过 以 太 网 链 路 传 入 的 地 址 请 求 以 及 Fabric Login 的 帧 ， 就 没有 人 来 应 答 和 处 理 了 。 所 以 ， 
以 太 网 交换 机 上 ， 必 须 增 加 对 应 的 Fabric 模拟 程序 ， 将 其 做 到 ASIC 芯片 中 。 
看 到 这 里 也 许 你 已 经 完全 糊涂 了 ,不 就 是 要 利用 起 以 太 网 么 ?iSCSI 对 以 太 网 没有 任何 改变 ， 
而 为 何 FC 一 来 ， 就 要 兴 师 动 众 ， 改 完了 协议 改 网 卡 ， 改 完了 网 卡 还 得 改 交换 机 ， 这 么 做 到 底 值 
不 值得 ?请 各 位 带 着 这 个 问题 继续 阅读 。 

此 时 别 忘 了 另外 一 个 问题 : 原 有 的 传统 FC 设备， 如何 与 FCoE 融合 ?既然 叫做 FC over 
Ethemet， 那 么 就 得 拿 出 点 样子 看 看 ， 得 将 原 有 的 传统 FC 网 络 融合 进来 才 是 。 图 13-11 所 示 为 
一 台 Brocade 8000 FCoE 交换 机 的 逻辑 架构 图 与 实物 图 。 


| Fibre Channel switch 


图 13-11 FCoE 交换 机 逻辑 图 与 实物 图 

大 家 可 以 看 到 ,这 台 交 换 机 同时 包含 传统 的 FC 交换 模块 及 接口 和 新 的 CEE 增强 型 以 太 网 接口 ， 
这 就 意味 着 ,传统 的 FC 设备 以 及 使 用 CNA 卡 的 FCoE 设备 可 以 同时 连接 到 这 台 交 换 机 上 而 且 实现 
互相 通信 。 交 换 机 内 部 有 一 个 FCoE 处 理 模块 实现 将 CEE 的 流量 桥接 到 FC 交换 模块 中 ， 反 向 过 程 
也 类 似 ，FCoE 模块 的 角色 就 是 一 个 协议 映射 封装 与 解 封装 模块 ， 另 外 还 负责 对 Fabric 大 部 分 逻辑 的 
模拟 。 实 际 中 FCoE 功能 的 定价 可 以 使 用 License 控制 ， 可 以 选择 购买 FCoE 功能 或 者 不 购买 。 

这 台 交 换 机 还 同时 可 以 作为 传统 以 太 网 交换 机 使 用 ， 所 以 此 设备 是 一 台 传统 FC 交换 机 、 
FCoE 交换 机 、 以 太 网 交换 机 的 超级 融合 体 。 图 13-12 所 显示 的 是 在 这 种 超级 融合 环境 下 的 数据 
流 拓扑 图 ， 可 以 看 到 这 种 设备 实现 了 双 网 融合 的 作用 。 
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图 13-12 FCoE 环境 拓扑 图 

在 网 络 没 有 融合 之 前 ， 你 需要 投入 的 是 : 以 太 网 卡 +FC 卡 +FC 交换 机 + 以 太 网 交换 机 +FC 线 
缆 + 以 太 网 线 缆 ， 而 融合 之 后 ， 你 需要 投入 的 是 : CNA 卡 +FCoE 交换 机 + 以 太 网 线 缆 ， 可 见 减少 
了 投资 ， 简 化 了 布线 ， 降 低 了 耗 电 ， 最 终 也 就 降低 了 成 本 ， 同 时 还 充分 融合 原 有 传统 FC 的 环境 。 

然而 , 是 否 会 降低 成 本 也 是 相对 的 。 FCoE 目前 实际 主要 应 用 于 大 型 运营 商 、 大 型 数据 中 心 ， 
准备 同时 投入 高 容量 高 速 以 太 网 与 存储 网 络 的 ， 则 可 以 在 适配器 、 布 线 、 交 换 机 方面 节省 成 本 。 
但 是 FCoE 离 行业 市 场 客户 还 差 很 远 。16 口 8Gbps FC 交换 机 也 就 两 万 元 多 一 台 ， 一 台 同 样 口 数 
的 10Gbps 的 FCoE 交换 机 , 则 贵 得 多 。 但 是 对 于 运营 商 那 种 大 型 模块 化 交换 机 来 讲 ，FCoE 交换 
机 由 于 融合 了 两 种 网 络 ， 反 而 比 单独 为 每 种 网 络 都 配 一 台大 型 模块 化 交换 机 要 便宜 多 了 。 

如 果 使 用 纯 以 太 网 环境 跑 iSCSI 则 不 可 能 融合 原 有 传统 FC 环境 了 , 势必 又 形成 孤岛 。FCoE 

达到 了 两 者 的 折 中 ， 提 供 了 一 个 过 渡 解 决 方案 ， 融 合 了 FC 的 思想 和 以 太 网 的 躯体 ， 还 融合 了 传 
统 FC 环境 ， 可 以 说 这 是 将 单纯 iSCSI 击 退 的 一 个 必 杀 技 。 一 张 FCoE 卡 可 以 同时 承载 普通 IP 以 
太 网 流量 、FCoE 流量 以 及 iSCSI 流量 ( 使 用 软 Initiator ) 。 
前 尚未 有 厂商 推出 集 硬 FCoE、CEE 10GbE 以 太 网 、 硬 iSCSI 为 一 身 的 纯 硬 HBA 卡 ,Emulex 
公司 有 硬 FCoE 卡 以 及 硬 10GbE iSCSI 卡 ， 两 种 卡 的 设计 、 芯 片 等 大 致 相同 ， 有 集成 的 潜质 , 但 
是 考虑 到 成 本 、 人 性能、 芯片 等 多 种 问题 ,目前 这 种 卡 可 能 还 只 是 个 假想 物 。 最 终 鹿死谁手 还 有 待 
观望 。 

到 了 这 里 ， 对 之 前 所 提出 的 那个 疑惑 是 不 是 可 以 有 所 领悟 呢 ? 


13.13.5 ”解剖 FCoE 交换 机 


经 过 上 述 介绍 之 后 ， 理 解 FCoE 交换 机 的 逻辑 部 件 就 不 难 了 。 无 非 就 是 三 大 主要 模块 : FC 
PHY 芯片 组 ， 以 太 网 PHY 芯片 组 、 中 央 交 换 矩 阵 、 桥 接 逻 辑 处理 芯 片 组 ， 再 加 上 一 堆 辅 助 的 芯 
片 和 器 件 。 整 体 上 是 操作 系统 + 专用 硬件 芯片 组 的 设计 模式 。 图 13-13 是 某 FCoE 交换 机 的 主板 
器 件 布局 示意 图 。 图 13-14 则 给 出 了 FC 与 FCoE 流量 的 处 理 路 径 示意 图 。 
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图 13-13 某 FCoE 交换 机 主板 器 件 示意 图 


图 13-14 某 FCoB 交换 机 数据 流 示意 图 


做 FCFCoE 实 
体 转 换 的 芯 
片 , ASI1C 或 

FPGA 


高 速 信号 收发 

右 , 将 CEE 和 

FC 信号 送 到 

ASIC 进 行 FC- 

FCoE 实 体 转 
换 


| 


2MB 的 Flash, 


Switch 苍 片 。 


第 13 章 握手 言 和 一 一 IP 与 FC 融合 的 结果 @ 


图 13-15 与 图 13-16 所 示 的 是 另外 某 厂 商 的 某 FCoE 交换 机 的 逻辑 与 实物 图 , 板 载 20 个 CEE 
10GbE 接口 ,FCoE 届 辑 在 Crossbar Switch 中 实现 ,每 个 Unified Port Controller 下 面 挂 接 多 个 10GbE 
PHY。 另 外 还 有 一 个 专门 用 于 控制 扩展 板 上 的 接口 的 Port Controller。 


10 GE Interfaces 10GE 1/2/4 Gbps Fibre Channel 
Interfaces to Storage Network 
3S](s)] (EE) wor 
图 加 国 轩 和 


Unified 
Crossbar 
Fabric 


图 13-15 某 FCoE 交换 机 主板 器 件 布局 图 


图 13-16 某 FCoE 交换 机 主板 器 件 示意 图 与 数据 流 示意 图 
妈 13 一 17 所 示 为 此 交换 机 提供 的 6 口 8Gb FC 接口 扩展 板 , 利用 这 个 扩展 板 即 可 将 FCoE 与 
传统 FC 网 络 相 融合 了 。 
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图 13-17 某 FCoE 交换 机 的 6 口 8Gb FC 扩展 接口 板 实物 图 
13.13.6 ”存储 阵列 设备 端的 改动 


与 主机 相同 ， 存 储 阵 列 也 需要 插 上 CNA 卡 来 实现 FCoE。 目 前 Qlogic、Emulex、Brocade 
等 主流 HBA 厂商 都 已 经 有 成 熟 的 FCoE 卡 出 售 ， 阵 列 厂 商 的 CNA 卡 也 都 是 从 这 些 HBA 厂商 
获取 。 阵 列 端 的 CNA 卡 可 以 同时 承载 FCoE 流量 与 iSCSI 流量 ， 也 算是 一 种 Combo 卡 。 


13.13.7 FGoE 与 iSCSI 


同样 是 oE，iSCSI 如 此 便利 ， 而 FCoE 和 赁 什么 能 够 兴风作浪 ? 主要 原因 有 两 个 : 第 一 是 为 了 
融合 原 有 的 传统 FC 网 络 和 FC 卡 件 、 阵 列 等 ， 得 有 个 过 渡 期 ; 第 二 则 是 FC 协议 在 上 层 思 想 上 
确实 效率 要 高 于 TCP/IP 协议 ， 也 就 是 高 - iSCSI。 但 是 FCoE 一 样 还 是 出 不 去 , 因为 FC 的 思想 

已 经 完全 凝固 了 ,注定 了 它 走 不 出 去 。 而 iSCSI 则 可 以 随 着 互联 网 带宽 的 迅速 增加 而 顺利 地 扩张 
到 整个 互联 网 范围 。FCoE 与 iSCSI， 谁 OO 不 是 O? 区 别 就 是 一 个 上 层 是 TCP/IP, 一 个 则 是 FC。 
iSCSI 可 扩展 性 强 ， 但 是 目前 来 讲 做 硬 卡 的 不 多 (Emulex 和 Broadcom 有 10Gb 的 iSCSI 硬 卡 ) ; 
FCoE 则 高 效 ， 做 硬 卡 的 多 ( 几乎 所 有 做 HBA 的 厂商 都 有 FCoE 卡 产 品 ) ,但 是 可 扩展 性 依然 不 

， 因 为 FCoE， 像 FC 一样, 很 邪门 ， 要 求 交 换 机 配合 ， 交 换 机 里 必须 灌 入 相应 的 Firmware 模 
块 生 tb 盏 这 上 Fabric 协议 逻辑 。FCoE 交换 机 除了 需要 处 理 Fabric 逻辑 ， 还 需要 处 理 Fabric 到 以 
太 网 的 转换 翻译 逻辑 , 不 但 增加 了 复杂 度 和 故障 点 , 而 且 势 必 又 会 在 多 个 厂商 之 间 产 生 兼 容 性 问 
题 ， 这 个 恐怕 会 成 为 它 称霸 的 一 个 累 袭 。 所 以 我 个 人 还 是 偏向 于 看 好 iSCSI 的 称霸 。 

FCoE 和 iSCSI 只 有 可 能 是 冤家 不 可 能 是 朋友 ， 不 可 能 被 融合 ， 那 么 随 着 时 间 的 推移 ， 到 底 
谁 能 够 一 统 天 下 ? 或 者 两 者 各 自 占据 自己 的 应 用 场景 ， 还 真 不 好 说 ,拭目以待 吧 。 


13.13.8 ”FcoE 的 前 景 


" ”相对 于 iSCSI，FCoE 能 够 将 传统 的 FC 网 络 融合 ， 充 分 利用 。 
" ”首先 被 大 型 运营 商 大 型 数据 中 心 采用 ， 双 网 融合 ， 降 低 成 本 。 
" ， 传统 FC 硬件 逐渐 被 侵蚀 殉 尽 。 

" ”以 太 网 一 统 天 下 ， 将 来 SCSIoE、ATAoE 等 都 有 可 能 商业 化 。 
= ”传统 FC 一 一 抛弃 身体， 保留 思想 一 一 FCoE。 
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13.13.9 Open FCoE 


上 文 所 述 的 所 谓 “ 软 FCoE” 协 议 ， 确实 有 这 东西 。Intel 某 高 级 软件 工程 师 主导 开发 了 它 。 
可 以 访问 http://www.open-feoe.org 这 个 网 站 来 获取 更 多 信息 。 这 个 Open FCoE 协议 底层 可 以 支 
持 普 通 以 太 网 卡 , 但 是 要 求 以 太 网 卡 支持 802.3x Pause 帧 。 安 装 了 软 FCoE initiator 的 服务 器 可 以 
使 用 其 以 太 网 卡 连接 到 FCoE 交换 机 上 ， 从 而 被 接 入 到 传统 的 FC SAN 中 。Open FCoE 也 提供 
Target 端 。 目 前 Open FCoE 从 Linux kemel 2.6.29 开始 被 正式 纳入 。 可 想 而 知 软 FCoE 协议 栈 会 
对 服务 器 CPU 造成 多 少 负载 增加 ， 但 是 别 忘 了 它 的 发 起 人 是 Intel。 


观点 : 经 过 上 文 对 FCoF 的 分 析 来 看 ，FCoF 像 FC 一 样 不 开放 ， 身 体 变 了 ， 思 想 依然 没 变 ， 
而 且 还 要 求 身 体 跟着 脑袋 变 一 变 ( CEE/DCE ) 。 本 来 承载 到 以 太 网 上 , 指望 着 开放 一 些 , 现 
在 看 来 ， 只 是 改朝换代 而 不 是 革命 。 所 以 ， 这 里 面 的 猫腻 就 看 出 来 了 ，FCoE 是 当初 Cisco 
主推 的 ，Cisco 称霸 了 以 太 网 ， 他 当然 希望 存储 网 络 全 都 转 到 以 太 网 ， 但 是 传统 FC 根深 蒂 
固 ， 所 以 弄 出 个 FCoE 来 , 以 太 网 宁愿 在 FC 的 光辉 思想 下 对 自身 的 一 些 “ 下 疲 ” 进 行 修改 。 
FCoE 作为 Cisco 称霸 存储 网 络 的 一 张 王牌 ， 其 目的 就 是 为 了 称霸 存储 网 络 ， 进 一 步 称霸 数 
据 中 心 ，Cisco 同样 拥有 自己 的 服务 器 ， 他 只 是 没有 自己 的 存储 ， 所 以 他 选择 与 别人 结盟 。 
从 VCE、VCN 联盟 就 看 出 来 了 。 

而 Intel 的 Openfcoe， 显 然 希 望 大 家 都 用 软 Initiator， 靠 强大 的 CPU 来 执行 而 不 是 专用 ASIC 
从 而 带动 CPU 的 销量 和 发 展 。 

那么 iSCSI 与 FCoE 到 底 谁 能 成 为 主流 呢 ? 现状 是 ，iSCSI 硬 卡 只 有 Emulex 和 Broadcom ( 尚 
未 发 布 只 是 公开 ) 的 CNA 卡 支持 ， 后 续 可 能 会 有 更 多 的 厂商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 
软 iSCSI initiator 的 话 ， 一 个 10G 口子 会 耗 掉 30% 左 右 甚 至 更 高 的 CPU， 就 算 用 最 新 的 Intel 
CPU 也 是 这 样 ， 所 以 基本 上 4 个 10G 口 就 会 耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情况 ， 
FCoE 同样 也 不 会 。 退 一 步 讲 , 如 果 10G 的 FCoE 与 硬 10G iSCSI 比 的 话 , 卡 件 与 协议 本 身 来 
讲 都 差不多 ,成 本 也 差不多 ,所 以 就 要 看 外 围 辅助 设备 的 成 本 , 一 台 FCoE 交换 机 目前 来 讲 
还 是 远 贵 于 10G 以 太 交 换 机 ， 所 以 要 是 小 规模 部 署 ， 甚 至 不 如 用 8G FC 交换 机 划算 了 。 其 
次 是 看 看 场景 FCoE 更 适合 想 融合 之 前 已 经 部 署 的 FC 与 新 部 署 的 以 太 网 的 场景 ， 也 就 是 
大 型 久 建 的 数据 中 心 。 对 于 新 建 数据 中 心 ， 这 个 趋势 还 不 明朗， 笔者 之 前 和 Emulex 的 一 名 
员工 交流 过 , 他 的 意思 是 新 建 数据 中 心 他 们 推荐 使 用 iSCSI 硬 卡 , 但 是 我 估计 这 种 说 法 是 含 
有 水 分 的 , 毕竟 Emulex 是 目前 仅 有 的 一 家 提供 硬 iSCSI 卡 成 品 的 公司 , 他 们 推荐 iSCSI 可 能 
有 一 定 市 场 目的 。 但 是 我 个 人 看 法 ，FCoE 目前 Qlogic、Brocade 和 Emulex 都 有 产品 了 ， 为 
何 10G 的 iSCSI 硬 卡 只 有 Emulex 一 家 产品 ， 证 明 FCoE 今后 可 能 会 有 一 波 行情 。 FCoE 和 
iSCSI, 谁 0 不 是 0? 区 别 就 是 一 个 是 FC, 一 个 是 TCP/P, 抛 开 以 太 网 , 单 看 FC 和 TCP/IP， 
前 者 高 效 但 是 扩展 性 差 , 后 者 效率 稍 低 但 是 扩展 性 很 好 , 其 实 这 已 经 与 以 太 网 无 关 了 , 最 后 
到 底 是 认同 FC 还 是 认同 TCP/P 的 问题 ,我 的 看 法 是 , FCoE 会 弄 出 一 波 行情 ,但 是 FC Fabric 
这 个 协议 很 邪门 ， 它 要 求 交换 机 也 要 参与 Fabric 的 建立 ， 而 且 交 换 机 起 到 至 关 重要 的 作用 ， 
这 增加 了 复杂 度 并 上 且 降低 了 兼容 性 ， 这 是 与 IT 基础 架构 发 展 背道而驰 的 ; 而 iSCSI 却 不 要 
求 交换 机 有 什么 上 层 协议 智能 ,兼容 性 、 开 放 性 及 扩展 性 更 好 。 笔 者 个 人 认为 最 后 iSCSI 很 
有 可 能 会 蔡 代 FCoE。 但 是 目前 来 讲 FCoF 与 iSCSI， 厂 商 也 尚未 看 清 ， 谁 也 不 敢 冒 然 选择 。 
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第 4 音 


变幻 莫 测 一 一 虚拟 化 


， 虚拟 化 
" In Band 
" Out Band 


“计算 机 科学 中 的 任何 问题 ， 都 可 以 通过 加 上 一 层 
逻辑 来 解决 。 
一 一 计算 机 科学 家 David Wheeler 


目前 形形色色 的 软件 层出不穷 , 可 是 它们 都 脱离 不 了 
一 个 基础 , 那 就 是 计算 机 硬件 系统 。 如 CPU 、 内 存 和 各 种 
IO 接口 ， 以 及 连接 它们 ， 使 它们 之 间 相 互通 信 的 总 线 。 

CPU 内 部 是 大 量 的 集成 逻辑 电路 ，CPU 不 断 受 到 一 
种 电信 号 的 “刺激 ”, 这 种 刺激 经 过 CPU 内 部 的 迎 辑 电路 
的 一 层 层 的 传递 转换 ， 最 终 输出 男 一 种 电信 号 。 这 种 输 
入 、 输 出 动作 ， 是 有 一 定 逻辑 的 。 通 过 编写 汇编 代码 ， 
可 以 实现 对 CPU 内 部 逻辑 电路 的 刺激 ， 并 引起 一 系列 的 
逻辑 输出 。 将 这 些 逻 辑 映 射 到 人 们 所 能 理解 的 知识 上 ， 
比如 输出 1 代表 对 ， 输 出 0 代表 错误 ， 或 者 如 果 输 出 1 
则 继续 刺激 ， 输 出 0 则 停止 刺激 等 ， 这 样 就 构成 了 从 基 
本 的 人 逻辑 电路 到 复杂 的 思维 逻辑 的 映射 ， 由 简单 逻辑 的 
层 层 嵌 套 ， 构 成 了 复杂 届 辑 。 将 汇编 语言 ， 用 人 类 容易 
理解 的 语言 抽象 出 来 ， 就 形成 了 高 级 语言 。 将 高 级 语言 
的 意思 ， 转 换 成 低级 语言 的 过 程 ， 就 是 编译 。 比 如 说 : 
冬瓜 ， 用 低级 语言 表示 冬瓜 这 个 意思 ， 就 是 “ 撤 ， 横 折 ， 
拱 , 点 ， 点， 撤 ……”。 

虚拟 化 过 程 其实 是 一 个 由 阴阳 丢 加 而 产生 的 一 系列 
过 程 和 相 态 。 
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14.1 ”操作 系统 对 硬件 的 虚拟 化 


我 们 知道 , 早期 的 计算 机 系统 , 其 实 是 没有 操作 系统 的 , 因为 操作 系统 本 身 也 是 靠 计算 机 硬 
件 执行 的 一 种 程序 。 操 作 系 统 就 是 一 种 可 以 提供 给 其 他 程序 方便 编写 并 运行 的 程序 。 由 程序 来 运 
行程 序 ， 而 不 是 由 程序 自己 来 运行 ， 这 是 操作 系统 提供 的 一 种 虚拟 化 表现 。 


1. 早期 计算 机 单 任务 模式 


对 于 早期 计算 机 来 说 , 只 能 允许 执行 一 个 任务 , 整个 计算 机 只 能 被 这 个 程序 独占 。 比 如 开机 ， 
从 软盘 或 者 其 他 介质 上 执行 程序 , 直到 执行 完毕 或 者 人 为 中 断 。 执 行 完 后 拿 出 介质 , 再 插入 另 一 
张 介质 ， 重 新 载 入 执行 男 一 个 新 的 程序 。 在 执行 程序 的 过 程 中 ， 一旦 意外 终止 ， 就 要 重新 运行 。 

如 果 有 10 个 人 要 用 一 台 计算 机 来 执行 程序 ， 第 一 个 人 拿 着 他 的 软盘 ， 上 面 有 一 个 数学 题 计 
算 程序 ， 他 插入 软盘 ， 然 后 重启 机 器 ,机 器 从 软盘 特定 的 扇 区 载 入 程序 代码 执行 ,结果 显 示 在 显 
示 器 上 ,比如 这 个 程序 2 个 小 时 运行 完毕 ， 第 一 个 人 从 显示 器 上 抄 下 结果 , 走 了 。 后 面 有 9 个 人 
在 排队 等 待 用 计算 机 。 然 后 第 二 个 人 同样 拿 着 他 的 软盘 , 插入 软驱 ,重启 …… 每 次 更 换 程序 ,都 
需要 重新 启动 机 器 ,简直 就 是 梦 魔 。 再 者 ， 如 果 某 个 程序 运行 期 间 , 会 有 空闲 状态 ， 则 其 他 程序 
也 仍然 需要 等 待 ，CPU 只 能 在 那里 空 振荡 。 


2. 操作 系统 的 多 任务 模式 


操作 系统 的 出 现 解决 了 这 两 个 问题 。 操 作 系 统 本 身 也 是 一 段 程序 , 计算 机 加 电 之 后 , 首先 运 
行 操作 系统 , 随时 可 以 载 入 其 他 程序 执行 , 也 就 是 说 , 它 可 以 随时 从 软盘 上 读 取 其 他 程序 的 代码 ， 
并 切换 到 这 段 代 码 上 让 CPU 执行 ， 执 行 完 毕 后 则 立即 切换 回 操作 系统 本 身 。 但 是 每 次 也 总 是 
等 待 这 个 程序 执行 完毕 ,才能 接着 载 入 下 一 个 程序 执行 。 当 被 载 入 的 程序 执行 的 时 候 , 不 能 做 任 
何其 他 的 事情 , 包括 操作 系统 本 身 的 程序 模块 , 任何 产生 中 断 的 事件 , 都 会 中 断 正 在 运行 的 程序 。 

程序 执行 完毕 之 后 ,会 将 CPU 使 用 权 归 还 操作 系统 ， 从 而 继续 操作 系统 本 身 的 运行 。 这 种 
操作 系统 称 为 单 任务 操作 系统 ， 典 型 代表 就 是 DOS。 

一 且 在 DOS 中 载 入 一 个 程序 执行 ， 如 果 没有 任何 中 断 事件 发 生 ， 则 这 个 程序 就 独占 CPU， 
执行 完毕 之 后 ， 回 到 DOS 操作 系统 ， 接 着 可 以 继续 执行 另外 一 个 程序 。 经 过 这 样 的 解决 ， 执 行 
多 个 程序 ， 期 间 就 再 也 不 用 重新 启动 机 器 了 。 

在 这 个 基础 上 , 操作 系统 又 将 多 个 程序 一 个 接 一 个 地 排列 起 来 , 成 批 地 执行 , 中 途 省 掉 了 人 
为 载 入 程序 的 过 程 , 这 叫做 批 处 理 。 批 处 理 操作 系统 , 相对 于 单 任务 操作 系统 来 说 , 可 以 顺序 地 、 
无 须 人 工 干预 地 批量 执行 程序 , 比 简单 的 单 任务 操作 系统 又 进 了 一 步 , 但 是 其 本 质 还 是 单 任务 性 ， 
即 一 段 时 间 之 内 ， 仍 然 只 会 观察 到 一 个 应 用 程序 在 运行 ， 仍 然 只 是 一 个 程序 独占 资源 。 

再 后 来 , 操作 系统 针对 系统 时 钟 中 断 , 开发 了 专门 的 中 断 服务 程序 , 也 就 是 多 任务 操作 系统 
中 的 调度 程序 。 时 钟 中 断 到 来 的 时 候 ，CPU 根据 中 断 向 量 表 的 内 容 ， 指 向 调度 程序 所 在 的 内 存 
地 址 入 口 ， 执 行 调度 程序 的 代码 ， 调 度 程序 所 做 的 就 是 将 CPU 的 执行 跳 转 到 各 个 应 用 程序 所 在 
的 内 存 地 址 入 口 。 每 次 中 断 ， 调 度 程序 以 一 定 的 优先 级 ， 指 向 不 同 程序 的 入 口 。 这 样 就 能 做 到 极 
细 粒 度 的 应 用 程序 入 口 切换 , 如 果 遇 到 某 个 程序 还 没有 执行 完毕 就 被 切 出 了 , 则 操作 系统 会 自动 
将 这 个 程序 的 运行 状态 保存 起 来 ， 待 下 次 轮 到 的 时 候 ， 提 取出 来 继续 执行 。 比 如 每 10ms 中 断 一 
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次 , 那么 也 就 是 说 每 个 应 用 程序 ,可 以 运行 10ms 的 时 间 , 然后 CPU 运行 下 一 个 程序 , 这 样 依次 
轮回 。 微观 上 , 每 个 程序 运行 的 时 候 , 还 是 独占 CPU, 但 是 这 个 独占 的 时 间 非 常 小 , 通常 为 10ms， 
那么 一 秒 就 可 以 在 宏观 上 “同时 ”运行 100 个 程序 。 这 就 是 多 任务 操作 系统 。 多 任务 操作 系统 的 
关键 ， 就 是 具有 多 任务 调度 程序 。 

通过 这 样 的 虚拟 化 ,运行 在 操作 系统 之 上 的 所 有 程序 都 会 认为 自己 是 独占 一 台 计算 机 的 硬件 
fs 

3. 虚拟 化 的 好 处 


上 面 介绍 了 计算 机 硬件 以 及 操作 系统 , 其 实 计算 机 系统 从 诞生 的 那 一 天 开始 , 就 在 不 断 地 进 
行 着 虚拟 化 过 程 ， 时 至 今日 ， 计 算 机 虚拟 化 进程 依然 在 飞快 发 展 着 。 

硬件 逻辑 被 虚拟 化 成 汇编 语句 , 汇编 语句 再 次 被 封装 , 虚拟 化 成 高 级 语言 的 语句 。 高 级 语言 
的 语句 ， 再 次 被 封装 ， 形 成 一 个 特定 目的 的 程序 ， 或 者 称 为 函数 ， 然 后 这 些 函 数 ， 再 通过 互相 调 
， 生 成 更 复杂 的 函数 ,再 将 这 些 函 数组 合 起 来 ,就 形成 了 最 终 的 应 用 程序 。 程 序 再 被 操作 系统 
虚拟 成 一 个 可 执行 文件 。 其 实 这 个 文件 代表 了 什么 呢 ? 到 了 底层 ， 其 实 就 是 一 次 一 次 的 对 CPU 
的 电路 信号 刺激 。 也 就 是 说 , 硬件 电路 逻辑 ,一 层 层 地 被 虚拟 化 ,最终 虚拟 成 一 个 程序 。 程 序 就 
是 对 底层 电路 上 下 文 逻辑 的 另 一 种 表达 形式 。 

虚拟 化 的 好 处 显而易见 ， 虚 拟 化 将 下 层 的 复杂 逻辑 转变 为 上 层 的 简单 逻辑 ， 方 便 人 类 读 懂 ， 
也 就 是 说 “科技 ， 以 人 为 本 ”。 任何 技术 ,都 是 为 了 将 上 层 逻 辑 变 得 更 加 简单 ， 而 不 是 越 变 越 复 
杂 ， 当 然 使 上 层 越 简单 ， 下 层 就 要 做 更 多 的 工作 ， 就 越 复杂 。 

整个 计算 机 技术 ， 从 开始 到 现在 ， 就 是 一 个 不 断 地 抽象 、 封 装 、 虚 拟 、 映 射 的 过 程 , 一 直到 
现在 还 在 不 断 抽象 封装 着 ， 比 如 Java 等 比 C 抽象 封装 度 更 高 的 高 级 语言 ， 当 然 使 用 起 来 也 比 C 
方便 和 简单 多 了 , 但 是 随 之 而 来 的 , 其 下 层 就 要 复杂 一 些 ， 所 以 Java 代码 一 般 运 行 速度 慢 , 耗费 
资源 也 大 ,但 是 对 于 现在 飞速 发 展 的 硬件 能 力 ， 是 不 成 问题 的 。 

同样 ，CPU 也 不 仅仅 只 是 一 味 地 增加 晶体 管 数 量 这 么 简单 。CPU 制造 者 也 在 想 尽 办 法 将 一 
些 功能 封装 到 CPU 的 逻辑 电路 中 ， 从 而 出 现 了 更 多 的 指令 集 ， 这 些 指令 集 就 像 程 序 函 数 一 样 ， 
不 必 理 解 它 内 部 到 底 怎 么 实现 的 , 只 需要 发 给 CPU，CPU 就 会 启动 逻辑 电路 计算 。 到 目前 为 止 ， 
Intel 的 CPU 已 经 发 展 到 了 酷 寄 多 核 , 主 频 1.6GHz 的 酷 寄 四 核 CPU ,性 能 毫 无 悬念 地 比 主 频 3GHz 
甚至 超频 到 4GHz 的 奔腾 4 代 CPU 还 高 。 所 以 CPU 的 设计 除了 提高 主 频 之 外 , 更 重要 的 是 内 部 
逻辑 的 优化 ， 集 成 度 的 提高 ， 更 多 的 抽象 和 封装 。 

提示 : 虚拟 化 的 思想 在 计算 机 的 各 个 方面 都 是 存在 的 ， 比 如 经 典 的 OSI 模型 ， 就 是 一 个 不 

折 不 扣 的 抽象 虚拟 模型 ,尤其 是 TCP/IP 协议 给 上 层 抽象 出 来 的 Socket 接口 , 即 "插座 接口 ”， 

也 可 以 理解 为 ,只 要 将 插头 接 上 这 个 插座 , 就 会 和 网 络 接 通 , 而 不 必 管 它 是 怎么 实现 的 , 就 

像 将 交流 电 插 头 插入 市 电 插座 一 样 , 插 上 就 获得 了 电压 ， 而 不 用 管 市 电 电网 的 拓扑 , 更 不 用 

关心 国家 总 电网 的 拓扑 了 。 


14.2 ”计算 机 存储 子 系统 的 虚拟 化 


上 面 介绍 了 很 多 关于 汇编 和 操作 系统 的 虚拟 抽象 ,下 面 将 介绍 计算 机 系统 中 的 存储 子 系统 中 
的 虚拟 化 。 


i 
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存储 子 系统 的 元 素 包 括 磁盘 、 磁 盘 控制 器 、 存 储 网 络 、 磁 盘 阵 列 、 卷 管理 层 、 目 录 虚 拟 层 及 
文件 系统 虚拟 层 。 下 面 从 下 到 上 ， 一 一 描述 这 几 个 元 素 ， 看 看 存储 子 系统 是 怎么 抽象 虚拟 的 。 


1. 磁盘 控制 器 


磁盘 控制 器 的 工作 就 是 根据 驱动 程序 发 来 的 磁盘 读 写 信息 ， 向 磁盘 发 送 SCSI 指令 和 数据 。 
这 个 部 件 看 似 没有 什么 可 抽象 虚拟 的 东西 , 其 实 磁盘 控制 器 完全 可 以 对 其 驱动 程序 隐藏 其 下 挂 的 
物理 磁盘 ,而 虚拟 出 一 个 或 者 多 个 虚拟 磁盘 。 由 控制 器 来 完成 虚拟 磁盘 和 物理 磁盘 的 映射 和 抽象 
虚拟 。RAID 就 是 一 个 典型 代表 ， 控 制 器 将 物理 磁盘 组 成 RAID Group， 然 后 在 RG 的 基础 上 ， 
虚拟 出 多 个 LUN,， 通告 给 主机 驱动 。 


2. 存储 网 络 


早期 的 存储 子 系统 ， 没 有 网 络 化; 而 目前 的 存储 系统 ， 网 络 化 已 经 非常 彻底 。 从 磁盘 到 磁盘 
阵列 控制 嚣 ， 从 磁盘 阵 控制 器 到 主机 总 线 适配器 ， 都 已 经 嵌入 了 网 络 化 元 素 。 比 如 使 用 FC 协议 ， 
或 者 TCP/IP 协议 、SAS 协议 、Infiniband 协议 等 。 那么 在 这 一 层 上 , 有 什么 可 以 抽象 的 吗 ? 网络 化 
只 是 为 部 件 之 间 提 供 了 一 种 可 扩展 的 传输 通路 而 已 ， 貌 似 在 这 个 层面 上 不 能 做 出 什么 大 文章 来 。 

实则 不 然 ， 这 一 层 也 是 有 所 深究 的 。 在 交换 式 SAN 中 , 不管 是 基于 TCP/IP 协议 的 还 是 基 
于 FC 协议 的 SAN, 网 络 中 的 任何 节点 , 都 是 通过 交换 设备 来 互相 通信 ， 这 是 节点 间 通 信 的 必 经 
之 路 。 如 果 在 交换 设备 上 做 点 手脚 ， 就 完全 可 以 达到 虚拟 化 的 效果 。 

要 抽象 一 种 逻辑 ,那么 一 定 要 理解 这 种 逻辑 , 所 以 我 们 可 以 在 FC 交换 机 或 者 以 太 网 交换 机 
上 , 艇 入 SCSI 协议 感知 模块 。 比 如 某 个 N 节点 向 另 一 个 N 节点 Report LUN 的 时 候 ， 交 换 机 收 
到 这 个 Frame， 则 可 以 感知 这 个 N 节点 的 LUN 信息 。 如 果 此 时 网 络 中 还 有 另 一 个 节点 的 LUN 
信息 ， 则 可 以 在 交换 机 这 一 层 到 达 这 两 个 节点 的 LUN 的 镜像 。 也 就 是 说 ,SCSI 发 起 设备 向 目标 
设备 传输 的 数据 ， 经 由 交换 机 的 时 候 , 交换 机 内 嵌 的 虚拟 化 模块 , 会 主动 复制 对 应 的 帧 到 另 一 个 
节点 的 LUN 上 ， 让 这 两 个 LUN 形成 镜像 ， 当 其 中 一 个 节点 故障 的 时 候 ， 交 换 机 因为 知道 此 时 
还 有 一 个 备份 镜像 LUN 存在 ， 所 以 并 不 会 向 发 起 者 通告 失败 ， 而 是 默默 地 将 发 起 者 的 数据 重 定 
向 到 这 个 镜像 的 LUN， 发 起 设备 并 不 会 感知 ， 这 样 ， 就 达到 了 基于 网 络 层 的 虚拟 化 抽象 。 

当然 , 网 络 层 的 虚拟 化 并 不 只 是 镜像 , 是 将 某 些 N 节点 的 LUN 合并 成 一 个 池 , 然后 动态 地 
从 这 个 池 中 再 划分 出 虚拟 LUN, 向 发 起 者 报告 等 。 基于 这 些 思想 , 已 经 开发 出 了 智能 FC 交换 机 。 


3. 磁盘 阵列 


磁盘 阵列 可 以 说 本 身 就 是 一 个 小 计算 机 系统 (JBOD 除外 ) ， 这 个 系统 五 脏 俱全 ， 是 对 存储 
子 系统 的 抽象 虚拟 化 最 佳 的 表现 。 磁 盘 阵 列 ， 简 要 地 说 ， 就 是 将 大 量 磁盘 进行 组 织 管理 ， 抽 象 虚 
拟 ， 最 终 形成 虚拟 的 逻辑 磁盘 ,最 后 通过 和 主机 适配器 通信 , 将 这 些 逻 辑 磁盘 呈现 给 主机 。 这 个 
功能 和 前 面 提 到 的 磁盘 控制 器 的 功能 类 似 , 但 是 磁盘 阵列 能 比 狭义 的 磁盘 控制 器 提供 更 多 的 特色 
功能 ,况且 简单 地 插 在 主机 IO 总 线 上 的 那 种 RAID 磁盘 控制 器 ， 其 接 入 磁盘 数量 有 限 ， 功 能 也 
有 限 。 

大 型 磁盘 阵列 , 有 自己 的 控制 器 , 有 的 利用 嵌入 式 技 术 , 将 特别 定制 的 操作 系统 及 其 核心 管 
理 软 件 嵌 入 芯片 中 , 来 管理 整个 控制 器 并 实现 其 功能 ; 有 的 则 干脆 利用 现成 的 主机 来 充当 盘 阵 控 
制 器 的 角色 ， 比 如 IBM 的 DS8000 系列 盘 阵 ， 内 部 就 是 用 的 两 台 IBM P 系列 小 型 机 作为 其 组 织 
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管理 磁盘 的 控制 器 ， 其 上 运行 AIX 操作 系统 和 相应 的 存储 管理 软件 。 

不 管 是 嵌入 式 , 还 是 主机 式 的 ， 盘 阵 控制 器 所 担任 的 角色 都 是 类 似 的 。 这 个 中 心 控制 器 , 不 
直接 参与 连接 每 块 磁盘 ， 而 是 利用 后 端 适配器 来 管理 下 挂 的 磁盘 ， 由 后 端 适配器 向 其 上 级 汇报 。 

这 些 适 配器 ， 就 是 由 中 心 控制 器 驱动 的 二 级 磁盘 控制 器 ， 这 些 磁盘 控制 器 作为 中 心 CPU 的 
IO 适配器 ， 直 接 控制 和 管理 物理 磁盘 ， 然 后 由 中 心 控制 器 统一 实现 RAID 、 卷 等 高 级 功能 ( 有 
些 盘 阵 则 可 以 将 简单 的 RAID 功能 直接 下 放 给 二 级 控制 器 来 做 )。 后 端 适 配器 与 中 心 控制 器 CPU 
之 间 通 过 某 种 总 线 技术 连接 , 如 PCIX、PCIE 总 线 等 。 中心 控制 器 对 这 些 磁 盘 进 行 虚拟 抽象 之 后 ， 
通过 前 端的 接口 ,向 最 终 使 用 它 的 主机 进行 通告 。 中 心 控制 器 不 但 可 以 实现 最 基本 的 RAID 功能 ， 
而 且 可 以 实现 很 多 高 级 功能 ， 如 LUN 镜像 、 快 照 、 远 程 复 制 、CDP 数据 保护 、LUN 再 分 配 等 。 
在 磁盘 阵列 上 实现 虚拟 化 ， 是 目前 最 广泛 的 一 种 存储 系统 虚拟 化 形式 。 

有 些 产 品 甚至 学 成 了 借 花 献 佛 的 本 领 。 比 如 NetApp 公司 V 系列 NAS 网 关 、HDS 公司 的 某 
些 存储 设备 以 及 IBM 公司 的 SVC。 这 些 设 备 面 对 后 端 存储 时 ， 它 就 是 主机 ， 而 面 对 前 端 主机 的 
时 候 ， 它 们 就 是 存储 ， 如 图 14-1 所 示 。 


磁盘 阵列 2 

图 14-1 借 花 献 佛 
提示 : 乍 一 感觉 这 台 虚 拟 化 设备 也 真 够 无 赖 的 ， 明 明 自 己 没有 磁盘 却 能 踩 着 别人 的 脚 向 外 
提供 LUN， 明 明 就 是 自己 向 别人 租赁 来 的 然后 又 装修 了 一 把 ， 转 租 出 去 。 但 是 我 们 非常 需 
要 这 种 设备 ， 因 为 它 帮 了 大 忙 。 


假如 ,图 14-1 中 磁盘 阵列 1 的 容量 为 1TB， 磁 盘 阵 列 2 的 容量 为 1TB， 而 某 台 主机 需要 一 
个 容量 为 2TB 大 小 的 LUN， 这 怎么 办 呢 ? 我们 可 以 在 主机 上 安装 卷 管理 软件 ， 让 VM 把 这 两 个 
1TB 的 LUN 合并 成 一 个 2TB 的 卷 即 可 。 但 是 这 么 做 需要 耗费 主机 资源 ， 且 虚拟 好 的 新 LUN 只 
能 给 这 人 台 主 机 使 用 。 而 一 些 旧 的 低 端 设备 , 由 于 其 容量 和 性 能 等 已 经 不 能 满足 要 求 ， 如 果 可 以 将 
这 些 设备 挂 到 这 台 虚 拟 化 设备 上 , 作为 一 个 二 线 存储 资源 , 这 样 就 将 所 有 的 存储 资源 整合 到 了 一 
起 ， 统 一 管理 和 分 配 。 

要 想 获得 足够 的 性 能 和 灵活 性 ， 就 需要 图 14-1 所 示 的 虚拟 化 设备 了 。 
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这 个 设备 在 盘 阵 端 (后 端 ) 的 FC HBA 卡 处 于 FC Initiaor 模式 ， 即 在 后 端 ， 这 台 设 备 以 主 
机 模式 出 现 。 而 在 前 端 ( 主机 端 ) ， 这 台 设 备 的 FC HBA 卡 为 FC Target 模式 ， 即 它 以 盘 阵 的 角 
色 出 现 。 这样, 这 台 设 备 就 可 以 从 其 后 端 掌管 LUN， 然后 将 这 些 LUN 合并 并 再 次 灵活 分 割 ， 呈 
交 给 其 前 端的 多 台 主 机 使 用 。 除 了 简单 的 合并 再 分 割 LUN 之 外 ， 这 台 设 备 还 可 以 做 许多 其 他 数 
据 管理 操作 ， 比 如 将 两 个 LUN 镜像 、 快 照 、CDP 等 。 


4. 卷 管理 层 


卷 管理 层 是 指 运行 在 应 用 主机 上 的 功能 模块 。 它 负责 底层 物理 磁盘 或 者 LUN 的 收集 和 再 分 
配 。 经 过 盘 阵 控制 器 虚拟 化 之 后 生成 的 LUN 提交 给 主机 使 用 ， 主 机 可 以 对 这 些 LUN 进行 再 次 
抽象 和 虚拟 , 也 就 是 重复 虚拟 化 , 比如 对 其 中 两 个 LUN 进行 镜像 处 理 , 或 者 对 其 中 的 多 个 LUN， 
做 成 一 个 软 RAID 系统 。 再 或 者 将 所 有 LUN 合并 ， 形 成 一 个 大 的 资源 池 ， 然 后 像 矿 面团 一 样 禾 
成 多 个 卷 , 这 个 过 程 和 磁盘 控制 器 、 盘 阵 控制 器 所 做 的 虚拟 化 动作 类 似 , 但 是 这 个 动作 是 在 主机 
上 实现 的 。 典 型 的 卷 管理 软件 有 LVM， 或 者 第 三 方 的 软件 ， 比 如 Veritas 公司 的 VxVM。 


5. 文件 系统 


数据 只 是 存储 到 磁盘 上 就 完了 吗 ? 显然 不 是 。 打 个 比方 , 有 位 记者 早晨 出 去 采访 , 手中 拿 了 
一 摆 纸 ， 他 每 看 到 一 件 事 就 记录 下 来 。 对 于 “怎么 将 字 写 在 纸 上 ” 这 个 问题 ， 他 是 这 么 解决 的 ， 
他 用 笔 在 格子 上 写字 , 写 满 一 行 再 写 下 一 行 , 还 不 够 就 换 一 张 纸 。 对 于 “怎么 让 自己 在 纸 上 写 字 ” 
这 个 问题 ， 是 他 自己 通过 大 脑 (控制 器 ) ， 通 过 神经 网 络 (SCSI 线 缆 ) ， 操 纵 自 己 的 手指 ( 磁 
头 辟 ) ， 拿 着 笔 (磁头 ) ,看 见 有 格子 ,就 向 里 写 。 这 两 个 问题 都 解决 了 。 可 是 这 一 天 下 来 ,他 
回去 想 看 看 一 天 都 发 生 了 什么 , 他 拿 出 记录 纸 ， 却 发 现 , 信息 都 是 零散 的 ,根本 无 法 阅读 ， 有 时 
候 读 到 一 半 , 就 断 了 ,显然 当时 是 因为 格子 不 够 用 了 ， 写 到 其 他 地 方 了 ,造成 了 信息 记录 的 不 连 
续 ， 有 的 地 方 还 有 删除 线 ， 证明 这 一 块 作废 了 ,那么 有 效 的 记录 到 底 在 哪里 呢 ? 记者 方寸 大 乱 ， 
数据 虽然 都 完好 地 记录 在 纸 上 , 但 是 它们 都 是 不 连续 的 、 凌 乱 的 ， 当 时 是 都 记 下 来 了 , 但 是 事后 
想 要 读 取 时 却 没 略 了 。 

磁盘 记录 也 一 样 ,只 解决 磁盘 怎么 记录 数据 和 怎么 让 磁盘 记录 数据 ,是 远 远 不 够 的 , 还 应 该 
考虑 “怎么 组 织 磁盘 上 的 数据 ”。 

还 是 用 这 个 记者 的 例子 来 说 明 。 我 们 都 能 想到 , 将 凌乱 的 记录 组 织 成 完整 的 一 个 记录 , 只 需 
要 在 相应 的 地 方 做 一 下 标记 ， 比 如 “此 文章 下 一 段位 于 某 某 页 ， 第 几 行 ”， 就 像 路 标 一 样 , 一 次 
一 次 地 指引 你 最 终 找 出 这 个 完整 的 数据 ， 这 个 思想 称 为 “链表 ”。 

如 果 将 这 个 链表 单独 地 做 成 一 个 记录 , 存放 到 固定 位 置 , 每 次 只 要 参考 这 个 表 , 就 能 找 出 一 
条 数据 在 磁盘 上 的 完整 分 布 情况 。 利 用 这 种 思想 做 出 来 的 文件 系统 ， 比 如 FAT 文件 系统 ， 它 把 
每 个 完整 的 数据 称 为 文件 。 文件 可 以 在 磁盘 上 不 连续 地 存放 ,由 单独 的 数据 结构 来 描述 这 个 文件 
在 磁盘 上 的 分 布 ， 这 个 数据 结构 就 是 文件 分 配 表 。File Allocate Table， 也 就 是 FAT 的 由 来 。 或 者 
另 一 种 思想 来 组 织 不 连续 的 数据 , 比如 NTFS, 它 是 直接 给 出 了 一 个 文件 在 磁盘 上 的 具体 扇 区 ， 
开始 一 结束 ,开始 一 结束 ,用 这 样 的 结构 来 描述 文件 的 分 布 情况 。 

文件 系统 将 磁盘 抽象 成 了 文件 柜 , 同一 份 文件 可 能 存放 在 一 个 柜子 的 不 同 抽 屠 中 , 利用 一 份 
竺 别 的 文件 来 记录 “文件 一 对 应 抽 居 ”的 分 布 情况 , 这 些 用 来 描述 其 他 文件 分 布 情况 及 其 属性 的 
文件 ， 称 为 元 文件 ( Metadata ) 。 元 文件 一 般 情况 下 要 存放 在 磁盘 的 固定 位 置 ， 而 不 能 将 其 分 散 ， 
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因为 最 终 要 有 一 个 绝对 参考 系统 。 但 是 有 些 文件 系统 ,甚至 将 元 文件 也 可 以 像 普通 文件 一 样 , 在 
磁盘 上 不 连续 地 分 布 。 前面 还 说 过 一 定 要 有 一 个 绝对 参考 系统 ,也 就 是 周 定 的 入 口 ， 所 以 这 些 特 
殊 的 文件 系统 ， 其 实 最 上 层 还 是 有 一 个 绝对 参考 点 的 ， 这 个 参考 点 将 生成 元 文件 /在 磁盘 上 的 分 
布 情况 记录 ， 从 而 定位 元 文件 ,再 根据 元 文件 ， 定 位 数据 文件 ， 这 样 一 层 一 层 地 幢 套 ,最 终 形成 
文件 系统 。 

最 终 一 句 话 , 文件 系统 是 对 磁盘 块 的 虚拟 、 抽 象 、 组 织 和 管理 。 用 户 只 要 访问 一 个 个 的 “ 文 
件 ”， 就 等 于 访问 了 磁盘 扇 区 。 而 访问 文件 ， 这 个 动作 是 非常 容易 理解 的 ， 也 是 很 简单 的 ， 用 户 
不 必 了 解 这 个 文件 最 终 在 磁盘 上 是 存放 到 哪里 , 怎么 存放 的 , 怎么 访问 磁盘 来 存放 这 个 文件 , 这 
些 统统 都 是 由 文件 系统 和 磁盘 控制 器 驱动 程序 来 做 。 


6. 目录 虚拟 层 


不 管 是 Windows 系统 、UNIX 系统 ， 还 是 Linux 系统 ， 其 内 部 都 有 一 个 虚拟 的 目录 结构 。 
在 Linux 中 叫做 VES， 即 Virtual File System 

虚拟 文件 系统 , 顾名思义 也 就 是 说 这 个 文件 系统 目录 并 不 是 真实 的 , 而 是 虚拟 的 。 任 何 实际 
文件 系统 ， 都 可 以 挂 载 到 这 个 目录 下 ,真实 FS 中 的 真实 目录 ， 被 挂 载 到 这 个 虚拟 目录 下 之 后 ， 
就 成 为 了 这 个 虚拟 目录 的 子 目录 。 这 样 做 的 好 处 是 增强 灵活 性 。 其 次 ,操作 系统 目前 处 理 外 部 设 
备 ， 一 般 都 将 其 虚拟 成 一 个 虚拟 文件 的 方式 ， 比 如 一 个 卷 , 在 Linux 中 就 是 /dev/hda 这 种 文件 。 
对 这 个 文件 进行 读 写 ， 就 等 于 直接 对 设备 进行 了 读 写 。 

存储 子 系统 的 虚拟 化 , 可 以 在 “磁盘 一 盘 阵 控制 器 - 存储 网 络 - 主机 总 线 适 配器 - 卷 管理 层 
一 文件 系统 层 -虚拟 目录 层 和 最 终 应 用 层 ” 各 个 环节 虚拟 抽象 地 工作 , 使 得 最 终 应 用 软件 ， 只 要 
通过 文件 系统 访问 文件 ， 就 可 以 做 到 访问 最 底层 的 磁盘 一 样 的 效果 。 有 时 候 还 可 以 重复 虚拟 化 。 


14.3” 带 内 虚拟 化 和 带 外 虚拟 化 


所 谓 带 内 即 In Band， 是 指控 制 信 令 和 数据 走 的 是 同一 条 路 线 。 所 谓 控制 信 令 ， 就 是 说 用 来 控 
制 实 际 数据 流向 和 行为 的 数据 。 典 型 的 控制 信 令 , 比如 下 网 络 中 的 各 种 人 P 路 由 协议 所 产生 的 数据 
包 ， 它 们 利用 实际 数据 线路 进行 传输 ， 从 而 达到 各 个 设备 之 间 的 路 由 统一 ， 这 就 是 带 内 的 概念 。 

带 外 即 Out Band， 是 指控 制 信 令 和 实际 数据 走 的 不 是 同一 条 路 ， 控 制 信 令 走 单独 的 通路 ， 
受到 “优待 ”。 

带 内 和 带 外 ,只 是 一 种 叫 法 而 已 , 在 电话 信 令 中 , 带 内 和 带 外 是 用 “ 共 路 ”和 “ 随 路 ”这 两 
个 词 来 描述 的 。 共 路 信 令 指 的 是 控制 信 令 和 实际 数据 走 相 同 的 线路 ; 随 路 信 令 则 指 二 者 走 不 同 的 
线路 ， 信 令 单 独 走 一 条 线路 。 随 路 又 可 以 称 作 “ 旁 路 ”， 因 为 它 是 单独 一 条 路 。 

明白 了 上 面 这 些 概念 ， 用 户 就 可 以 理解 所 谓 “ 带 内 虚拟 化 ”和 “ 带 外 虚拟 化 ”的 概念 了 。 

带 内 虚拟 化 , 就 是 说 进行 虚拟 化 动作 的 设备 , 是 直接 横 插 在 发 起 者 和 目标 路 径 之 间 的 , 斩 断 
了 二 者 之 间 的 通路 ,执行 中 介 操作 ， 发 起 者 看 不 到 目标 ,而 只 能 看 到 经 过 虚拟 化 的 虚拟 目标 。 所 
以 在 带 内 虚拟 化 方式 下 , 数据 流 一 定 会 经 过 路 径 上 的 所 有 设备 , 即 所 有 设备 是 串联 在 同一 条 路 径 
上 的 ， 虚拟 化 设备 插入 这 条 路 径 中 ， 作 为 一 个 “ 泵 ”， 经 过 它 的 时 候 就 被 虚拟 化 了 。 

带 外 虚拟 化 , 则 是 在 这 个 路 径 旁 另 起 一 条 路 径 , 也 就 是 所 谓 旁 路 。 用 这 条 路 径 来 走 控制 信号 ， 
而 实际 数据 还 是 由 发 起 者 直接 走向 目标 。 但 是 这 些 数据 流 是 受 控制 信 令 所 控制 的 , 也 就 是 发 起 者 
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必须 先 “ 咨 询 ” 旁 路 上 的 虚拟 化 设备 ， 经 过 “提示 ”或 者 “授权 ”之 后 , 才 可 以 根据 虚拟 化 设备 
发 来 的 “指示 ”直接 向 目标 请 求 数据 。 带 外 虚拟 化 方式 中 ， 数 据 通路 和 信 令 通路 是 并 联 的 。 

带 内 虚拟 化 的 例子 非常 多 ,目前 的 虚拟 化 引擎 几乎 都 是 带 内 虚拟 化 -IBM 的 SVC( San Volume 
Controller ) 、Netapp 的 V-series、HDS 公司 的 USP 系列 等 ， 它 们 都 是 带 内 虚拟 化 引擎 。 


1. 带 外 虚拟 化 系统 SanFS 
带 外 虚拟 化 的 一 个 典型 的 例子 ,是 IBM 公司 的 SanFS 系统 ,图 14-2 显示 了 SanFS 的 基本 架构 。 


前 端 以 太 网 交换 机 


图 14-2 IBM 公司 的 SanFS 架构 示意 图 

SanFS 其 实 根 本 没有 什么 高 深 的 地 方 ， 说 白 了 ，SanFS 就 是 一 个 网 络 上 的 文件 系统 ， 也 就 是 
说 ,常规 的 文件 系统 都 是 运行 在 主机 服务 器 上 的 ， 而 SanFS 将 它 搬 到 了 网 络 上 ， 用 一 台 专 门 的 设 
备 来 处 理 文件 系统 逻辑 。 

然而 ,这 个 “网 络 上 的 文件 系统 ” 却 绝对 不 是 “网 络 文件 系统 ”。 网 络 文件 系统 是 典型 的 带 
内 虚拟 化 方式 ， 因 为 网 络 文件 系统 对 上 层 屏 蔽 了 底层 卷 , 只 给 上 层 提供 一 个 目录 访问 接口 ， 上 层 
看 不 到 网 络 文件 系统 底层 的 卷 ， 只 能 看 到 目录 。 而 SanFS 架构 中 ， 上 层 既 能 看 到 文件 系统 目录 ， 
又 能 看 到 底层 卷 (LUN ) ， 如 图 14-3 所 示 。 


主机 服务 器 
内 存 中 所 运行 的 


a 
| 才思 肌 务 器 交代 


内 存 中 所 运行 的 


以 太 网 适 信 
只 承载 元 数据 


图 14-3 ”SanFS 架构 示意 图 
图 14-3 中 , 左边 的 服务 器 是 一 台 普通 的 服务 器 , 右边 是 一 台 使 用 SanFS 文件 系统 的 服务 器 。 
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右边 的 服务 器 上 的 文件 系统 已 经 被 搬 到 了 外 面 ， 即 运行 在 一 台 SanFS 控制 器 上 , 这 个 控制 器 与 服 
务 器 都 接 入 一 台 以 太 网 交换 机 。 当 虚拟 目录 层 需要 与 文件 系统 层 通信 的 时 候 , 通信 路 径 不 再 是 内 
存 , 而 是 以 太 网 了 。 由 于 文件 系统 已 经 被 搬出 主机 ， 所 以 任何 与 文件 系统 的 通信 都 要 被 重 定向 到 
外 部 ,并 且 需 要 用 特定 的 格式 , 将 请 求 通过 以 太 网 发 送 到 SanFs 控制 器 ,以 及 从 控制 器 接受 相应 
的 回应 , 所 以 在 使 用 SanFs 的 服务 器 主机 上 ,必须 安装 SanFS 管理 软件 (或 者 叫做 SanFs 代理 ) 。 

下 面 用 几 个 实例 来 说 明 SanFs 是 如 何 作用 的 。 

实例 1 

服务 器 运行 Windows 2003 操作 系统 ， 使 用 SanFS 作为 文件 系统 的 卷 的 盘 符 为 “S” 盘 。 在 
Windows 中 双击 盘 符 $, 此 时 VFS 虚拟 目录 层 便 会 发 起 与 SanFSs 控制 器 的 通信 ， 因 为 需要 获取 盘 
符 S 根 目录 下 的 文件 和 目录 列表 。 所 以 VFS 调用 SanFS 代理 程序 , 通过 以 太 网 络 向 SanFS 控制 器 
发 送 请 求 ,请 求 $ 根 目录 的 文件 列表 ,SanFS 控制 器 收 到 请 求 之 后 ,将 列表 通过 以 太 网 发 送 给 SanFS 
代理 ， 代 理 再 传递 给 VFS， 随 即 就 可 以 在 窗口 中 看 到 文件 和 目录 列表 了 。 

实例 2 

某 时 刻 ， 某 应 用 程序 要 向 S 盘 根 目录 下 写 入 一 个 大 小 为 1MB 的 文件 。VEFS 收 到 这 个 请 求 之 
后 ， 立 即 向 SanFS 控制 器 发 送 请 求 ，SanFS 控制 器 收 到 请 求 之 后 ， 计 算出 应 该 使 用 卷 上 的 哪些 空 
闲 块 ， 将 这 些 空闲 块 的 LBA 号 码 列表 以 及 一 些 其 他 必要 信息 通过 以 太 网 传送 到 服务 器 。 服 务 器 
上 的 SanFs 收 到 这 些 信息 后 , 便 调用 操作 系统 相关 模块 ,将 应 用 的 数据 从 服务 器 的 内 存 中 直接 向 
下 写 入 对 应 卷 的 LBA 地 址 上 。 

SanFS 系统 是 一 个 典型 的 带 外 虚拟 化 系统 ， 服 务 器 主机 虽然 可 以 看 到 底层 卷 , 但 是 管理 这 个 
卷 的 文件 系统 , 却 没有 运行 在 主机 上 ， 而 是 运行 在 主机 之 外 。 主 机 与 这 个 文件 系统 之 间 通 过 前 端 
以 太 网 通信 ， 收 到 文件 系统 的 指示 之 后 ， 主 机 才 按 照 指示 将 数据 直接 写 入 卷 。 

SanFS 究竟 有 何 意义 呢 ? SanFS 是 不 是 有 点 多 此 一 举 呢 ? 放 着 主机 内 存 这 么 好 的 风水 宝地 不 
用 , 却 自己 跑 出 去 单独 运行 ， 和 别人 通信 还 得 忍受 以 太 网 的 低速 度 ( 相对 内 存 来 说 ) ， 这 是 何苦 
呢 ? 煞费苦心 的 SanFs 当然 有 自己 的 算盘 ， 这 么 做 的 原因 如 下 。 

将 文件 系统 逻辑 从 主机 中 剥离 出 来 ， 降 低 主 机 的 负担 。 

既然 将 文件 系统 从 主机 剥离 出 来 , 为 何不 干脆 做 成 NAS 呢 ? NAS 同样 也 是 将 文件 系统 搬移 
出 主机 。 答 案 是 因为 向 NAS 传输 数据 ， 走 的 是 以 太 网 ， 速 度 相 对 FC SAN 要 慢 。 所 以 SanFS 的 
设计 是 只 有 元 数据 的 数据 流 走 以 太 网 ， 实 际 数据 依然 由 主机 自行 通过 SAN 网 络 写 入 盘 阵 等 存储 
设备 。 这 样 就 加 快 了 数据 的 传输 速度 ， 比 NAS 有 优势 。 

其 实 SanFS 一 个 最 大 的 特点 , 就 是 支持 多 台 主 机 共享 同一 个 卷 , 即 同一 时 刻 可 以 由 多 台 主 机 
共同 读 写 ( 注意 是 读 写 ) 同一 个 SanFS 卷 。 这 也 是 SanFS 最 大 的 卖点 。 共 享 同一 个 LUN 的 所 有 
主机 ， 都 与 SanFS 控制 器 通信 以 获得 访问 权限 ， 所 以 SanFs 干脆 就 自己 单独 占用 一 台 专 用 设备 ， 
放 在 网 络 上 ， 也 就 是 SanFS 控制 器 ， 这 样 可 以 让 所 有 主机 方便 地 与 它 连 接 。 


2. SanFS 与 NAS 的 异同 
SanFS 与 网 络 文件 系统 究竟 有 何不 同 呢 ， 如 图 14-4 所 示 。 
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了 我 只 能 看 到 了 ”我 不 但 硕 看 到 


和 去 SanFS 习 录 , 还 
NSE Th 
时 全 /sanfsitmp 文 
件 要 写 入 ， 麻 类 
各 诉 我 应 该 向 哪 
吉 BA 入 雪 所 


——— 
| 以 太 网 交换 机 

2、 知 道 了 。 你 
、 这 个 文件 对 | 

二 导管 了 ， 我 保 到 

3 三 LBA1024 到 | 十 四 


3、 请 向 LBA1024 
垃 LBA2048 启 区 瑟 | 
3、 向 LBA1024 A 
b 好 ， 娠 托 了 ! 
到 BA2048 记 区 都 ， 
写 入 我 给 你 的 数 
据 ， 合 好 ， 和 拜托 


带 内 虚拟 化 带 外 虚拟 化 
图 14-4 SanFS 与 NAS 的 异同 
显然 , NAS ( 网 络 文件 系统 ) 与 SanFS 是 截然 不 同 的 。 主 机 向 NAS 写 入 数据 ， 其 实 要 经 历 
两 次 写 的 过 程 ， 第 一 次 写 是 主机 将 数据 通过 以 太 网 发 送 给 NAS 的 时 候 , 第 二 次 写 是 NAS 将 收 到 
的 数据 写 入 自己 的 硬盘 ( 本 地 磁盘 或 者 SAN 上 的 LUN 卷 ) 。 而 SanFS 只 写 入 一 次 数据 ， 而 且 是 
通过 FC SAN ， 而 不 是 相对 慢 速 的 以 太 网 。 


3. 轮回 和 谍 套 虚拟 化 


以 太 网 在 传统 上 是 用 来 承载 耳 的 ,但 是 有 一 些 技术 是 将 以 太 网 承载 到 也 之 上 的 ,比如 VPLS。 
VPLS 属于 一 种 极端 变态 的 协议 杂交 方式 。 它 网 套 了 多 次 ， 也 轮回 了 多 次 。 

VPLS 可 以 说 是 对 以 太 网 VLAN 技术 的 一 种 上 层 扩展 。 传 统 VLAN 使 用 VLAN 标签 来 区 分 
不 同 的 域 ，VPLS 则 可 以 直接 通过 用 不 同 的 人 P 来 封装 以 太 网 头 来 区 分 各 个 以 太 网 域 。 

这 个 技术 也 从 一 个 侧面 表明 了 TCP/IP 在 当今 网 络 通信 领域 所 不 可 动摇 的 绝对 地 位 。 


14.4 “ 硬 网 络 与 软 网 络 


1 硬件 网 络 设备 

所 谓 硬件 网 络 设备 , 其 功能 终究 还 是 靠 软件 来 实现 的 。 很 多 网 络 硬件 设备 , 尤其 是 路 由 设备 ， 
本 质 上 就 是 一 台 PC 或 者 PC Server。 其 上 运行 着 专门 处 理 网 络 数据 包 的 程序 。 就 这 样 , 若干 底 
网 络 设备 互相 连接 ， 组 成 了 整个 基础 网 络 ， 也 就 是 硬件 网 络 环境 。 
在 硬件 网 络 环境 的 基础 上 ， 若 干 PC 接 入 硬件 网 络 ， 实 现 相 互通 信 。 也 就 是 说 ， 用 一 部 分 
PC 充当 网 络 硬件 设备 ,其 他 PC 利用 这 些 充当 网 络 设备 的 PC 实现 通信 。 这 就 是 一 种 柑 套 的 表现 ， 
也 就 是 “网 中 有 网 ”。 

2. 软件 网 络 程序 

Message Queue ( MQ ) 和 Message Broker ( MB ) 在 硬件 网 络 设备 的 基础 上 ， 模拟 出 一 个 纯 


ball 
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软件 的 网 络 转发 引擎 。 这 就 是 一 种 轮回 的 表现 。 

MQ 是 一 种 消息 转发 软件 引擎 。 这 个 引擎 运行 在 主机 操作 系统 之 上 。 其 功能 就 是 充当 一 个 消 
息 转 发 器 。 客 户 端 通过 TCP/IP 与 这 个 转发 器 相连 ,将 消息 传送 到 这 个 转发 器 上 ， 然 后 转发 器 根 
据 策略 ， 将 消息 转发 到 其 他 客户 端 上 。 这 种 消息 转发 器 ， 也 就 类 似 于 网 络 交换 机 。 只 不 过 MQ 
的 链 路 层 由 TCP/IP 来 充当 。 

MB 是 一 种 应 用 多 辑 转发 引擎 ,这 个 引擎 虽然 也 是 用 来 转发 消息 的 ,但 是 它 不 仅仅 是 底层 转发 ， 
还 能 做 到 应 用 层次 的 转发 。 这 类 似 于 邮件 服务 器 ， 只 不 过 它 可 以 转发 各 种 格式 和 方式 的 数据 包 。 


14.5 ”用 多 台独 立 的 计算 机 模拟 成 一 台 虚 拟 计算 机 


1. HPC 环境 


点 组 成 线 ， 线 组 成 面 ， 面 组 成 体 ， 体 与 体 之 间 组 成 网 ， 然 后 就 是 进化 。 同 样 ，HPC 环境 也 是 
这 种 模式 。 在 一 个 典型 的 HPC 环境 中 , 包含 众多 的 计算 机 , 这 些 计算 机 各 有 分 工 。 总 体 来 说 , HPC 
环境 中 的 计算 机 可 以 分 为 两 大 类 : 一 种 是 专门 用 来 计算 数据 的 ， 为 CPU 密集 运算 ; 另 一 种 是 专门 
用 于 存储 计算 过 程 中 ， 所 需要 提取 或 者 存放 数据 的 ,为 IO 密集 运算 。 前 者 称 为 计算 节点 , 后 者 称 
为 存储 节点 。 而 为 了 最 大 利用 硬件 资源 ， 有 些 HPC 环境 中 会 存储 节点 ， 也 兼用 来 做 计算 节点 。 

可 以 将 一 个 HPC 环境 中 的 所 有 计算 节点 看 作 一 台大 的 虚拟 计算 机 的 CPU 和 内 存 ， 而 将 所 
有 存储 节点 看 作 虚 拟 计算 机 的 硬盘 。 虚 拟 计算 机 的 CPU 和 内 存 ( 计算 节点 ) ， 通 过 某 种 连接 链 
路 向 虚拟 计算 机 的 硬盘 ( 存储 节点 ) 读 写 数据 ， 从 而 计算 出 结果 。 对 于 一 台 单独 的 物理 计算 机 来 
说 ，CPU 内 存 与 存储 设备 之 间 的 连接 为 高 速 IO 总 线 ， 比 如 PCIE。 但 是 对 于 由 多 台独 立 节点 组 
成 的 HPC 系统 来 说 ， 虚 拟 CPU 与 虚拟 存储 设备 之 间 的 连 线 就 不 可 能 是 内 部 IO 总 线 了 ， 而 是 一 
种 外 部 的 高 速 网 络 传输 方式 有 些 HPC 利用 Infiniband 网 络 作为 计算 节点 与 存储 节点 之 间 的 连接 
方式 ， 有 些 则 干脆 使 用 以 太 网 。 前 者 一 般 用 于 IO 密集 型 的 运算 ; 后 者 一 般 用 于 CPU 密集 型 运 
算 ， 也 就 是 说 ， 运 算 过 程 中 需要 读 写 的 数据 不 多 。 

2. 典型 的 Web+APP+DB 架构 

这 种 架构 是 一 种 典型 的 IT 架构 。 客户 端 通过 Web 服务 器 获取 一 个 图 形 化 显示 网 页 , 应 用 逻 
辑 由 APP ( Application ) 服务 器 处 理 ， 并 将 结果 通过 Web 服务 器 显示 到 客户 端的 网 页 上 ，APP 
服务 器 需要 的 数据 则 通过 访问 数据 库 服务 器 来 获得 。 

也 可 以 将 Web 服务 器 看 作 一 台 显示 终端 ， 将 APP 服务 器 看 作 CPU 和 内 存 ， 将 DB 服务 器 
看 作 和 硬盘。 这样， 一 个 由 Web+APP+DB 服务 器 所 组 成 的 虚拟 计算 机 便 诞生 了 。 


14.6 ”用 一 台独 立 的 计算 机 模拟 出 多 台 虚 拟 计算 机 


1. VMware 虚拟 机 软件 


VMware 通过 模拟 一 套 硬件 系统 ， 将 程序 对 这 个 硬件 系统 CPU 发 送 的 指令 经 过 一 定 的 处 理 
之 后 ， 并 加 以 虚拟 传 到 物理 CPU 上 执行 。 利 用 这 种 方式 ， 可 以 在 一 台 物 理 计 算 机 上 虚拟 出 多 个 
虚拟 机 。 
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目前 Windows Server 2008 操作 系统 已 经 自 带 了 HyperV 虚拟 化 引擎 。 类 似 VMware 的 ESX。 
目前 很 多 操作 系统 都 集成 了 Native 的 虚拟 化 引擎 。 


2. 世界 本 身 就 是 一 个 轮回 嵌 套 的 虚拟 化 系统 


不 但 在 计算 机 领域 中 有 虚拟 化 , 在 其 他 学 科 中 同样 有 虚拟 化 。 在 化 学 领域 中 , 科学 家 把 观察 
到 的 现象 和 计算 出 来 的 公式 ， 虚 拟 化 成 原子 和 分 子 。 

总 之 , 一 切 都 是 虚拟 化 的 结果 , 我 们 观察 到 的 世界 其 实 就 是 我 们 利用 基本 数学 公式 虚拟 出 来 
的 。 人 们 首先 在 大 脑 中 演绎 出 数学 ， 然 后 虚拟 化 出 了 物理 学 ， 然 后 再 用 数学 和 物理 学 虚拟 化 出 化 
学 等 其 他 各 种 学 科 。 这 就 像 用 汇编 语言 来 抽象 数字 电路 逻辑 , 再 用 高 级 语言 来 抽象 汇编 语言 ， 然 
后 将 现实 中 的 逻辑 用 计算 机 高 级 语言 表达 出 来 ， 让 计算 机 来 模拟 出 现实 逻辑 。 


14.7 ”用 磁盘 阵列 来 虚拟 磁带 库 


VTL， 即 Virtual Tape Library， 虚 拟 磁带 库 。 传 统 的 物理 磁带 库 为 全 机 械 操作 ， 比 如 机 械 手 、 
驱动 器 、 磁 带 等 。 其 速度 相对 磁盘 来 说 要 慢 很 多 ,如 果 需 要 备份 的 数据 量 非常 大 ， 而 备份 窗口 又 
很 小 , 那么 只 能 通过 提高 磁带 库 的 速度 来 解决 。 但 是 要 提高 磁带 库 的 速度 ， 只 能 同时 用 多 个 驱动 
器 同时 操作 ， 需 要 成 本 高 , 不 方便 。 虚 拟 磁带 库 的 出 现 为 的 就 是 解决 上 述 这 些 问 题 。VTL 使 用 磁 
盘 来 存储 数据 而 不 是 磁带 , 并 虚拟 出 机 械 手 、 磁 带 驱动 器 、 磁 带 这 三 样 在 物理 上 都 不 存在 的 东西 。 
在 备份 软件 等 使 用 磁带 库 的 应 用 程序 , 不 会 发 现 物理 设备 到 底 是 盘 阵 还 是 真实 的 磁带 库 。 而 虚拟 
化 之 后 ， 前 端的 程序 接口 不 变 ， 后 端的 速度 和 灵活 性 却 大 大 增加 了 。 

图 14-5 是 一 台 物 理 磁带 库 的 正视 图 。 图 14-6 显示 了 仓 门 打开 后 其 内 部 构件 示意 图 ， 可 以 
看 到 一 根 竖 直 的 柱子 ,这 个 柱子 就 是 机 械 手 的 滑 轨 。 机械手 可 以 沿 着 柱子 上 下 滑动 并 且 可 以 左右 
转动 ， 以 抓 取 右 侧 磁 带 槽 中 的 磁带 。 图 14-7 所 示 是 物理 磁带 库 的 两 个 驱动 器 和 电源 后 视图 。 在 
图 14-8 中 可 以 看 到 另 一 种 设计 的 机 械 手 和 驱动 器 。 


图 14-5 物理 磁带 库 的 正视 图 图 14-6 物理 磁带 库 的 内 视图 
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机 械 手 主 滑轮 组 


图 14-7 物理 磁带 库 后 视图 ( 驱动 回 和 电源 ) 。 图 14-8 另 一 种 设计 方式 的 磁带 库 机 械 手 
NetApp VTL700 配置 使 用 实例 


比如 有 NetApp VTL700 系列 虚拟 磁带 库 一 台 ， 机 头 连 接 了 两 个 扩展 柜 。 共 28 块 500GB 的 
SATA 磁盘 。 

(1) 第 一 步 : 创建 RAID 组 ， 为 虚拟 磁带 创建 底层 存储 空间 。 

磁盘 阵列 必须 做 RAID ， 这 是 任何 情况 下 都 要 保证 的 。RAID 不 仅仅 可 以 提高 速度 ， 更 重要 
的 是 为 了 保护 数据 ， 因 为 任何 一 块 硬盘 损坏 ,如果 没有 RAID， 都 会 造成 数据 丢失 。VTL 使 用 的 
磁盘 阵列 也 不 例外 。 

VTL700 可 以 利用 Web 界面 来 管理 ， 管 理 主 界面 如 图 14-9 所 示 。 

查看 当前 系统 的 虚拟 磁带 容量 等 信息 ,如 图 14-10 所 示 。 由 于 还 没有 配置 完成 ,所 以 图 14-10 
中 没有 给 出 任何 虚拟 之 后 的 容量 等 信息 (RAID 组 和 虚拟 磁带 总 容量 都 为 0.00Gb ) 。 


逮 
NetApp 


图 14-9 VTL700 管理 主 界面 图 14-10 系统 配置 容量 信息 
从 页 面 左 侧 栏 中 选择 RAID Groups 标签 ， 右 侧 会 显示 出 当前 系统 中 所 配置 的 RAID 组 ， 如 


图 14-11 所 示 。 由 于 当前 还 没有 配置 任何 RAID 组 ， 所 以 两 台 扩展 柜 中 的 所 有 磁盘 均 显 示 为 灰 
色 (空闲 状态 ) ， 蓝 色 的 磁盘 为 Spare 盘 。 
选中 图 14-11 上 方 的 Create Raid Group 复 选 框 ， 出 现 如 图 14-12 所 示 的 页 面 。 
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图 14-11 系统 当前 RAID 组 信息 图 14-12 创建 RAID 组 页 面 

单 击 图 14-12 中 的 Automatically Create RAID Group 按钮 ， 
系统 自动 创建 RAID 组 。 随 后 出 现 如 图 14-13 所 示 的 窗口 , 提 conpma 

示 用 户 创建 RAID 组 的 规则 。 ;生生 生生 


RAID Groups are created according to the fallowing 


re 
Coneiets of 57 dicks, 
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图 14-13 创建 RAID 组 规则 


单 击 Apply 按钮 ， 出 现 如 图 14-14 所 示 的 页 面 , 可 以 看 到 系统 已 经 创建 好 了 一 系列 的 RAID 
组 ,是 每 个 RAID 组 用 不 同 颜色 表示 。 

单 击 Drop RAID Group 标签 ， 进 入 删除 RAID 组 页 面 ， 可 以 删除 已 经 创建 好 的 RAID 组 ， 
如 图 14-15 所 示 。 


| Drop RAID Group @@ 


Es 二 


mp le lm Er a 
ea vo [es | op vir omy 
人 i 


rome mo 308 | 1308 | 


Jirome m0 368 15 68 | Lelesty is ptenee 


图 14-14 系统 自动 创建 的 6 个 RAID 组 图 14-15 删除 RAID 组 页 面 
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单 击 Drop 按钮 ， 删 除 对 应 的 RAID 组 。 删 除 之 后 也 可 以 再 次 手动 或 者 自动 创建 RAID 组 。 
图 14-16 所 示 为 手动 创建 的 7 个 RAID 组 。 

回 到 Monitor 页 面 ， 查 看 系统 当前 的 配置 容量 信息 ，RAID Group 栏目 中 已 经 显示 出 了 系统 
当前 的 可 用 磁盘 容量 ， 如 图 14-17 所 示 。 


NetApp' 


NetApp 


Statistics @@ 


(Via Ubony io load 


physical Tape Device VO toad 


图 14-16 手动 创建 的 7 个 RAID 组 图 14-17 RAID 组 配置 完 后 的 系统 容量 信息 

(2) 第 二 步 : 创建 虚拟 磁带 库 和 虚拟 磁带 。 

创建 完 RAID 组 之 后 ,就 为 系统 提供 了 基本 的 存储 空间 。 在 这 个 存储 空间 之 上 ， 还 需要 创 
建 一 台 或 者 多 台 虚 拟 带 库 ， 然 后 创建 虚拟 磁带 。 

创建 虚拟 磁带 库 。 如 图 14-18 所 示 创 建 一 台 名 为 libl 的 虚拟 带 库 , 带 库 的 厂家 信息 为 NetApp。 
虚拟 磁带 驱动 器 类 型 为 [BM LTO1， 这 个 类 型 必须 对 应 一 款 物理 磁带 驱动 器 , 下 拉 列 表 框 中 有 多 
种 支持 的 物理 驱动 器 可 选 。Slot Count 即 磁带 模 位 ， 这 里 定 为 8。Drive Count 即 驱动 器 数量 ， 这 
里 定 为 2。Assigned to Port 表示 将 这 个 虚拟 磁带 库 在 哪个 前 端 端口 “提交 ”出 去 ， 即 主机 端 可 以 
从 VTL 上 的 哪个 前 端 端口 识别 到 这 台 虚 拟 磁 带 库 。Fully Loaded with Virtual Tapes 表示 是 否 自 动 
创建 对 应 的 虚拟 磁带 并 插 满 磁 带 槽 〈 磁带 槽 和 磁带 都 是 虚拟 的 ) 。Start Tape Label 表示 起 始 标签 
名 称 。 物 理 磁带 库 中 , 每 盘 磁 带 都 有 各 自 的 标签 ,机械 手 通 过 这 些 标签 来 识别 每 一 盘 磁 带 ， 虽 然 
VIL 不 需要 用 标签 来 识别 每 个 虚拟 磁带 ， 但 是 备份 软件 等 程序 需要 知道 这 些 标签 ， 所 以 VTL 还 
是 要 给 每 个 虚拟 磁带 分 配 标签 。 这 里 用 “L1” 来 起 始 ， 这样 ， 第 二 盘 虚 拟 磁带 系统 就 会 自动 为 其 
分 配 “L2” 的 标签 ; 依 此 类 推 。 

单 击 Apply 按钮 之 后 , 一 台 虚 拟 磁带 库 就 创建 完 并 可 以 使 用 了 。 此 外 , 还 可 以 创建 更 多 的 虚 
拟 磁带 ， 如 图 14-19 所 示 。 单 击 左 侧 栏 中 的 Virtual Tapes 标签 ,， 右 侧 页 中 可 以 选择 新 磁带 归属 于 
哪个 虚拟 带 库 。 这 里 选择 刚刚 创建 的 lib1， 然 后 起 始 标签 设 为 M1， 数 量 为 8 盘 ， 单 击 Apply 按 
钮 。 这 样 就 向 lib1 这 台 虚 拟 带 库 中 增加 了 8 盘 磁 带 ， 加 上 原 有 的 一 共 16 盘 。 
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14-18 创建 虚拟 磁带 库 图 14-19 增加 虚拟 磁带 


单 击 左 侧 栏 中 的 Virtual Libraries 标签 , 右 侧 会 出 现 一 张 虚拟 磁带 库 拓扑 图 。 如 图 14-20 所 示 ， 
右 侧 机 柜 中 有 8 个 磁带 槽 和 2 个 驱动 器 , 与 创建 带 库 时 的 选项 一 一 对 应 。 左边 的 推 车 上 还 有 8 盘 
磁带 ,这 是 刚才 追加 的 8 盘 磁 带 ， or 权 放 不 开 ， 所 以 就 放 到 了 虚拟 推 车 上 。 推 
车 上 方 是 一 个 存储 箱 ,可 以 用 鼠标 把 任意 一 盘 磁带 拖 动 到 推 车 、 磁 带 模 或 者 驱动 器 中 。 如 果 拖 动 
到 存储 箱 中 ， 则 这 盘 虚 拟 磁带 了 pe 14-21 所 示 ) 。 
tt 


图 14-20 当前 虚拟 磁带 库 的 示意 图 页 面 图 14-21 删除 虚拟 磁带 
返回 到 Monitor 页 面 中 可 以 看 到 当前 系统 中 的 虚拟 带 库 信息 ， 如 图 14-22 所 示 。 
创建 第 二 台 虚 拟 带 库 。 再 次 创建 一 台 名 为 lib2 的 虚拟 带 库 。 这 里 选择 驱动 器 类 型 为 HP LTO1， 
16 槽 位 , 4 驱动 器 , 如 图 14-23 所 示 。 图 14-24 显示 了 lib2 的 拓扑 图 , 可 以 和 1ib1 的 图 对 比 一 下 。 


单 击 左 侧 栏 中 的 Virtual Tapes 标签 , 在 右 侧 页 面 中 可 以 查看 虚拟 磁带 的 信息 ,修改 虚拟 磁带 
的 属性 ， 在 多 台 虚 拟 带 库 中 移动 磁带 ， 删 除 虚拟 磁带 ， 如 图 14-25 ~ 图 14-28 所 示 。 
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图 14-22 当前 系统 的 虚拟 带 库 信息 图 14-23 创建 1ib2 虚拟 带 库 
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图 14-24 1ib2 虚拟 带 库 拓 扑 图 图 14-25 ”显示 庶 
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图 14-26 修改 虚拟 磁带 的 读 写 属性 图 14-27 在 多 台 虚 拟 带 库 之 间 移 动 磁带 
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本 Monitor 页 面 可 查看 系统 中 的 信息 ， 此 时 出 现 另 一 台 虚拟 带 库 ， 如 图 14-29 所 示 。 
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图 14-28 删除 虚拟 磁带 图 14-29 系统 中 的 两 台 虚 拟 带 库 


手动 将 磁带 放 入 驱动 器 。 如 图 14-30 所 示 ， 可 以 在 拓扑 图 中 拖 动 任何 一 盘 磁 带 进入 驱动 器 。 
这 个 动作 就 好 比 在 物理 带 库 中 , 由 机 械 手 将 磁带 从 磁带 槽 中 抓 出 ， 并 推 入 磁带 驱动 器 。 当 然 ,， 备 
份 软件 可 以 发 送 指令 让 带 库 自 动 做 这 个 动作 , 当然 也 可 以 手动 做 这 个 动作 。 磁 带 放 入 驱动 器 之 后 ， 


Monitor 


页 面 中 会 显示 出 当前 带 库 的 驱动 器 中 所 包含 的 磁带 ， 如 图 14-31 所 示 。 
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图 14-30 手动 将 磁带 放 入 驱动 器 


(3 ) 第 三 步 : 在 客户 端 使 用 虚拟 磁带 库 。 
客户 端 对 VTL 的 使 用 与 使 用 一 台 纯 物理 磁带 库 没 有 任何 区 别 。 我 们 用 一 台 NetApp 的 
FAS3050 磁盘 阵列 来 识别 这 台 VTL， 看 看 效果 。 在 FAS3050 命令 行 中 输入 sysconfig -a 来 查看 当 


前 系统 


驱动 器 ， 


bh 的 所 有 设备 ， 可 以 看 到 在 FC 通道 0c 上 已 经 识别 到 了 两 个 IBM 的 驱动 器 和 4 个 HP 的 
这 和 VTL700 上 的 配置 完全 一 样 ， 如 图 14-32 所 示 。 输 入 storage show tape 命令 可 以 查 


看 更 详细 的 磁带 驱动 器 信息 ， 如 图 14-33 所 示 。 输 入 storage show mc 命令 可 以 查看 识别 到 的 机 
械 手 信息 (机械手 是 VTL 虚拟 出 来 的 ) ， 如 图 14-34 所 示 。 输 入 sysconfig -命令 可 以 查看 系统 
识别 到 的 所 有 磁带 ， 如 图 14-35 所 示 。 


slot 0: FC Host Adapter Uc CQLog1c L432 rev. 2 
Firmware rev 4.0.24 
Host Loop Id 
FC Node Name 5:00a:098000:01ae83 


SFP Vendor FINISAR CORP. 


SFP Part Number : FTLF8524P2BNV 
SFP Serial Number: PB90F51 

SFP Capabilities: 1, 2 or 4 Gbit 
Link Data Rate: 4'Gbit 

6: Medium Changer: NETAPP VTL 


OL3: Medium Changer: NETAPP VTL 
OL1: Tape: IEM ULTRIUM-TD1 

DL2 ULTRIUM-TD1 

DL4 UTtrium 1-Scsr 
0L5 U1trium 1-SCSI 
OL6: Tape: HP Ultrium 工 -SCSI 
OL7: Tape: HP Ultrium 1-5csI 


I/0 base Ox0, size OxO 


memory mapped I/D base Oxc1300000, size 0x4000 


14-32 ”客户 端 所 识别 到 的 磁带 设备 


fas3040c11-cn> storage show switch 
No switches found. 
fas3040c11-cn> storage show tape 


-ape Drive Oc.0L1 
Description: IEM ~ ULTRIUM-TI 
Serial Number: be6f99663f81a0980321b4 


wor1d wide Name: 。 wwN[5:00a:098200:51aeb1]L1 
Alias NameCs): stO 


Device states available 

-ape orive: Qc.0L2 

Description: IEM 。 ULTRIUM-T31. 

Serial Number: be6f of743f81a0980321b4 
Vorld wide Name; wwN[5:00a:098200:31aebl]L2 


Alias NameCs): Stl 


Device state: available 
-ape Drive: Oc.0L4 
Description: HP Ultrium 1-scsr 


Serial Number 1cf372f03f8230980321b4 


Wor ld wide Name wwN[5:00a:098200:)1aebl]L4 
Allas Name(s): St2 

Device start available 

-ape orive: Oc.0LS 

Description: HP Ultrium 1-scsr 
Serial Number : 1cf378223f8230980321b4 
vorld wide Name: wwN[5:00a:098200:71aebl]L5 
Alias NameCs): st3 

Device states available 

-ape Drive: oc.0L6 

Description: HP Ultrium 1-scsT 
Serial Number : 1cf37c823f8230980321b4 
World wide Name: wuN[5:00a:098200:)1aebl]L6 
Alias NameCs): ST4 

Device state: available 

-ape prive: oc.0L7 

Description: HP Ultrium 1-scsI 


Serial Number: lcf3806a3f8230980321b4 


World wide Name WwN[5:00a:098200:21aebl]L7 
Alias NameCs) st5 
Device start' available 
Tas3040c11-cn> 
图 14-33 详细 的 驱动 器 


至 此 , 这 台 VIL 虚拟 出 了 
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fas3040c11-cn> storage show mc 


Medium changer : 
Description: 
Serial Number: 
wor1d wide Name: 
Alias NameCs 
Device state 


O00 Medium Changer: 


Description: 
Serial Number: 
wor1d wide Name: 


0c.0 
NETAPP 。VTL 
be6f92723f81a0980821b4 
wwN[5:00a:098200:01aebl] 
micO 

available 


Oc.0L3 

NETAPP VTL 
1cf366483f82a0980821b4 
WwN[5:00a:098200:01aeb1]L3 


Alias Name(s): 
Device State: 


fas3040c11-cn> 四 


mcl 
available 


Tas3040c11-cn*> sysconfig -t 


Tape drive (Oc.0L1) IEM ULTaIUM-TOl 
rst01，- rewind device, format 1s: Lro 
nrstol - no rewind device, format 1s; LTO 
ursr0] — unl9gad/relgad device, format is: LTO 
rstOm — rewind device, format 15: LTO 
nrstOm -mo_rewind_ device, format js; LTo 
urstOn -un1oad/re1oad device, Format j5: LTO 
rstOh - rewind device, format 1s: LTO 
nrstoh - movrewlnd_ device, format 15; LT 
urstOh 二 unload/reload device, Format js: LTO 
rsr0a — rewind device, formar 1s: LTO 
nrsrga -morewind device, format 15: LTO 
ursr0a — unload/reload device, format 15: LTO 
Tape drive COc.0L2) IEW ULTAIUM-TOL 

rst1], — rewind, davice, format 1s: Lro 
mrsr1] - no rewind device, format is: LTO 
urst1] — unload/reload device, Format is: LTO 
rstlm 二 rewind device, fornat 15: LTO 
nrstlm - no,rewind device, format is: LTO 
urstlm - un10ad/re10ad deyice, format 15: LTO 
rstlh - rewind device, format 15; LTO 
nrsrlh — no, rewind, device, format 1s: LTO 
ursrlh - unl9ad/reload device, format 1s: LTO 
rstla — rewind device, fornat 15; LTO 
nrst1a - no rewind, device, format js; LTO 
urstla - unload/reload deyice, format 15: LTO 
Tape_drive COc.0L4) Hp Unrrium 1-scsT 
Fst21，- rewind, davice， format 1s: LTO 
nNrst21 — no_rewind_ device, format 1s: LTO 
ursr21 — unload/reload device, Format 1s: LTO 
rstam - rewind device, format 1s:; LTO 
nrstan - no_rewind_ device, format 15; LTO 
urstam — unload/raload device，format 1s: LTO 
rst2h - rewind device, format 1s: LTO 
mrstzh - no_ rewind, device, format is: LTO 
urst2h — unload/reload device, format 15: LTO 
rst2a — rewind device, format 1s: LTO 
mrst2a -no_rewind_device， format 1s: LTO 
ursr2a — unload/reload deyice, Format 13; LTO 
Tape dr ive 《0c.0L5) HP Untriun 1-gcsr 
rst31, ~ rewind, device, fornat 15; LTO 
mrsr3] — no rewind device, format 1s: LTO 
urst31 — unload/reload device, format 1s: LTO 
rstm — rewind device, format 15; LTO 
nrstan -no_rewind_ device, Format 1s: LTO 
urstam - unload/reload device, Format is: LTO 
rst3h - rewind device, format 15: LTO 
nrst3h -no_rewind_ device, format 1s: LTO 
urst3h — unload/reload device, format 1s: LTO 
rst3a — rewind device, format 15: LTO 
mrsr3a — no_rewind, device, Format 1s: LTO 
urst3a -~ unload/reload device, Format 1s: LTO 
Tape drive C0c.0L6) HP Ntr fum 1-scSI 
rst41 ~- revind, device tormat 15: LTO 
nrst4] ~ no rewind. device, format 1s; LTO 
urst4] — unload/raload davice, format 15: LTO 
rstam - rewind device format 1s: LTO 
nrst4n - no rewind device, format 1s: LTO 
urstan - unload/reload device, format is: LTO 
rstah - revind device format 15: LTO 
nrst4h - no rewind. device, Format 15: LTO 
ursrdh - unioad/reload device, format 1s: LTO 
rstda - revind device format 1s: LTO 
nrst4a - no rewind device, format 1s: LTO 
urst4a - unload/reload device, format 1s: LTO 
Tape, drive (0c.0L7) Hp utrium 1-gcsr 
rst51，- revind, device format 1s: LTO 
nrst5] - no rewind device, format 1s: LTO 
urst5] - unload/reload device, format is: LTO 
rstm - revind device, format 15: LTO 
nrst5n - no'rewind device, format 13: LTO 
urst5n - Unload/reload device, format 1s: LTO 
rstsh - revind device format 1s: LTO 
nrst5h -~ no rewind device, Format 1s: LTO 
urst5h - uniogad/reload device, format 1s: LTO 
rst5a - rewind device, format 15; LTO 
nrst5a - norewing device, format is: LTO 
urst5a - unioad/reload device, format 1s: LTO 


fas3040c11-cn*> 


14-34 ”查看 机 械 手 信 
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图 14-35 系统 所 识别 到 的 所 有 磁带 


台 带 库 ， 当 然 还 可 以 虚拟 更 多 的 带 库 , 将 它们 分 配 到 另外 的 


FC 


端口 。 更 加 灵活 的 是 , VTL 还 可 以 自身 连接 物理 磁带 库 , 然后 将 这 些 物 理 资 源 透 传 到 主机 端 ， 这 
样 即使 原来 存在 的 物理 带 库 也 没有 浪费 ， 一 起 整合 了 进来 。 


各 个 厂家 的 VIL 产品 的 设计 都 是 大 同 小 异 ， 几 乎 都 是 用 各 自己 经 成 形 的 盘 阵 产品 ， 将 
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运行 的 程序 换 一 下 ， 就 变 成 了 VTL。 图 14-36 是 EMC 公司 的 VIL 产品 的 配置 界面 。 可 以 看 到 
各 个 厂家 的 设计 都 大 同 小 异 ， 本 质 都 是 一 样 的 。 


图 14-36 ”EMC 公司 的 VTL 产品 配置 界面 


14.8 ”用 控制 器 来 虚拟 其 他 磁盘 阵列 


现在 存储 行业 内 常 说 的 “存储 虚拟 化 ”, 或 者 “虚拟 化 ”, 一 般 情 况 下 都 是 指 把 多 个 相同 或 
者 不 同 厂商 的 磁盘 阵列 整合 之 后 再 分 配 的 虚拟 化 方式 。 其实 这 种 虚拟 化 只 是 冰山 一 角 , 而 且 纯 技 
术 架 构 设计 方面 的 含量 也 不 是 很 高 ， 这么 说 并 不 是 我 在 夸 口 ， 而 是 事实 。 实 现 这 种 虚拟 化 存储 控 
制 器 的 关键 难点 在 于 如 何 与 后 端 不 同 厂商 的 设备 之 间 兼 容 ， 包 括 SCSI Reservation 的 兼容 等 ， 以 
及 如 何 发 挥 出 后 端 存储 设备 的 性 能 。 所 有 不 同 厂商 的 设备 虽然 其 内 部 设计 等 都 不 同 , 但 是 它们 绝 
对 需要 相同 的 是 前 端的 接口 、 包 括 物 理 接口 、 数 据 接口 和 逻辑 接口 。 比 如 ， 它 们 至 少 都 支持 主机 
端 Linux 系统 ， 包 括 支持 Linux 下 的 文件 系统 起 始 地 址 的 对 齐 等 。 如 果 用 一 台 Linux 服务 器 来 连 
接 不 同 厂商 的 设备 , 那么 这 台 Linux 服务 器 就 可 以 识别 到 所 有 的 LUN 并 对 这 些 LUN 进行 IO 操 
作 ， 如 果 在 这 台 Linux 服务 器 上 实现 某 种 软件 层次 ,将 所 有 这 些 LUN 当 作 物理 磁盘 ， 在 其 上 再 
次 划分 LUN, 然 后 将 这 些 LUN 通 过 前 端 接口 映射 出 去 ,那么 这 不 就 是 一 台 虚 拟 存 储 控制 器 了 人 么 ? 
这 种 虚拟 化 技术 甚至 可 以 通过 DIY 来 实现 ， 只 要 有 合适 的 软件 层 ， 其 他 都 不 是 问题 。 

IT 系统 内 的 最 高 深 莫 测 和 最 复杂 的 虚拟 化 技术 其 实 都 在 于 主机 端 ， 即 诸如 Vmware 等 虚拟 
机 软件 产品 及 其 附加 功能 ， 比 如 Vmotion 等 ; 以 及 诸如 IBM 等 厂商 的 小 型 机 上 的 硬件 虚拟 化 、 
分 区 、 动态 迁移 等 功能 ; 还 有 虚拟 化 的 最 高 境界 , 整合 了 几乎 所 有 虚拟 化 技术 的 云 计算 、 云 存储 、 
云 服务 。 

本 节 仅 简要 介绍 一 下 目前 市 场 上 的 一 种 虚拟 存储 控制 器 , 其 细节 就 不 作 过 多 介绍 了 , 因为 其 
架构 并 不 复杂 。 


IBM 公司 的 SVC 产品 


SVC 的 全 称 为 SAN Volume Controller。 图 14-37 所 示 为 SVC 的 逻辑 架构 图 。 
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图 14-37 SVC 逻辑 架构 图 

整个 系统 架构 可 以 分 为 4 个 层次 。 第 1 层 是 后 端的 磁盘 阵列 对 外 映射 的 LUN; 第 2 层 则 是 
在 SVC 控制 器 内 将 这 些 LUN 封装 为 Mdisk 对 象 , 每 个 LUN 都 为 一 个 Mdisk， 即 Managed Dsik， 
叫 法 并 不 重要 ， 只 需要 知道 Mdisk 是 后 端的 LUN 即 可 ， 将 多 个 Mdisk 放 入 一 个 MD Group 内 ， 
这 个 MD Group 相当 于 一 个 Raid0 模式 的 Raid 组 ,一 个 系统 内 可 以 有 多 个 MD Group; 第 3 层 ， 
SVC 在 Raid 组 内 划分 LUN, 生成 的 LUN 称 为 Vdisk， 即 Virtual Disk，Vdisk 相当 于 SVC 自己 的 
LUN; 第 4 层 ，SVC 将 这 些 自己 生成 的 LUN 映射 给 前 端 主 机 使 用 。 

SVC 只 能 通过 FC 交换 机 来 连接 后 端 存储 设备 。 前 端 主机 则 可 以 通过 FC 交换 机 ( 使 用 FC 
协议 访问 ) 或 者 以 太 网 交换 机 ( 使 用 ISCSI 协议 访问 ) 来 访问 SVC。 

为 了 避免 单 点 故障 ， 每 两 台 SVC 控制 器 ( node ) 可 以 组 成 一 个 IO Group ， 每 个 Vdisk 同一 
时 刻 只 能 够 由 一 个 node 来 掌管 ， 当 这 个 node 故障 之 后 ,与 这 个 node 同 处 一 个 IO Group 的 另 一 
个 node 接管 之 前 故障 node 所 管理 的 所 有 Vdisk。 当 IO Group 中 的 两 个 node 都 故障 时 ， 其 他 IO 
Group 的 node 会 接管 故障 的 node 目前 一 个 SVC Cluster 最 多 可 以 有 4 个 IO Group( 即 8 个 node )。 
Cluster 内 的 所 有 node 必须 都 可 以 访问 后 端 对 应 的 存储 系统 的 LUN。 图 14-38 所 示 为 一 个 Snode 
的 SVC Cluster。 


图 14-38 SVC 集群 示意 图 
这 种 存储 虚拟 化 模式 有 诸多 好 处 。 从 底层 方面 来 看 ， 多 个 后 端 LUN 可 以 组 成 Raid0 而 不 用 
担心 物理 磁盘 损坏 问题 , 因为 后 端 存储 设备 会 处 理 这 一 切 ; Raid0 是 性 能 最 好 的 Raid 模式 而 且 还 
不 用 rebuild, 至 少 能 够 将 后 端的 性 能 影响 屏蔽 掉 一 部 分 ; Raid0 做 成 之 后 不 需要 初始 化 过 程 , LUN 
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立即 可 用 , 方便 快捷 。 从 高 层 方面 来 看 ， 这 种 虚拟 化 网 关 设 备 可 以 实现 。 
注意 :规划 时 需要 注意 的 一 个 最 大 问题 是 : 一 定 要 清楚 知晓 SVC 的 LUN 到 底 实 际 占用 
了 多 少 块 硬盘 ， 是 否 有 多 个 LUN 共享 同一 组 物理 硬盘 ， 前 泊 的 要 求 是 什么 ， 是否 需 要 
对 分 布 于 同一 组 物理 硬盘 上 的 多 个 LUN 进行 并 发 的 连续 I0 操作 , 这 个 问题 具体 可 参考 本 书 
第 19 章 。 

图 14-39 所 示 为 两 个 SVC 控制 器 前 视图 。 


图 14-39 SYVC 控制 器 前 视图 
除了 SVC 这 种 架构 的 虚拟 化 网 关 之 外 ， 有 些 产 品 设计 则 是 将 虚拟 化 网 关 的 功能 集成 到 某 个 
交换 机 中 ， 比 如 F5 公司 的 某 系列 产品 就 是 将 虚拟 化 功能 集成 到 了 以 大 网 交换 机 中 ,或 者 说 把 以 
太 网 交换 机 集成 到 服务 器 硬件 中 ， 都 可 以 。 它 可 以 针对 后 端 NAS 设备 作 虚 拟 化 整合 和 再 分 配 、 
数据 迁移 等 ， 这 个 虚拟 化 网 关 将 后 端 所 有 NAS 设备 的 共享 输出 目录 作为 一 个 大 的 存储 空间 ,将 
这 个 空间 重新 规划 和 分 配 ， 然 后 提供 新 的 Export 目录 给 主机 客户 端 使 用 。 


14.9” 飞 康 NSS 存储 虚拟 化 系统 


一 直 被 效仿 ,从 未 被 超越 一 一 这 人 句 话 用 在 飞 康 身 上 很 合适 。 飞 康 是 存储 软件 领域 的 领军 厂商 ， 
专注 于 存储 虚拟 化 、 容 灾 、CDP 与 数据 备份 领域 。 飞 康 在 业界 的 地 位 取决 于 其 两 大 优势 产品 
多 项 独特 技术 ， 其 一 是 其 IO 级 粒度 回 滚 的 CDP 技术 ， 其 二 便 是 其 多 功能 融合 的 一 体 化 存储 虚 
拟 化 产品 和 诸如 MicroScan 等 技术 。 目 前 飞 康 刚刚 推出 了 IPStor Gen2 Plarform 平台 , 其 中 包含 了 
NSS、CDP、VTL 三 大 产品 系列 ， 涵 盖 了 企业 数据 保护 备份 、 容 灾 、 虚 拟 化 全 领域 。 

飞 康 主要 面向 企业 级 关键 应 用 提供 容 灾 、 数据 保护 和 虚拟 化 方案 及 产品 , 目前 在 全 球 有 几 千 
个 用 户 的 部 署 案例 。 这 家 以 技术 为 核心 的 厂商 ,经 过 十 余年 的 磨 练 ,仍然 保持 领先 ， 这 一 点 难 能 
可 贵 。 

提示 : 存储 软件 厂商 不 多 , 做 出 名 堂 的 就 更 少 了 。 关 于 飞 康 的 IO 级 CDP 回放 技术 , 我 将 在 

第 16 章 中 详细 介绍 和 分 析 ， 本 节 会 着 重 分 析 飞 康 的 虚拟 化 平台 中 的 一 些 特色 技术 。 

飞 康 NSS 全 称 为 Network Storage Server， 它 的 本 质 是 一 台 融 合 了 高 级 数据 保护 、 数 据 迁 移 
和 容 灾 功 能 的 存储 虚拟 化 网 关 ， 而 存储 虚拟 化 网 关 的 本 质 ， 就 是 一 款 存 储 系统 控制 器 ， 只 不 过 它 
没有 太 多 的 后 端 接口 来 接 入 大 量 的 磁盘 扩展 柜 轻 了 , 它 的 存储 空间 需要 借用 自 其 他 存储 系统 , 尤 
其 是 那些 四 肢 发 达 、 头 脑 简单 的 存储 系统 ,这 些 系统 自身 往往 功能 和 可 靠 性 方面 不 是 很 出 色 , 而 
此 时 如 果 加 上 NSS 存储 虚拟 化 网 关 的 配合 ， 则 可 以 形成 更 强大 的 存储 系统 。 

如 图 14-40 所 示 为 飞 康 NSS 网 关 型 管理 器 前 视图 ， 其 硬件 仅 为 标准 x86 服务 器 ， 但 是 我 们 
先 不 要 以 貌 取 人 。 那 些 定制 化 的 SAN 存储 控制 器 ,其 表象 上 看 似 个 性 十 足 ， 但 是 要 论 硬件 性 能 ， 
不 见得 赶 得 上 标准 服务 器 , 尤其 是 那些 中 低 端 产品 。 其 次 ,存储 系统 的 核心 在 于 软件 ， 目 前 的 存 
储 系统 里 几乎 没有 硬件 加 速 逻 辑 了 , 因为 这 样 做 成 本 太 高 , 而 且 缺 乏 灵活 性 。 所 以 各 家 的 可 靠 性 、 


第 14 章 变幻 莫 测 一 一 虚拟 化 @ 


功能 、 性 能 ， 完 全 取决 于 软件 的 功能 和 优化 程度 。 如 图 14-41 及 图 14-42 所 示 为 NSS 的 高 级 技 
术 和 功能 一 览 。 本 节 会 对 这 些 技术 做 一 一 介绍 和 分 析 ， 我 将 飞 康 NSS 中 所 包含 的 技术 划分 为 三 
大 类 , 分 别 为 存储 虚拟 化 相关 技术 和 产品 、 数 据 保 护 相 关 技术 和 产品 、 异 构 迁 移 和 容 灾 相 关 技 术 
和 产品 。 


一 一 


图 14-40 NSS 网 关 型 管理 器 前 视图 
E> 人 


High availability (HA) Optional 
Application-aware snapshot agents | Induded 
Snapshots {TimeMarie/TimeView’ per LUN | Up to 1,000 
Application Snapshot Director for VMware | Included 
Storage Replication Adapter for VMware Se Recovery Manager Included 
VMware & Microsoft Hyper-V virtual machine protection & recovery 

Dynapath* Agent for Microsoft Windows or Linux native mult- pathing | Induded 
Recovery ent Incuded 
Automated DRvia RecoverTrac tool | Included 
Muttistte Cluster Adapter for Microsoft Windows | Included 
SafeCachev/HotZonev | Included 
Data journaling Included 
Thin provisioning Included 
Synchronous & asynchronous data miroring | Included 
WAN-optimized replication w/ compression & encryption Included 
SNMP integration | Induded 
Emailalerts | Induded 
Reporting | Induded 
Central Clent Manager (CCM) | Included 
HyperTrac™ Backup Accelerator | Optional 

图 14-41 NSS 网 关 型 管理 器 特色 技术 一 览 图 14-42 NSS 网 关 型 管理 器 高 级 软件 功能 一 览 


14.9.1 存储 虚拟 化 相关 技术 


对 于 一 款 虚 拟 化 产品 ， 广 泛 的 兼容 性 是 其 立足 之 本 。 虚 拟 化 本 身 没有 太 多 意义 ， 无 非 就 是 借 
用 其 他 的 LUN， 然 后 形成 自己 的 LUN， 如 果 一 款 产 品 仅 能 做 到 这 一 点 ， 那 么 LVM、Windows 下 
的 动态 磁盘 ， 都 可 以 和 独立 虚拟 化 产品 并 驾 齐 驱 了 。 一 款 虚 拟 化 产品 其 虚拟 化 别人 的 LUN 的 目的 
是 为 了 提供 更 多 、 更 强 的 高 价值 服务 。 下 面 我 们 就 详细 介绍 飞 康 IPStor 平台 所 提供 的 增值 服务 。 


SafeCache 


SafeCache 是 飞 康 IPStor 平 台 提 供 的 数据 加 速 访 问 技术 。 利 用 一 些 高 性 能 存储 介质 比如 SSD、 
NVRAM 等 ) ， 这 个 技术 可 以 将 主机 下 发 的 写 IO 数据 像 日 志 一 样 连续 写 入 高 速 介质 ,快速 响应 
主机 IO， 然后 在 后 台 异 步 地 将 这 些 数据 刷 到 主 存储 空间 中 。 对 于 SafeCache， 系 统 需要 维护 一 张 
映射 表 来 追踪 那些 被 缓存 的 块 ， 一 旦 命中 该 映射 表 ， 则 从 SafeCache 中 读 出 数据 。 
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如 图 14-43 所 示 为 SafeCache 配置 步骤 ， 首 先 需要 选择 一 个 适当 大 小 的 存储 空间 作为 Cache 
空间 ,可 以 手动 选择 或 者 交 给 系统 自动 选择 。 然 后 可 以 手动 配置 缓存 刷 盘 策略 ， 比 如 根据 缓存 高 
水 位 线 、IO 静默 时 间 以 及 刷 盘 的 力度 。 还 可 以 感知 那些 写 命令 中 的 IO ， 降 低 重复 刷 盘 的 几率 。 


SetCache Properles 


Salect an Alocation Method 


Snapshot Group: Manhartan | 


Selects methodto allocate ne space for ne Cache Resource Pa 
SAN Resouree SANDIk- 00031, Stze: 109 ME 


Pestom 


The custom method allows you to selectthe hard dk segmeni(s) you want or the 


Fush cache when data reaches “0 全 %threshold. 
Thls option allows you to specry the mamum amount of data that can be in the 


Cache Resource. ache before peing flushed. 
i Flush cache aner 0500 到 mmseconds ofinactviy 
This option alowsyouto specy and an amcuntofinactvik afer which he cache wil 


The systern will allocate space for the Cache Resource yom he avaliable hard dlsk frie 
semants based on tna sge specried below keine ei i 


Fush cache 5 当 outstanding commands atatime. 
Size to Alacale wa Total Avallable Size: 22.B40 MD te 
use ata tne to fush he 
Solecioncrtora Eco 可 天 


This oplion allows the system to ship the pending write commands target for the same | 
Glick eNet to continus 


Back Nod Cancel Batk | i Nea | cance 


图 14-43 SafeCache 配置 步骤 1 
HotZone 


HotZone 是 IPStor 平台 下 的 另 一 个 数据 访问 加 速 功能 ， 其 与 SafeCache 的 区 别 是 : HotZone 
是 一 种 主动 的 数据 访问 速度 优化 技术 , 而 前 者 则 是 一 种 被 动 方式 的 优化 。HotZone 的 基本 原理 是 
将 源 卷 划分 为 多 个 “zone”， 然 后 对 每 个 zone 统计 访问 频繁 程度 ， 最 后 将 那些 热点 zone 中 的 数 
据 缓存 到 高 速 存储 介质 中 以 加 速 读 访问 。 

图 14-44 所 示 为 HotZone 的 配置 参数 ， 可 以 选择 缓存 模式 ， 比 如 是 根据 频繁 程度 来 将 那些 
热 数据 从 低速 介质 中 迁移 到 高 速 介质 中 ， 还 是 作为 预 读 缓存 仅仅 加 速 那些 连续 大 块 IO 读 场 景 。 
也 体 参 数 可 以 配置 预 读 启动 临界 点 ( 连续 地 址 IO 被 监听 到 多 少 次 ) 、 每 次 预 读 的 容量 、 每 次 预 
读 的 IO Size、 临 界 点 时 效 周期 。 不 得 不 承认 这 些 参 数 非常 专业 。 
ereat ce Wzard | BEATE 划 


etPropeies for he Prefeten Met od 


| solecta HotZono Mothod 


日 


Select one Memoa tn eup Hotzone 引 
This is the masmum number of seavential read chains to detect The ranoe is beiween 1 and 64 
Read Cache 
De on OAM wad A TeeAln hanesar cotaod Mioe nt Ns Wok eA Moh PVAemares ik Mamum read ahead 512 全 
Suchas NRAM, or Oro Soaperdalread hans aoted, Nl the masemum sa lo rood head The ange le 
CF proreten boween BtkB and 


The Prafoleh matnod detocts sauentialread commands and moves data nio memary vetore ti 
actessad. ty a i Read ahead |64 了 je 
When reading ahead Ihls Is the size of tne rssd commang lssued The fange ls between 32KB ang 
OakB n power of 2 Nenust be less than orequalta me value crWadmurmnread aheadf 


Cam nmeou 2 _ 可 Feroes ”加 

‘ra sequangalreaa chainls detaclad inls isnow much le Wm before ne chain 1s removed and he 
eadahesd bfiers are feed This param eter can vary fiom 20 millsecons to 1 hour with the 
anulary of 

Ciicx Nexte to coniinue, 


图 14-44 ”HotZone 配置 步骤 1 
图 14-45 所 示 为 HotZone 的 其 他 配置 参数 ， 包 括 手动 或 者 自动 来 选择 充当 缓存 介质 的 存储 
空间 , 以 及 每 个 zone 的 容量 , 最 小 容量 为 64KB ( 其 实 这 么 小 的 粒度 下 , zone 已 经 不 适合 描述 了 ， 
Block 更 合适 ) 。 还 可 以 配置 每 个 zone 在 高 速 缓存 中 被 缓存 的 最 小 时 间 。 
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SetHotzone Resourre Policy pre SAN Resource 


图 14-45 HotZone 配置 步骤 2 
图 14-46 所 示 为 HotZone 其 他 配置 参数 ， 包 括 访问 频 度 统计 模式 ， 比 如 只 读 算 、 只 写 算 ， 
还 是 读 写 一 起 都 算 一 次 频 度 +1。 右 下 图 是 一 种 可 视 化 数据 展现 ， 图 形 化 地 展示 每 个 zone 的 访问 
频繁 程度 ， 这 就 是 一 种 可 视 化 存储 智能 。 
说 明 : 可 能 是 之 前 搞 产 品 设计 时 遭遇 对 牛 弹琴 的 原因 , 看 到 类 似 的 Idea 在 飞 康 产 品 中 出 现 ， 
心情 很 复杂 。 


ee | 


图 14-46 HotZone 配置 步骤 3 
现在 不 少 厂商 推出 了 各 种 形态 的 固态 存储 产品 , 从 简单 的 2.5 寸 SSD 到 用 内 存 堆 成 的 固态 存 
储 系统 ， 由 于 价格 昂贵 ， 人 迫切 需要 一 种 合适 的 应 用 场景 ， 而 飞 康 NSS 虚拟 化 设备 恰恰 提供 了 这 
种 原生 支持 ,将 闪存 阵列 虚拟 化 之 后 ， 用 在 SafeCache/HotZone 方案 下 ,是 目前 这 些 固态 存储 系 
统 性 价 比 最 高 的 归宿 了 。 


Zero Memory Copy 


这 是 一 个 很 独特 的 MO 引擎 算法 设计 。 数据 在 通过 NSS 网 关 的 时 候 , 直接 写 入 后 端的 存储 ， 
而 不 依赖 于 网 关 服 务 器 的 内 存 进行 缓存 或 运算 处 理 。 这 样 既 提高 了 数据 安全 性 , 同时 还 保证 了 性 
能 。 一 般 来 讲 虚拟 化 网 关 产 品 都 会 在 内 部 使 用 较 大 容量 的 RAM 作为 数据 缓存 。 飞 康 认为 使 用 这 
种 数据 缓存 是 杯水车薪 并 且 多 此 一 举 。 虚 拟 化 设备 后 端 本 身 已 经 挂 接 了 拥有 较 大 容量 缓存 的 存储 
控制 器 , 或 者 挂 接 各 种 新 一 代 的 闪存 阵列 产品 作为 全 局 缓存 ( 如 作为 前 述 Safe Cache 和 Hot Zone 
的 介质 ) ， 此 时 在 其 前 端 再 加 上 一 点 点 缓存 ， 还 不 如 不 加 ,因为 这 点 缓存 相 比 后 端的 缓存 容量 是 
小 恶 见 大 巫 。 更 何况 ,仅仅 由 于 增加 的 这 一 点 缓存 ,由 于 实质 上 对 生产 数据 产生 驻 留 还 将 导致 数 
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据 安全 的 隐患 。 飞 康 对 于 企业 级 数据 安全 的 理解 是 深刻 的 , 存储 虚拟 化 网 关 应 该 在 即便 整体 全 部 
意外 故障 或 失效 的 时 候 也 不 会 对 原生 产 数据 的 安全 带 来 任何 影响 。 

另外 加 了 缓存 需要 付出 三 个 代价 : 第 一 ，RAM 本 身 需 要 成 本 并 需要 电池 维护 ， 这 不 但 增加 
了 采购 成 本 也 提升 了 维护 成 本 ; 第 二 ，RAM 的 易 失 性 要 求 双 机 的 RAM 实时 向 对 方 同步 ，( 各 
自 实际 使 用 二 分 之 一 空间 ) ,任何 写 入 缓存 的 YXO 只 有 在 缓存 确认 向 对 方 同步 后 才 算 写 入 成 功 ， 
这 样 ， 横 向 同步 的 设计 和 性 能 可 能 成 为 网 关 的 写 入 性 能 瓶颈 ; 第 三 ， 这 部 分 RAM 势必 要 不 断 地 
刷 盘 ， 也 就 是 刷 到 后 端 挂 接 的 存储 系统 中 , 批量 刷 盘 会 对 后 端 链 路 瞬间 爆发 式 占用 , 一 定 程度 下 
还 会 进一步 影响 性 能 。 飞 康 采用 零 缓存 拷贝 方式 , 降低 了 功 耗 、 复 杂 度 和 成 本 ， 虚 拟 化 控制 器 只 
作为 通道 , 不 缓存 数据 。 在 保证 性 能 的 前 提 下 ,保证 了 自身 双 机 失效 极端 情况 下 的 数据 安全 性 和 
稳定 性 ， 并 且 降 低 了 成 本 。 


Alternate-READ/Smart-READ 


Raid1 是 很 简单 的 技术 ， 两 个 物理 磁盘 ， 或 者 两 个 LUNV 卷 之 间 做 成 镜像 关系 ， 但 是 很 少 有 
产品 把 优化 做 到 极致 ， 比 如 很 多 人 认为 Raidl 的 两 个 盘 / 卷 之 间 一 定 会 做 读 负载 均衡 ， 也 就 是 读 
IO 会 轮 询 发 给 这 两 个 盘 去 执行 ， 但 是 事实 上 ， 因 为 做 到 这 一 点 需要 额外 的 开发 ， 并 不 仅仅 是 做 
个 负载 分 发 器 简单 地 分 派 IO 就 完了 ， 还 需要 处 理 数 据 一 致 性 ， 比 如 在 异步 镜像 模式 下 ， 如 果 源 
卷 的 某 些 数据 尚未 同步 到 镜像 卷 ， 而 此 时 分 发 器 就 需要 先 判断 目标 IO 是 否 可 以 先 发 送 到 镜像 卷 
执行 ， 它 需要 先 搜查 元 数据 (比如 bitmap 之 类 ) ， 这 是 需要 开发 和 验证 测试 工作 量 的 ， 一 些 头 
脑 简单 、 四 肢 发 达 的 产品 基本 是 不 会 考虑 做 这 些 优 化 的 ， 因 为 很 多 用 户 本 身 并 不 专业 , 不 会 注意 
到 或 者 理解 这 些 高 技术 含量 的 东西 ， 还 不 如 用 低 价 + 高 硬件 配置 来 解决 问题 。 飞 康 显然 走 的 是 另 
一 条 路 线 ， 以 智 取 胜 ， 其 Alternate-READ 技术 ， 可 以 实现 镜像 卷 的 读 负载 均衡 。 

另外 ,数据 复制 、 快 照 等 等 功能 ， 都 需要 从 源 卷 来 读 取 数据 ， 这 显然 会 影响 主机 侧 的 IO 性 
能 ， 飞 康 的 Smart-READ 技术 ， 可 以 让 这 些 阵 列 内 自身 发 起 的 读 IO 被 重 定向 到 镜像 卷 去 执行 ， 
这 样 就 可 以 分 担 源 卷 的 读 IO 压力 了 。 

提示 : 将 技术 做 到 极致 是 我 研究 飞 康 技术 以 来 的 第 一 印象 。 

如 图 14-47 所 示 , 在 创建 存储 镜像 卷 的 时 候 可 
以 手动 选择 三 种 镜像 读 模 式 , 分 比 为 Smart-READ 
模式 、Alternate 模式 和 Exclude Mirror 模式 ， 前 两 
者 上 文 已 经 介绍 过 了 , 最 后 一 种 模式 就 是 让 系统 永 
远 不 从 镜像 卷 读数 据 。 


图 14-47 选择 不 同 的 镜像 读 方式 


High Availability Cluster 


NSS 支持 集群 互 备 模式 ， 双 控制 器 各 自分 工 ， 各 自 对 后 端的 一 部 分 LUN 进行 虚拟 化 管理 ， 
平时 各 管 各 的 ， 但 是 在 一 个 控制 器 宕 机 之 后 ， 另 一 个 控制 器 便 接 管 起 对 方 的 LUN 继续 做 虚拟 化 


管理 。 
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14.9.2 ”数据 保护 相关 技术 和 产品 


SnapShot/ Data Journaling/CDP 


每 个 卷 最 大 支持 1000 个 快照 。 系 统 还 支持 针对 各 种 主流 应 用 的 Application Aware Snapshot 
Agent 代理 程序 ， 可 以 实现 主流 应 用 系统 的 数据 一 致 性 快照 。 支 持 一 致 性 组 ， 一 致 性 组 中 的 多 个 
卷 之 间 可 以 保证 时 序 一 致 性 。 支 持 TimeView 现场 预览 模式 。 

提示 : 关于 飞 康 快照 和 CDP 的 详细 描述 可 以 参考 本 书 第 16 章 相关 内 容 。 


Recovery Agent 


Recovery Agent 是 飞 康 针对 各 种 Windows 下 的 主流 应 用 (比如 Exchange、SQL Server、Lotus 
Notes、Volume Shadow Copy Service ) 提 供 的 图 形 化 恢复 工具 , 其 与 飞 康 NSS/CDP 设备 、Snapshot 
Agent 以 及 应 用 系统 三 方 之 间 紧 密 配合 ,从 而 可 以 让 管理 员 在 无 需 介 入 复杂 的 应 用 系统 的 情况 下 ， 
很 容易 地 实现 从 应 用 视角 切入 的 数据 恢复 。 


14.9.3 ” 异 构 迁移 和 容 灾 相关 技术 和 产品 


SED 


Service Enabled Device， 中 文 不 好 翻译 ， 但 是 这 个 功能 是 至 关 重要 的 。 作 为 一 款 专业 的 存储 
虚拟 化 设备 ， 其 人 品 应 该 是 优秀 的 ， 所 谓 人 品 优秀 ， 就 是 不 会 只 知道 强制 “霸占 ”别人 的 资源 ， 
有 时 候 还 需要 懂得 借 花 献 佛 和 激流 勇 退 。 

怎么 理解 ? 虚拟 化 产品 一 般 都 是 将 从 其 他 存储 系统 处 借 来 的 LUN 当做 物理 磁盘 ,然后 在 其 
上 再 做 一 层 虚 拟 化 ， 虚 拟 出 一 堆 LUN 来 。 但 是 有 的 时 候 ， 用 户 不 需要 二 次 虚拟 化 ， 而 要 求 之 前 
的 LUN 保持 不 变 ， 其 上 数据 也 不 被 损坏 ， 甚 至 连 这 个 LUN 的 厂商 、 序 列 号 等 都 保持 不 变 ， 但 
是 同时 需要 针对 这 个 LUN 实现 快照 、 复 制 、CDP、 镜 像 等 高 级 功能 。 另 外 , 在 数据 迁移 场景 下 ， 
虚拟 化 设备 必须 完全 模拟 原来 的 LUN 的 所 有 属性 ， 因 为 只 有 这 样 上 层 应 用 才能 保证 不 出 任何 兼 
容 性 问题 ， 同 时 把 该 LUN 中 的 数据 透明 迁移 到 另外 的 存储 设备 中 去 ， 然 后 做 切换 ， 而 且 必须 保 
证 OS 识别 到 这 个 LUN 之 后 不 会 认为 它 是 个 新 LUN 从 而 导致 盘 符 错乱 , 盘 符 顺 序 必须 保证 一 致 ， 
这 样 才 是 对 应 用 完全 透明 ,所 以 要 求 该 LUN 的 序列 号 文件 系统 格式 等 完全 一 致 ,也 就 是 该 LUN 
中 的 每 个 肩 区 都 不 会 被 虚拟 化 设备 私自 去 修改 , 这 就 是 借 花 献 佛 , 不 将 该 LUN 写 入 自己 的 标签 ， 
据 为 己 有 ， 这 有 点 类 似 于 带 外 虚拟 化 。 虚 拟 化 设备 会 将 原本 应 该 写 入 原 LUN 的 标签 等 元 数据 ， 
单独 记录 在 其 他 地 方 。 

所 谓 激流 勇 退 ， 是 指 一 旦 当 虚 拟 化 设备 出 现 什么 问题 ， 那 么 此 时 应 用 的 IO 会 全 部 中 断 ， 业 
务 停止 ， 为 了 给 这 种 情况 留 有 后 路 ， 虚 拟 化 设备 就 必须 将 原来 的 LUN 透明 地 传 给 主机 访问 ， 这 
样 的 话 ， 当 虚拟 化 设备 出 问题 之 后 ， 可 以 拿 掉 虚拟 化 设备 ， 重 新 修改 LUN 映射 ， 恢 复 之 前 的 拓 
扑 ， 让 主机 直接 连接 之 前 的 存储 系统 ， 此 时 主机 依然 会 识别 到 这 些 LUN， 挂 起 之 后 盘 符 也 不 会 
变化 。 但 是 如 果 虚 拟 化 设备 不 透 传 原来 的 LUN, 而 在 LUN 上 写 入 了 自己 的 管理 标签 , 并 且 对 这 
些 LUN 做 了 二 次 虚拟 化 之 后 ， 那 么 一 旦 虚拟 化 设备 出 了 问题 ， 将 不 会 有 任何 设备 能 够 识别 这 些 
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LUN, 因为 这 些 LUN 里 的 格式 已 经 不 是 物理 硬盘 的 普通 分 区 格式 了 , 甚至 连 MBR/GPT 格式 都 


不 是 ， 


会 提示 
停机 


以 让 


而 是 虚拟 化 设备 厂商 私有 的 格式 , 所 以 OS 根本 挂 不 起 来 这 些 LUN, 只 会 认 到 “新 磁盘 ” 
示 “ 需 要 格式 化 ”， 所 以 此 时 除非 找到 同样 厂商 的 同样 设备 来 恢复 业务 ， 否 则 业务 就 要 一 直 
。 所 以 专业 的 虚拟 化 设备 都 会 提供 这 种 LUN 透 传 模式 。 这 种 模式 俗称 “逃生 模式 ”。 
如 图 14-48 所 示 为 飞 康 NSS 设备 所 提供 的 两 种 模式 。 可 以 看 到 , 在 SED 模式 下 ， 系 统 还 可 
用 户 选择 是 否 连 原 LUN 的 厂商 信息 等 也 完全 保留 ( Preserve physical device i inquiry string ), 


比如 原来 的 LUN 是 厂商 A 存储 系统 的 ，OS 设备 管理 器 里 是 可 以 识别 到 厂商 A 的 ， 其 底层 其 实 


是 使 
应 主 


用 了 SCSI Inquiry LUN 命令 来 得 到 这 些 信息 的 ,虚拟 化 设备 只 要 用 原 LUN 的 这 些 信息 来 响 
机 的 SCSI Inquiry LUN 命令 即 可 。 
Create SAN Resource Wizard -[ Second ] 医 


Selectthe SAN Resource Type 
type of SAN Resource dp you wantto create? 


国 salectme pe ofSAN Resource you wartio create. 


O Virtual Device 
AVirual Device 1s a SAN Resource consistng of one or more hard disk segments. tcan be 
expanded as needed andthe mirorng feature is supporied. 
© 
回 Preserve physial device inquiry string, 


ASemvce Enabled Device is 3 SAN Resource consistng of one norryirtualzed disk and a vitual 
device header on anoiher physlcal device. 


Ce 
图 14-48 SED 模式 和 普通 虚拟 化 模式 
SED 模式 的 LUN 可 以 被 快照 ( 必须 为 CoFW 模式 ) 、 镜 像 、 复 制 , 但 是 不 能 被 Enable Thin 


Provision， 因 为 Thin Provision 会 改变 原 LUN 中 原 有 的 数据 布局 ， 导 致 不 可 能 透 传 给 主机 使 用 。 


提示 : 数据 迁移 为 何 有 难度 ?就 是 因为 要 尽量 缩短 停机 时 间 。 假 设 可 以 无 限 停机 ， 那么 此 
时 完全 可 以 用 dd 来 盘 对 盘 复 制 实现 数据 迁移 ， 迁 移 前 和 迁移 后 ， 两 个 盘 上 的 每 个 扇 区 都 是 
一 样 的 。 但 问题 是 停机 不 能 太 久 ， 和 否则 dd 根本 搞 不 定 ，dd 不 支持 在 源 LUN 不 停 地 接受 写 
IO 的 同时 ， 还 能 把 这 些 新 的 更 新 数据 同步 迁移 到 对 端 去 。 那 么 是 否 可 以 使 用 LVM 或 者 软 
Raid 来 将 两 个 LV 做 镜像 ,同步 之 后 , 拿 掉 源 存储 系统 呢 ? 完全 可 以 , 但 是 要 求 应 用 主机 必 
须 使 用 LVM 或 者 软 Raid， 另 外 有 些 应 用 或 者 主机 根本 不 使 用 LVM， 就 直接 用 /dewsda， 此 
时 LVM/ 软 Raid 没 攻 。 那 么 , 针对 /dev/sda, 是 否 可 以 先 用 LVM 将 两 个 /dev/sdxx 设备 做 镜像 ， 
然后 再 让 LVM 退出 , 还 原 成 /dev/sda 的 原 有 格式 ? 不 可 能 , 要 将 某 个 /dev/sdx 纳入 LVM 的 管 
理 , 那么 LVM 便 会 向 其 中 写 人 自己 的 和 降 理 标签 和 元 数据 , 这 就 已 经 破坏 了 该 LUN 中 原 有 的 
数据 了 ， 就 更 别提 还 原 了 。 所 以 ， 数 据 迁 移 场景 ， 必 须 使 用 类 似 飞 康 SED 这 种 模式 。 
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Microscan 


远程 数据 复制 , 本 质 上 没什么 技术 含量 , 无 非 就 是 将 数据 复制 到 远程 ,这 就 像 从 网 站 上 下 载 
一 个 文件 到 本 地 一 样 。 虽 然 企业 的 数据 容 灾 链 路 如 我 们 的 Internet 一 样 也 是 包月 的 ， 但 却 是 专用 
的 、 不 与 其 他 人 共享 的 , 价格 高 、 带 宽 低 、 时 延 大 。 企 业 每 天 都 会 产生 大 量 数据 , 在 这 种 低 带 宽 、 
高 时 延 链 路 下 进行 数据 复制 ， 就 得 用 一 些 特殊 的 技术 。 飞 康 MicroScan 是 其 专利 技术 ， 能 够 节约 
大 量 数 据 复制 流量 ， 让 企业 可 以 用 更 低 带 宽 的 链 路 达到 其 他 数据 复制 产品 同样 的 效果 。 

提示 : 首先 ， 多 数 人 不 知道 的 一 个 事实 是 ， 数 据 复制 时 产生 有 大 量 元 余 ， 源 和 目的 端 本 来 

就 相同 的 数据 , 被 复制 到 远 端 , 究 其 原因 , 是 因为 底层 磁盘 是 按照 512Byte 扇 区 作为 最 小 IO 

粒度 ， 而 文件 系统 一 般 使 用 4KB 作为 最 小 管理 粒度 ， 上 层 Page Cache 同样 也 是 4KB。 如 果 

应 用 要 更 新 某 个 字 节 ,那么 文件 系统 也 会 将 这 几 个 字 节 所 落 入 的 4KB 数据 块 读 和 人 Page 

Cache， 然 后 更 新 这 几 个 字 节 ， 再 写 人 整个 4KB 块 ， 这 就 是 读 写 惩罚 ， 本 书 第 19 章 会 对 这 

个 现象 做 详细 分 析 。 这 样 的 话 , 假设 应 用 只 更 新 了 一 个 字 节 , 那么 文件 系统 白白 读 出 了 4096 

字 节 , 又 白白 写 人 了 4095 字 节 , 而 底层 的 数据 复制 引擎 也 就 必须 将 这 4095 字 节 宛 余数 据 再 

次 复制 到 远 端 ， 虽 然 远 端 的 这 4095 字 节 与 本 地 的 4095 字 节 一 模 一 样 。 

MicroScan 技术 可 以 降低 上 述 元 余 粒 度 到 一 个 扇 区 ， 只 要 某 个 扇 区 发 生变 化 ， 那 么 不 管 上 层 
是 按照 什么 粒度 来 管理 存储 空间 的 , 也 不 管 上 层 的 写 惩罚 有 多 大 , 底层 会 发 现 那些 发 生 了 变化 的 
扇 区 ， 从 而 只 复制 这 些 扇 区 到 远 端 。 

提示 : 这 项 技术 的 底层 原理 ， 有 技术 感觉 的 读者 一 眼 就 可 以 判断 出 ， 一 定 是 利用 了 与 重 删 

一 样 的 技术 ， 就 是 算 Hash。 没 错 ， 但 是 重 删 的 目的 是 把 数据 压 实 以 缩小 体积 ， 而 MicroScan 

的 目的 是 发 现 变化 ， 节 省 复制 的 带宽 。 所 以 我 在 此 推测 一 下 MicroScan 技术 的 底层 原理 。 首 

先 , 在 初次 复制 之 前 ,复制 引擎 一 定 会 对 源 LUN 整 盘 的 每 个 扇 区 都 计算 一 个 hash 值 然后 保 

存 起 来 ， 按 照 64bit hash 值 来 算 ，1TB 的 LUN 就 需要 16GB 的 hash 存储 空间 /hash 库 ， 这 些 

hash 值 必 须 按 照 扇 区 顺序 来 排序 以 加 快 IO 速度 ，hash 库 只 会 被 保存 在 源 端 。 

当 数 据 复制 还 没有 开始 之 前 ， 每 当 源 卷发 生 一 笔 写 IO ， 系 统 便 会 以 扇 区 为 单位 算 好 新 数据 
的 hash ， 然 后 异步 更 新 到 hash 库 里 ， 这 样 ，hash 库 时 刻 处 于 最 新 状态 。 当 数据 复制 开始 之 后 ， 
第 一 笔 针 对 源 卷 的 写 IO ， 系 统 同样 会 以 扇 区 为 单位 计算 其 hash 值 ， 然 后 从 hash 库 中 对 应 偏 移 处 
取出 针对 这 笔 IO 目标 地 址 处 所 存放 的 原来 数据 的 hash 值 , 进行 比 对 , 发 现 哪些 扇 区 的 hash 值 发 
生 了 变化 ,然后 便 向 一 个 链表 中 追加 提交 该 发 生变 化 的 扇 区 ,等 待 复制 ( 须 先 搜索 该 链表 ， 查 看 
是 否 之 前 已 经 有 针对 该 扇 区 的 复制 任务 ， 如 果 有 便 删除 之 ， 以 最 新 的 为 准 ， 这 样 可 以 保证 IO 复 
制 的 时 序 一 致 性 ) 。 由 于 hash 库 是 完全 按照 扇 区 地 址 排序 的 ， 所 以 不 存在 “搜索 ”这 一 步 ， 系 
统 直接 套用 偏 移 量 算式 代入 一 步 即 可 得 出 目标 hash 的 位 置 , 然后 直接 发 起 IO 读 出 hash 数据 比 对 
即 可 ， 所 以 虽然 元 数量 非常 大 ， 但 是 根本 无 须 载 入 内 存 。 

如 图 14-49 所 示 为 MicroScan 技术 能 够 节省 的 带宽 比例 。 
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图 14-49 MicroScan 技术 效果 示意 图 
RecoverTrac 


容 灾 最 难 的 是 什么 ? 不 是 数据 复制 ,不 是 配置 安装 ,而 是 前 期 规划 和 平时 的 运 维 管理 和 演练 ， 
当真 有 灾难 发 生 的 时 候 , 切换 就 是 点 一 下 鼠标 , 一 锤子 买卖 的 事情 。 有 些 双 机 HA 产品 ,它们 规 
划 、 管 理 非常 简单 ， 因 为 往往 只 有 两 台 机 器 和 一 套 应 用 。 但 是 如 果 是 从 双 机 到 多 机 ( 比如 几 十 台 
机 器 ) ， 再 到 虚拟 机 ( 比如 几 百 台 机 器 ) ， 应 用 也 从 一 套 单一 应 用 到 多 套 应 用 ， 而 且 应 用 之 间 相 
互 关联 依赖 ,对 于 这 样 一 个 系统 的 容 灾 , 其 管理 复杂 度 就 很 高 了 ， 需 要 一 个 集中 的 容 灾 管 理 系统 
来 帮助 管理 员 管理 容 灾 体系 。 


Stretched Cluster 


与 众多 厂商 的 Stretched Cluster 解决 方案 架构 一 样 ， 在 用 户 的 两 个 数据 中 心 分 别 部 署 一 套 存 
储 和 一 台 NSS 存储 虚拟 化 网 关 ， 两 个 数据 中 心 NSS 存储 虚拟 化 系统 互 为 备份 ， 两 套 存 储 系统 可 
以 是 不 同 品牌 ， 通 过 飞 康 NSS Stretched Cluster 虚拟 化 网 关 互 为 镜像 保护 ; 两 台 NSS 存储 虚拟 化 
网 关 都 可 以 对 外 提供 服务 , 把 磁盘 卷 分 配给 各 自 站 点 的 主机 使 用 , 也 就 是 实现 了 两 个 站 点 负载 的 
相互 分 担 。 

在 两 个 数据 中 心 均 工作 的 情况 下 ， 当 某 一 数据 中 心 NSS 虚拟 化 网 关 发 生 故 障 时 ， 另 一 数据 
中 心 的 NSS 虚拟 化 网 关 可 以 自动 接管 故障 NSS 上 运行 的 任务 , 接管 过 程 大 约 需要 20 秒 左右 , 业 
务 系统 运行 不 会 中 断 , 保证 了 业务 系统 的 连续 运行 。 当 某 一 数据 中 心 存储 系统 故障 时 ， 作 为 镜像 
的 另 一 数据 中 心 存储 自动 顶 蔡 生 产 ， 上 层 运行 的 应 用 系统 和 数据 库 系 统 对 存储 的 故障 无 任何 感 
知 , 业务 系统 运行 不 会 受到 任何 影响 ， 从 而 保证 了 业务 的 连续 性 。 当 发 生 主机 系统 故障 时 ， 可 以 
主机 层 的 HA 环境 自动 切换 应 用 系统 和 数据 库 系统 程序 到 另 一 个 数据 中 心 的 主机 上 运行 。 

为 了 防止 脑 裂 现 象 , 飞 康 NSS Stretched Cluster 引 入 了 一 个 第 三 方 仲 裁 机 制 一 Tiebreaker 仲 裁 。 

它 与 两 个 NSS 存储 虚拟 化 网 关 的 电源 控制 模块 进行 通信 , 支持 IPMI 和 HP iLO。Tiebreaker 服务 
器 通过 网 络 监控 Cluster 节点 的 电源 控制 模块 ， 当 Cluster 虚拟 化 网 关 之 间 无 法 判断 对 方 状态 时 ， 
Tiebreaker 会 对 收 不 到 响应 的 虚拟 化 网 关 进 行 重 置 。 阻 止 两 个 节点 都 向 存储 尝试 写 入 的 情况 发 生 ， 
从 而 避免 数据 不 一 致 现象 。 


"” 分布 式 

， 集群 

"高 可 用 性 集群 
， ”负载 均衡 集群 
"高 性 能 集群 


随 着 应 用 程序 对 服务 器 和 存储 系统 的 要 求 越 来 越 
高 ， 对 于 传统 设备 来 说 ， 比 如 PC、PC 服务 器 、 小 型 机 服 
务 器 等 ， 单 台 设 备 有 时 已 经 不 能 满足 需求 了 。 此 时 虽然 
可 以 使 用 大 型 机 ， 在 单一 设备 上 提供 更 高 的 性 能 ,但 是 
大 型 机 的 物质 成 本 和 维护 成 本 是 高 不 可 梦 的 ， 而 且 大 型 
机 也 不 见得 适合 所 有 应 用 。 怎么 办 呢 ? 众 人 拾 柴火 焰 高 ， 
人 们 想 出 了 一 种 办 法 来 应 对 日 益 扩 张 的 应 用 程序 需求 ， 
就 是 用 多 台 设 备 联合 起 来 对 外 提供 服务 ， 这 就 是 集群 。 

主机 可 以 形成 集群 ， 存 储 设备 一 样 可 以 形成 集群 。 
目前 中 高 端 存储 设备 其 自身 就 具备 双 控制 器 。 不 但 如 此 ， 
有 一 些 NAS 设备 还 可 以 在 众多 台独 立 设备 之 间 形 成 集 
群 ， 并 且 实现 了 单一 名 称 空间 ， 即 用 户 访问 目录 路 径 像 
访问 一 台 机 器 一 样 ， 而 实际 上 ， 可 能 是 由 集群 中 不 同 的 
节点 来 提供 服务 。 
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15.1 集群 概述 


用 多 个 节点 来 代替 一 个 节点 完成 任务 , 宫 无 疑问 是 为 了 提高 处 理 能 力 。 其次, 集群 还 可 以 做 
到 高 可 用 性 , 即 一 旦 某 个 节点 发 生 故 障 , 不 能 再 继续 参与 计算 ,那么 集群 中 的 其 他 节点 可 以 立即 
接替 故障 节点 的 工作 。 


15.1.1 高 可 用 性 集群 ( HAC ) 


在 HA 集群 中 , 节点 分 为 活动 节点 和 备份 节点 。 活动 节点 就 是 正在 执行 任务 的 节点 ; 备份 节 
点 是 活动 节点 的 备份 。 一 旦 活动 节点 发 生 故 障 , 则 备份 节点 立即 接替 活动 节点 来 执行 任务 。 高 可 
用 性 集群 的 实现 是 基于 资源 切换 的 。 所谓 “资源 ”是 指 HA 集群 中 某 个 节点 发 生 故 障 之 后 , 备份 
节点 所 要 接管 的 任何 东西 的 一 个 抽象 的 词汇 。 比 如 , 在 某 个 节点 发 生 故障 之 后 ， 其 对 应 的 备份 节 
点 ， 需 要 接管 故障 节点 上 的 IP 地 址 、 主 机 名 、 磁 盘 卷 、 应 用 程序 的 上 下 文 等 ， 这 样 才 能 将 对 客 
户 端 造成 的 影响 缩减 到 最 小 。 这 些 被 接管 的 实体 ， 便 被 称 为 “资源 ”。 资 源 的 监控 和 接管 ， 依 靠 
于 HA 软件 。 目 前 存在 多 种 HA 软件 。 每 种 操作 系统 几乎 都 自 带 HA 软件 ， 它 的 作用 就 是 监控 对 
方 节点 的 状态 , 一 且 侦 测 到 对 方 的 任何 故障 , 那么 便 会 强行 将 所 有 资源 占 为 已 有 并 向 客户 端 继续 
提供 服务 。 


15.1.2 ”负载 均衡 集群 ( LBC ) 


在 负载 均衡 集群 中 , 集群 中 的 所 有 节点 都 参与 工作 , 每 个 节点 的 地 位 相同 , 接受 的 工作 量 按 
照 某 种 策略 ,由 一 个 单独 的 节点 作为 调度 来 向 其 他 所 有 参与 运算 的 节点 分 配 , 或 者 由 所 有 参与 运 
算 的 节点 之 间 通 过 网 络 通信 来 协商 分 配 。 分 配 策略 如 轮流 分 配 、 随 机 分 配 、 最 小 压力 分 配 等 。 


15.1.3 ”高 性 能 集群 ( HPC ) 


高 性 能 集群 ， 又 称 科 学 计算 集群 。 这 种 集群 其 实 与 LBC 集群 的 本 质 是 相同 的 。 只 不 过 其 专 
用 于 科学 计算 ， 即 超大 运算 量 的 系统 ,比如 地 质 勘 探 、 气 象 预测 、 分 子 筛选 、 仿 生 模拟 、 和 蛋白 质 
构 型 、 分 子 药物 分 析 、 人 工 智能 等 。 这 些 运算 要 么 逻辑 复杂 ， 要 么 需要 大 量 穷 举 ,会 耗费 大 量 的 
CPU 和 内 存 资源 。 有 些 需 要 几 天 、 几 个 月 甚至 半年 才能 执行 完毕 。 此 时 ， 增 加 整个 系统 的 CPU 
总 核心 数 ， 可 以 成 倍 地 缩短 执行 时 间 。 

提示 : 记得 笔者 在 大 学 做 作业 设计 的 时 候 ， 有 个 同学 的 课题 就 是 分 布 式 计算 ,这 课题 也 简 

单 ， 就 是 第 一 天 将 任务 执行 上 , 一 个 月 之 后 结果 出 来 了 , 写 论 文 、 答 辩 。 那 时 候 的 计算 机 

上 用 的 都 是 Intel 奔腾 4 的 CPU， 倘 车 用 现在 的 酷 豁 多 核 CPU， 我 想 只 需要 十 几 天 便 可 以 

出 结果 。 

HPC 集群 中 , 为 了 增加 整个 系统 的 CPU 核心 数 , 一 般 引 入 十 几 台 或 者 几 十 台 、 几 百 台 计算 
机 ， 其 中 每 台 计 算 机 又 可 以 有 多 个 物理 CPU， 每 个 CPU 又 可 以 有 多 个 核心 。 这 样 整个 系统 的 
CPU 核心 数 会 相当 可 观 。 那 么 如 何 利用 这 么 多 的 CPU 呢 ? 如 何 将 任务 平均 分 配 到 每 个 CPU 核 
心 上 呢 ? 

Windows 2000 以 后 的 Windows 系统 , 操作 系统 默认 便 自 动 支持 同一 台 计 算 机 内 的 多 个 CPU 
或 者 多 个 CPU 核心 , 操作 系统 自动 将 多 个 线程 平 摊 到 多 个 CPU 核心 上 运行 。 但 是 对 于 不 处 于 同 
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一 各 计算 机 内 的 CPU 来 说 ,任务 将 要 怎么 分 配 到 其 他 节点 上 呢 ? 当然 是 通过 网 络 了 。 为 了 方便 
编程 出 现 了 很 多 API， 为 程序 员 屏 蔽 掉 多 CPU 所 带 来 的 编程 复杂 度 ， 程 序 员 只 要 按照 这 些 API 
规范 来 编写 代码 ,底层 便 会 自动 将 运算 任务 分 派 到 网 络 上 的 其 他 运算 节点 上 。 节点 接收 到 任务 数 
据 之 后 ,再 由 节点 操作 系统 自行 将 这 块 任务 数据 分 派 到 节点 的 多 个 CPU 核心 上 。MPI 便 是 一 个 
目前 广泛 应 用 的 HPC 系统 API。 


15.2 ”集群 的 适用 范围 


集群 可 以 实现 在 系统 路 径 的 任何 点 上 。 

硬件 上 : CPU、 内存、 显卡、 显示 终端 、 以 太 网 卡 、 计 算 机 本 身 、 以 太 网 及 IP 网 络 设备 、 
FC 卡 、FC 网 络 交换 设备 、 磁 盘 阵 列 控制 器 本 身 、 磁 盘 阵 列 控制 器 内 部 的 各 个 组 件 、 磁 盘 本 身 、 
磁盘 内 部 的 多 片 盘 片 和 多 个 磁头 。 

软件 上 : 应 用 程序 、 文 件 系统 、 卷 管理 系统 。 

什么 时 候 需 要 实现 集群 呢 ? 

当 某 个 系统 的 处 理 能 力 不 能 满足 性 能 要 求 的 时 候 ， 可 考虑 使 用 负载 均衡 集群 或 者 高 性 能 集 
群 ; 当 追 求 系统 的 高 可 用 性 时 ， 即 希望 某 处 故障 不 会 影响 整个 系统 的 可 用 性 的 时 候 ， 使 用 高 可 用 
性 集群 ， 当 需要 运算 的 数据 量 很 大 ， 运 算 周 期 很 长 的 时 候 ， 可 考虑 实施 高 性 能 集群 。 

目前 ， 各 大 知名 网 站 一 般 都 采用 负载 均衡 集群 来 均衡 TCP 连接 请 求 。 由 于 这 些 网 站 每 天 的 
访问 量 很 大 ， 同 时 产生 的 TCP 连接 请 求 也 很 多 ， 所 以 如 果 只 用 一 台 计 算 机 来 接受 这 些 请 求 ， 根 
本 满足 不 了 性 能 ， 甚 至 会 造成 这 台 机 器 资源 耗 尽 而 死机 。 基 于 Linux 系统 的 LVS， 是 由 国人 主持 
研发 的 一 种 TCP 负载 均衡 软件 , 被 广泛 用 于 TCP 连接 压力 很 大 的 系统 下 。LVS 可 以 基于 很 多 策 
略 来 将 前 端的 请 求 分 摊 到 后 端的 多 台 计 算 机 上 。 其 本 质 就 是 一 个 基于 策略 的 TCP 包 转 发 引擎 。 

对 于 比较 重视 IT 建设 的 企业 、 重 要 的 应 用 系统 ， 都 可 实施 HA 集群 来 追求 高 可 用 性 ， 从 而 
避免 故障 造成 的 生产 停顿 。 各 大 科研 院 所 、 气 象 、 石 油 勘 探 等 机 构 ， 由 于 其 需要 很 大 的 运算 量 和 
运算 周期 ， 一 般 都 有 HPC 集群 。 


15.3 ”系统 路 径 上 的 集群 各 论 


15.3.1 “硬件 层面 的 集群 


图 15-1 中 箭头 指向 的 部 件 都 可 以 被 集群 化 。 

(1) CPU 的 集群 。 应 用 在 多 CPU 的 计算 机 系统 ， 比 如 对 称 多 处 理 器 系统 ， 多 个 CPU 之 间 
共享 物理 内 存 的 共同 协作 。 目 前 的 服务 器 以 及 小 型 机 系统 大 多 为 这 种 结构 。 

(2 ) 内 存 的 集群 。 多 条 物理 内 存 组 成 更 大 容量 的 空间 , 并 且 通 过 比如 双 通 道 ( 相当 于 磁盘 系 
统 中 的 条 带 化 RAID 0 ) 等 技术 ， 提 高 性 能 。 

(3 ) 以 太 网 卡 的 集群 。 目 前 有 多 种 方式 来 实现 以 太 网 卡 的 集群 。 将 主机 上 的 多 块 以 太 网 卡 绑 
定 ， 向 上 层 提 供 一 块 虚拟 网 卡 ， 底 层 则 可 以 通过 ARP 轮 询 负载 均衡 方式 , 或 者 802.3ad 
方式 等 向 外 提供 负载 均衡 ， 或 者 HA 方式 的 多 路 径 访问 。 

(4) 以 太 网 及 人 P 网 络 设备 的 集群 。 在 以 太 交换 机 和 了 公路 由 器 上 ， 多 台 设备 之 间 协 作 转发 网 
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络 数 据 包 ( 帧 ) , 诸如 Cisco、 华 为 等 三 商都 已 经 实现 了 负载 均衡 以 及 HA 方式 的 集群 。 

(5 ) 显卡 的 集群 。 显 卡 集群 是 最 近 出 现 的 技术 。NVIDIA 以 及 AMD 公司 都 有 对 应 的 解决 方 
案 。 将 插 在 总 线 上 的 多 块 显卡 通过 特殊 连 线 连接 起 来 ,实现 对 大 型 3D 数据 泻 染 的 负载 
均衡 ,性 能 得 到 很 大 提升 。 

(6 ) 显示 器 集群 。 比 如 电视 墙 等 。 但 是 这 个 严格 来 说 并 不 算 作 集群 。 

(7) FC 卡 的 集群 。 通 过 与 主机 上 的 多 路 径 软件 配合 ， 多 块 FC 卡 之 间 可 以 实现 流量 的 负载 
均衡 和 HA。 或 者 通过 FC 网 络 中 的 ISL 链 路 负载 均衡 、HA 方式 实现 流量 分 摊 。 

(8 ) FC 网 络 设备 的 集群 。 目 前 来 说 ，FC 网 络 设备 并 没有 像 以 太 网 以 及 IP 网 络 设备 那样 实 
现 负 载 均衡 以 及 HA。 但 是 很 多 网 络 存储 系统 中 ， 一 般 都 部 署 多 台 FC 交换 机 以 避免 单 
点 故障 , 但 是 这 个 环境 中 的 FC 交换 机 本 身 并 没有 集群 智能 , 所 有 集群 逻辑 都 运行 在 FC 
节点 上 。 

(9 ) 磁盘 阵列 控制 器 集群 。 目 前 几乎 中 高 端的 磁盘 阵列 的 控制 器 都 为 双 控 架构 ,两 个 控制 器 
之 间 可 以 为 HA 关系 ， 或 者 为 负载 均衡 关系 。 

(10 ) 磁盘 的 集群 。 典 型 的 磁盘 集群 就 是 RAID 系统 ，7 种 RAID ( 磁盘 集群 ) 方式 ， 这 里 
就 不 多 描述 了 。 其 次 磁盘 内 部 的 多 块 盘 片 , 多 个 磁头 之 问 也 组 成 了 集群 , 但 这 并 不 能 算 
作 集 群 ， 因 为 同一 时 刻 只 能 有 一 个 磁头 在 读 写 。 


二 
i 
一 学 
HH 


图 15-1 系统 路 径 上 可 实现 集群 的 各 处 
15.3.2 ”软件 层面 的 集群 
软件 层面 的 集群 如 图 15-2 所 示 。 


全 全 全 
图 15-2 软件 层面 的 集群 
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1. 应 用 程序 的 集群 


一 个 应 用 程序 可 以 同时 启动 多 个 实例 ( 进程 ) , 共同 完成 工作 。 应 用 程序 的 不 同 实例 可 以 运 
行 在 同一 台 机 器 上 ， 也 可 以 运行 在 不 同 的 机 器 上 ， 之 间 通 过 网 络 交互 协商 信息 。 


2. 文件 系统 的 集群 


文件 系统 的 集群 是 一 门 比较 独立 的 课题 。 可 以 实现 集群 功能 的 文件 系统 称 为 集群 文件 系统 。 
比如 NEFS、CIFS 等 网 络 文件 系统 ， 就 是 最 简单 的 集群 文件 系统 。 

集群 文件 系统 的 出 现 主要 是 为 了 解决 三 个 问题 : 容量 、 性 能 、 共 享 。 

(1 ) 容量 问题 。 集 群 文件 系统 有 一 类 又 被 称 为 分 布 式 文件 系统 。 即 某 个 全 局 目录 下 的 存储 空 
间 , 实际 上 是 分 布 在 集群 中 的 各 个 节点 上 的 。 分 布 式 文件 系统 将 每 个 节点 上 的 可 用 空间 
进行 虚拟 的 整合 , 形成 一 个 虚拟 目录 , 并 根据 多 种 策略 来 判断 数据 的 流向 ,从 而 将 写 入 
这 个 目录 的 数据 对 应 成 实际 存储 空间 的 写 入 。 这 样 便 可 以 做 到 集群 中 的 整合 存储 , 充分 
利用 集群 的 资源 优势 。 

(2 ) 性 能 问题 。 用 多 个 节点 共同 协作 来 获取 高 性 能 , 这 在 文件 系统 层次 依然 成 立 。 集群 文件 
系统 使 得 每 个 节点 不 必 连 接 昂贵 的 磁盘 阵列 ， 就 可 以 获得 较 高 的 文件 IO 性 能 。 在 分 布 
式 文件 系统 的 虚拟 整合 目录 的 做 法 之 上 ， 又 采取 了 类 似 磁 盘 条 带 RAID 0 的 处 理 方式 ， 
依据 各 种 负载 均衡 策略 ， 将 每 次 IO 写 入 的 数据 ， 分 摊 到 所 有 节点 上 ， 节 点 获得 的 性 能 
越 多 提升 就 越 大 。 但 这 只 是 理论 情况 , 实际 使 用 起 来 集群 文件 系统 并 不 是 一 个 容易 实施 
的 系统 ， 实 施 之 后 想 要 获得 高 性 能 ， 必 须 经 过 长 时 间 的 优化 调试 过 程 。 

(3 ) 共享 访问 。 集群 文 件 系统 所 解决 的 最 后 一 个 问题 , 也 是 最 为 重要 的 一 个 问题 , 就 是 多 节 
点 共同 访问 相同 目录 和 相同 文件 的 问题 。 集群 文 件 系统 对 多 个 节点 , 同时 读 写 相同 的 文 
件 做 了 很 周全 的 考虑 , 能 保证 所 有 节点 都 能 读 到 一 致 性 的 数据 , 并 且 利用 分 布 式 锁 机 制 
保证 在 允许 的 性 能 下 ， 节 点 之 间 不 会 发 生 写 冲突 。 

常见 的 集群 文件 系统 有 PVFS、PVFS2、Lustre、GFS、GPFS、DFS、SANFS、SANergy 等 ， 

这 里 就 不 做 过 多 介绍 了 。 


3. 卷 管理 系统 的 集群 
本 机 的 卷 可 以 与 本 机 卷 或 者 远程 计算 机 上 的 卷 进行 镜像 等 协同 操作 ， 形 成 集群 。 
15.4 实例 : Microsoft MSCS 软件 实现 应 用 集群 


Windows Server 2003 集群 要 求 每 台 服务 器 上 至 少 有 两 块 以 太 网 络 适 配器 ， 一 块 作为 公用 网 
络 适 配器 ( 连接 外 部 网 络 ) ， 一 块 作为 专用 网 络 适 配器 ( 用 于 心跳 检测 ) 。 集 群 中 的 所 有 节点 必 
须 在 同一 个 域 中 ,一 般 双 机 环境 中 直接 使 用 其 中 一 台 为 主 域 控制 器 ， 另 一 台 为 备份 域 控制 器 。 


15.4.1 在 Microsoft Windows Server 2003 上 安装 MSCS 
使 用 “控制 面板 ”的 “添加 /删除 程序 ”工具 ,添加 Windows 组 件 ， 安 装 集群 服务 。 
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(1 ) 在 管理 工具 菜单 中 打开 集群 管理 器 ， 当 弹出 集群 连接 向 导 时 ， 选择 “创建 新 集群 ”, 并 
单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 15-3 所 示 。 
(2 ) 输入 集群 的 唯一 NetBIOS 名 称 (最 多 15 个 字符 ) , 单 击 “ 下 一 步 ” 按 钮 , 如 图 15-4 所 示 。 


Dn a gio 
本 
三 
Demar 
Fe 可 
ooomocu == 
Th mel ba a veld conpue rane 
Actior omar ee 
Create new cluster 司 ar 
IE ue Ce em | 
图 15-3 创建 新 集群 图 15-4 输入 集群 名 称 


(3 ) 如 果 在 本 地 登录 一 个 不 属于 “具有 本 地 管理 特权 的 域 账户 ”的 账户 , 向 导 会 提示 用 户 指 
定 一 个 账户 ， 如 图 15-5 所 示 。 
(4) 确认 将 要 作为 第 一 个 节点 创建 集群 的 服务 器 的 名 称 ， 如 图 15-6 所 示 。 


2 
[六 
ee | 
cam [as | cm | 
图 15-5 输入 集群 账户 信息 图 15-6 输入 节点 名 称 


(5 ) 安装 程序 将 分 析 节 点 , 查找 可 能 导致 安装 出 现 问 题 的 软 硬 问 题 。 检 查 所 有 警告 或 错误 信 
息 。 单 击 “ 详 细 信息 ”按钮 可 以 了 解 有 关 每 个 警告 或 提示 的 详细 信息 , 如 图 15-7 所 示 。 
(6 ) 输入 唯一 的 集群 IP 地址 ( 只 能 用 于 管理 ， 不 能 用 于 客户 端 连接 ) ， 如 图 15-8 所 示 。 


世 


Me eee to espn ocrmetote 
Checking lo ciring chatm Pédderm | 
= va [Ta 
9 Dhecking chuster| 

Foud 3 msouee that ie common 9 Hnodes ht can be veed 56 3 quo yespuc 

1 革 
Tasks campketed 
use aaauaedaniea 

四 本 
图 15-7 检查 集群 配置 环境 图 15-8 输入 集群 IP 地 址 


" ”输入 在 安装 时 创建 的 集群 服务 账户 的 “用 户 名 ”和 “密码 ”。 
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， ”集群 配置 完成 ， 单 击 “ 完 成 ”按钮 结束 。 

， ”集群 配置 完成 后 ， 选 择 磁盘 阵列 上 的 一 个 LUN 为 仲裁 盘 。 

”完成 节点 1 的 配置 后 ， 在 另 一 台 机 器 上 也 安装 集群 服务 ， 完 成 后 打开 集群 管理 器 。 
， ” 当 弹 出 集群 连接 向 导 时 ， 选 择 “ 加 入 现 有 的 集群 ”， 根 据 向 导 完成 节点 2 的 配置 。 
提示 : 仲裁 磁盘 (Quorum Disk ) 用 于 存储 集群 配置 数据 库 检 查 点 ， 以 及 协助 管理 集群 和 
维持 一 致 性 的 日 志文 件 。 仲 裁 盘 可 以 是 一 个 迎 辑 分 区 ， 也 可 以 是 一 个 单独 的 磁盘 。 


15.4.2 ”配置 心跳 网 络 


(1 ) 启动 “集群 管理 器 ”。 

(2 ) 在 左 窗 格 中 , 单 击 “ 集 群 配置 ”， 再 单 击 “网 络 ”, 右 击 用 于 专用 网 络 (心跳 检测 专用 ) 
的 适配器 ， 从 弹出 的 快捷 菜单 中 选择 “属性 ”命令 。 

(3 ) 选中 “ 仅 用 于 内 部 集群 通信 ( 专用 网 络 ) ” 单 选 按钮 ， 如 图 15-9 所 示 。 

(4) 单 击 “ 确 定 ”按钮 。 

(5 ) 右 击 用 于 公用 网 络 的 适配器 ， 从 弹出 的 快捷 菜单 中 选择 “属性 ”命令 。 

(6 ) 选中 “针对 集群 应 用 启用 该 网 络 ” 复 选 框 ， 如 图 15-10 所 示 。 

(7) 选中 “所 有 通信 (混合 网 络 ) ” 单 选 按钮 ， 然 后 单 击 “ 确 定 ”按钮 。 


|Public Network Cormection 


图 15-9 配置 专用 网 络 (1) 图 15-10 配置 公用 网 络 (2) 


15.4.3 ”测试 安装 


在 “安装 ”程序 结束 后 ， 有 几 种 验证 集群 服务 安装 的 方法 ， 具 体 如 下 。 

， ”集群 管理 器 : 如 果 仅 完成 了 节点 1 的 安装 ， 启 动 “集群 管理 器 ”， 然 后 尝试 连接 到 集 
群 。 如 果 已 安装 了 第 二 个 节点 2， 可 在 任意 一 个 节点 上 启动 “集群 管理 器 ”， 然 后 确认 
第 二 个 集群 显示 在 列表 上 。 

， ”查看 启动 服务 : 使 用 管理 工具 中 的 “服务 ”选项 ， 确 认 集群 服务 已 显示 在 列表 上 并 已 
启动 。 
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" ”事件 日 志 : 使 用 “事件 查看 器 ”检查 系统 日 志 中 的 ClusSvc 条 
ra 形成 或 加 入 一 个 集群 的 条 目 。 
" 集群 服务 注册 表 项 : 确认 集群 服务 安装 程序 将 正确 的 项 写 入 注册 表 。 可 以 在 
HKEY_LOCAL_MACHINE\Cluster 下 找到 许多 注册 表 设 置 。 
选择 “开始 ”一 “运行 ”菜单 命令 ,然后 在 弹出 的 对 话 框 中 , 输入 “虚拟 服务 ”名 称 。 确 认 
可 以 连接 并 看 到 资源 。 


15.4.4 ”测试 故障 转移 


验证 资源 将 执行 故障 转移 。 
选择 “开始 ”一 “程序 ”一 “管理 工具 ”菜单 命令 ， 
然后 单 击 “ 集 群 管理 器 ”， 如 图 15-11 所 示 。 
右 击 “磁盘 组 1” 组 ， 然 后 单 击 “ 移 动 组 ”。 该 组 及 其 
所 有 资源 将 转移 到 另 一 个 节点 。 稍 后 ， 磁 盘 F:、G: 将 在 第 
二 个 节点 上 实现 联机 。 在 窗口 中 观察 该 转移 。 退 出 “集群 管 
理 器 ”。 


。 会 看 到 有 关 确 认 集群 


图 15-11 集群 管理 器 主 界面 


15.5 ”实例 : SQL Server 集群 安装 配置 


上 面 我 们 已 经 设置 好 了 MSCS 集群 基础 平台 ， 下 面 介绍 如 何在 这 个 平台 上 安装 SQL Server 
数据 库 。SQL Server 2000 的 集群 安装 配置 已 经 直接 集成 到 了 SQL Server 2000 的 数据 库 安装 向 导 
中 ,能 够 自动 识别 到 Windows Server 2003 上 的 集群 系统 并 启用 数据 库 虚拟 服务 器 选项 , 实现 SQL 
Server 2000 集群 虚拟 服务 器 在 两 台 服务 器 上 的 自动 安装 配置 。 安装 完成 后 , 需 安装 SQL 2000 SP3 
补 本 包 。 

确保 SQL Server 2000 集群 在 两 台 服 务 器 上 的 自动 安装 配置 ， 两 台 服 务 器 MS-Clus-01A 与 
MS-Clus-01B， 以 及 共享 磁盘 柜 都 须 处 于 开机 在 线 状 态 。 


15.5.1 安装 SQL Server 


(1 ) 在 接管 了 SQL 数据 盘 ( 磁盘 Y: ) 的 节点 服务 器 MS-Clus-01A 上 , 放 入 SQL Server 2000 
企业 版 安装 光盘 ， 启 动 SQL Server 2000 的 安装 向 导 ， 如 图 15-12 和 图 15-13 所 示 。 


‘| 
| 1: 


图 15-12 ”共享 磁盘 了 被 MS-CLUS-01A 节点 掌管 图 15-13 安装 SQL Serverl 
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(2 ) 安装 向 导 进 入 “计算 机 名 ”界面 后 ,会 自动 识别 到 Windows Server 2003 的 集群 系统 ， 
选择 “虚拟 服务 器 ”选项 ， 输 入 虚拟 SQL Server 名 称 “MS-Clus-SQL”， 单 击 “ 下 一 
步 ”按钮 ， 如 图 15-14 所 示 。 

(3 ) 在 “故障 转移 集群 ”对 话 框 中 输入 IP 地 址 “192.0.0.4”, 选用 网 络 Public， 单 击 “ 添 加 ” 
按钮 ， 使 其 添加 到 列表 中 ， 即 这 个 IP 地 址 属于 公用 网 络 。 然 后 单 击 “ 下 一 步 ” 按 钮 ， 
如 图 15-15 所 示 。 


计算 机 各 EECEEEEE 多 


输入 要 在 其 上 自 建 新 的 SQL Server 实例 或 修改 现 有 请 输入 虚拟 服务 器 信息 。 
5QL Server 实例 的 tt 算 机 的 名 称 。 


虚 执 服务 器 名 称 : MS-CLUS-SQL 
从 地 址 中 i 
或 者 ,输入 要 管理 的 新 的 或 现 有 的 虚拟 SQL Server 
3 子 网 : 255 . 255 . 255 . 0 
要 使 用 的 网 络 E} Pubic 了 
记 洒 iD 门 Ea 
[了 
济 呈 (WI 和 四 
帮助 取消 _ 《上 - 步 四 | 下 - 步 吧 | 取消 
图 15-14 输入 虚拟 SQL Server 名 称 图 15-15 配置 虚拟 服务 器 IP 地 址 


(4) 在 “集群 磁盘 选择 ”对 话 框 中 选择 “组 0” 的 共享 磁盘 “Y: ”， 然 后 单 击 “ 下 一 步 ” 
按钮 ， 如 图 15-16 所 示 。 

(5) 在 “集群 管理 ”对 话 框 ， 确 保 MS-CLUS-01A 与 MS-CLUS-01B 都 在 “已 配置 节点 ” 
列表 中 ， 然 后 单 击 “ 下 一 步 ”按钮 ， 如 图 15-17 所 示 。 


EECEEED EE 


群集 定义 
可 以 定义 或 修改 群集 定义 ， 进 而 可 以 选择 计算 机 的 实例 以 尖 加 到 定义 中 。 安 装 程序 
将 根据 指定 在 洛 集 中 的 计算 机 上 进行 安装 或 郑 载 。 


可 用 节点 CI 已 配置 节点 IC) 


' IMS-CLUS-:O1A 


删除 B) 


不 可 用 节点 岂 ) 


wm | CEs [TBD] mm | _ mm | ct-sw[FEm] wa | 
图 15-16 选择 用 于 存放 数据 的 磁盘 图 15-17 选择 集群 中 要 使 用 到 的 节点 
(6 ) 在 “远程 信息 ”对 话 框 , 输入 用 户 名 、 密 码 及 域名 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 


15 一 18 所 示 。 
(7) 在 “实例 名 ”对 话 框 ， 选 中 “默认 ” 复 选 框 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-19 
所 示 。 
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实例 名 x 


ER 


忆 

车 要 进行 默认 安装 ,请 选中 催 认 "并 单 击 下 一 步 "。 
用 记名 WW: [Eiswhee 

:ee 

域 g)- mcowAm 


车 要 在 该 计算 机 上 安装 或 维护 SQL Server 的 命 
Ed ， 请 清除 点 认 复 选 框 并 键入 或 选择 实例 


新 名 称 必须 不 超过 16 个 字符 ,并且 应 以 字母 或 
i 有 关 更 多 信息 ， 请 单 击 ” 
实效 各 
有 一 一 一 一 一 
wm | <t-sw [下 -说 mw | Wm | ‘tsw [TSmH)] mn | 
图 15-18 输入 账户 信息 图 15-19 实例 名 窗口 
(8) 在 “安装 类 型 ”对 话 框 中 选中 “上 典型” 单 选 


Er 


按钮 ,由于 前 面 磁盘 选择 了 “组 0" 的 “磁盘 。 “和 Smee mipgnen 

Y:”，“ 目 的 文件 夹 ”的 “数据 文件 ”自动 Es 的， 天 用户 
定位 到 Y: 盘 , 而 SQL 程序 文件 则 会 自动 安装 。 [ew 
到 MS-Clus-01a 与 MS-Clus-01b 的 本 地 盘 | 天 Eee sw 


相关 目录 下 , 单 击 “ 下 一 步 " 按 钮 , 如 图 15-20 有 证 :et 
所 示 。 下 助 W | “上 - 步 因 | 下 - 步 中 ?| 到 条 
(9) 在 “服务 账户 ”对 话 框 ， 选 中 “对 每 个 服务 图 15-20 安装 目的 选择 


使 用 同一 账户 ” 单 选 按钮 ， 由 于 是 集群 配置 ， 
“使 用 本 地 系统 账户 ” 单 选 按钮 为 不 可 用 。 输 入 用 户 名 、 密 码 及 域名 ， 然 后 单 击 “ 下 一 
步 ”按钮 ， 如 图 15-21 所 示 。 

(10 ) 在 “身份 验证 模式 ”对 话 框 中 选中 “混合 模式 ” 单 选 按钮 , 输入 sa 密码 ,然后 单 击 “下 
一 步 ”按钮 ， 如 图 15-22 所 示 。 


身份 壮 证 醒 式 Xx| 
Hate 


他 对 每 个 服务 使 用 同一 帐户 E)。 
个 自 定义 每 个 服务 的 设置 Z)。 


个 Windows 身份 验证 模式 (Ww) 
他 混合 模式 ( Windows 身 份 验证 和 SQL Server 身 份 验 证 》(M) 


服务 
© SOL Server 的 
F SL 二 加 s9 租 录 密 码 ; 
答 入 齐 码 E | 
uswhee 
确认 者 友 | | 
到 四: | 和 
城中: CONPANY 厂 空 客 码 ( 不 推荐 ) 区] 
厂 自动 局 动 服务 0) 


_ wm | ‘Ls® [TS wa | wh | mw | 


图 15-21 输入 账户 信息 图 15-22 身份 验证 配置 
( 11 ) 安装 完成 后 ， 打 开 “ 集 群 管理 器 ”， 在 “集群 配置 ”下 可 看 到 “资源 类 型 ”中 多 了 两 


个 SQL Server 的 资源 ,这 是 因为 SQL Server 2000 企业 版 为 Cluster-Aware 的 应 用 系统 ， 
安装 配置 时 自动 添加 了 支持 Cluster 的 服务 组 件 ， 如 图 15-23 所 示 。 
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(12) 单 击 “组 0”, 可 看 到 除 原 有 的 “磁盘 Y:” 外 , 新 添 了 5 个 SQL 资源 , 而 且 都 已 联机 ， 
说 明 SQL Server 2000 集群 安装 配置 完成 ， 如 图 15-24 所 示 。 


EE Te 
刁 志江 二 
8 基 吕 


回 
Te 
国 天 二 


图 15-23 新 加 入 的 资源 (1) 图 15-24 新 加 入 的 资源 (2) 
15.5.2 ”验证 SQL 数据 库 集群 功能 


(1) 在 一 台 客 户 机 上 安装 SQL Server 2000 的 “企业 管理 器 ”与 “查询 分 析 器 ”， 来 测试 验 
证 数据 库 的 FailOver 功能 。 

(2) 打开 “企业 管理 器 ”， 注 册 数 据 库 “192.0.0.4”， 即 虚拟 数据 库 的 IP 或 服务 器 名 ， 如 
图 15-25 所 示 。 

(3 ) 新 建 一 个 测试 数据 库 MytestDB， 如 图 15-26 所 示 。 


Lge lanager [控制 襄 栅 目录 NLicrosoft SOL Servers\S 
二 看 YY) 工具 (人 0 窗 晶 窟 规 。| 梁 党 六 件 | 宇多 日志 | 
图 EW [wo 
于 这 于 
的 者 - 《未 知 》 
所 有 寺 - 《未 知 》 
剖 建 日 限 和 0) 
到 ch) 
可 用 空间 0) 
周 户 数 《来 和 ) 
上 次 数据 震 冰 和 份 死 
上 次 本 务 日 吉 奋 从 无 
维护 
给 护 计划 无 
排 六 规划 名称 ELSE 了 
I Ca ] ww |_w | 
图 15-25 连接 到 虚拟 服务 器 图 15-26 创建 新 数据 库 “MytestDB” 


(4 ) 在 数据 库 MytestDB 中 新 建 表 employee， 并 添加 几 条 记录 ， 如 图 15-27 所 示 。 
(5 ) 打开 “查询 分 析 器 ”, 连接 到 192.0.0.4 的 数据 库 MytestDB, 检索 表 employee 返回 数据 ， 
如 图 15-28 所 示 。 
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图 15-27 新 建 来 I 图 15-28 employee 加 六 所 
(6 ) 在 “集群 管理 器 ”中 移动 数据 库 资 源 组 “组 0” ( MS-Clus-01A 一 MS-Clus-01B ) ， 
进行 资源 切换 ， 如 图 15-29 和 图 15-30 所 示 。 


图 15-29 手动 切换 资源 (1) 


ieroseft S 


图 15-30 手动 切换 资源 (2) 


(7 ) 移动 “组 0” 过 程 中 ,在 “查询 分 析 器 ”中 持续 执行 数据 检索 ， 刚 开始 “连接 中 断 ” 检 
索 不 到 数据 ， 几 十 秒 钟 后 又 恢复 正常 ,能 顺利 检索 到 数据 ,如 图 15-31 和 图 15-32 所 示 。 
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jige. 0. cea 三 ) 而 teatia 0:00:01 避 行 春 1 列 23 
E> [ 


图 15-31 服务 中 断 | 图 15-32 服务 恢复 
测试 验证 表明 ， 此 配置 方案 可 以 实现 数据 库 的 FailOver， 而 且 切换 时 间 在 30 秒 左 右 。 


15.6” 块 级 集群 存储 系统 


存储 系统 一 直 以 来 都 是 以 一 个 总 控制 器 中 心 加 上 几 串 磁盘 扩展 柜 的 形式 多 存在 的 ,直到 最 近 
几 年 ， 这 种 模式 有 被 打破 的 趋势 。 


1. Scale-Up 和 Scale-Out 


一 个 存储 系统 使 用 一 个 或 者 两 个 元 余 的 控制 嚣 来 对 外 提供 服务 时 ,如 果 其 性 能 不 能 满足 越 
来 越 苛刻 的 应 用 要 求 和 负载 ,那么 厂商 会 考虑 在 单个 控制 器 中 加 入 更 多 的 CPU 升级 更 高 的 CPU 
主 频 、 增 加 更 多 的 内 存 以 及 扩充 更 多 的 IO 总 线 以 连接 更 多 的 IO 扩展 卡 ， 以 此 来 提高 这 个 存储 
系统 的 性 能 ， 这 种 扩展 方式 称 为 Scale-Up。 

而 在 一 个 独立 计算 机 系统 总 线 中 增加 更 多 的 CPU 和 内 存 的 做 法 ,会 越 走 越 窄 ， 随 着 CPU 
数量 的 增多 ， 其 所 耗费 的 设计 成 本 和 硬件 成 本 就 会 更 陡峭 地 升 高 ， 而 且 ， 随 着 单 系统 内 CPU 数 
量 的 增加 ， 其 性 能 所 得 到 的 提升 也 会 越 来 越 趋 近 于 0; 其 次 ， 这 种 扩展 方式 也 不 利于 长 远 发 展 ， 
如 果 随 着 时 间 的 推移 ， 升 级 后 的 系统 又 变 得 不 够 用 ， 那 么 不 可 能 无 限制 地 添加 CPU 和 内 存 ， 
Scale-Up 的 扩展 方式 等 于 是 自 寻 死路 。 此 时 ， 就 催生 人 们 考虑 是 否 可 以 将 存储 系统 集群 化 ， 用 

台 CPU 和 内 存 以 及 IO 扩展 卡 数量 较 少 的 独立 的 控制 器 ， 通 过 某 种 互联 网 络 通道 将 所 有 控制 
器 连接 起 来 形成 一 个 集群 系统 ， 这 种 扩展 方式 称 为 Scale-Out。 

两 种 方式 比 起 来 ，Scale-Out 更 加 节约 成 本 ， 而 且 在 设计 良好 的 情况 下 ， 可 以 增加 更 多 的 集 

群 节点 ， 系 统 性 能 随 着 节点 数量 的 增加 而 近乎 正比 地 增加 。 


2. 分 久 必 合 ， 合 久 必 分 ; 分 中 有 合 ， 合 中 有 分 ， 万 物 皆 和 合 


与 主机 系统 的 集群 化 趋势 一 样 , 存储 系统 也 步 入 了 集群 化 。 然而 大 规模 主机 集群 真正 广泛 应 
用 的 是 HPC 领域 ， 并 未 被 一 般 企 业 所 采用 ， 其 根本 原因 其 实 是 因为 对 应 的 应 用 程序 还 并 未 跟 上 
时 代 , 仍 处 于 非 集群 化 开发 模式 下 。 虽 然 可 以 让 非 集群 化 应 用 运行 于 集群 中 某 单个 节点 上 , 但 是 
鉴于 集群 中 的 单 节点 性 能 反而 可 能 不 能 满足 需求 的 尴 座 境地 , 所 以 大 多 数 企 业 宁 愿 花费 更 多 的 钱 
使 用 性 能 强劲 的 PC Server 甚至 小 型 机 来 运行 这 些 应 用 。 只 有 一 些 高 端的 应 用 比如 数据 库 等 系统 
提供 了 集群 方式 的 部 署 , 比如 Oracle RAC 和 DB2 PureScale 等 。 而 另 一 方面 , 企业 又 会 被 主机 性 
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能 的 浪费 所 困扰 ， 从 而 部 署 虚拟 机 系统 。 所 以 ,集群 也 不 是 ,不 集群 也 不 是 ,这 又 催生 了 一 种 更 
加 彻底 的 解决 方案 ， 即 云 系统 ， 这 个 话题 将 在 本 书 其 他 章节 讨论 。 

对 于 集群 存储 系统 , 仔细 体会 一 下 , 我 们 隐约 可 以 洞察 到 其 中 有 些 奥妙 之 处 。 集 群 存储 系统 
的 数据 分 布 有 两 种 方式 : 

" ”一 是 将 多 份 整体 数据 每 一 份 都 分 开 存 放 于 集群 中 的 每 个 节点 上 ; 

”二 是 将 多 份 独立 的 数据 ， 每 一 份 放 在 一 个 独立 节点 上 或 者 手动 决定 数据 分 割 的 份 数 以 

决定 利用 的 节点 数目 。 

对 于 前 者 的 数据 分 布 方式 , 在 多 个 应 用 系统 共同 访问 时 , 可 能 在 特定 情况 下 会 影响 系统 整体 
性 能 ， 对 于 后 者 分 布 方式 , 每 个 应 用 系统 只 访问 一 个 节点 或 者 按照 性 能 要 求 访问 多 个 节点 , 对 其 
他 节点 性 能 没有 影响 ， 这 就 相当 于 在 一 个 传统 非 集群 存储 系统 中 ， 对 每 个 应 用 建立 独立 的 Raid 
Group 一 样 的 道理 。 

对 于 第 二 种 集群 数据 分 布 方式 , 需要 很 多 的 人 为 介入 , 但 是 却 可 以 保证 性 能 资源 的 平衡 合理 
分 配 。 任何 存储 系统 的 一 个 最 大 的 问题 就 是 在 多 主机 多 应 用 并 发 访问 时 如 何 保证 系统 的 性 能 , 特 
别 是 高 带宽 吞吐 量 的 情况 下 ( 这 个 话题 将 在 其 他 章节 论述 ) 。 目 前 解决 这 种 并 发 情况 下 性 能 大 幅 
降低 的 一 个 办 法 就 是 隔离 相关 资源 。 在 集群 存储 系统 中 ,这 个 问题 依然 存在 , 所 以 依然 要 使 用 资 
源 隔离 的 方法 。 所 以 ， 整 个 系统 仿佛 又 回 到 了 DAS 架构 , 每 台 主机 都 使 用 自己 专 供 的 存储 系统 ， 
只 不 过 这 些 DAS 存储 孤岛 被 集中 管理 了 起 来 而 已 。 这 种 状态 有 一 丝 诡异 ， 显 示 了 这 种 事物 处 于 
一 种 若即若离 的 不 定 状态 , 下 一 步 的 发 展 , 非 收敛 即 分 散 ， 而 我 们 调查 一 下 这 个 事物 在 进入 这 种 
状态 之 前 是 什么 状态 呢 ? 是 收敛 状态 , 即 数据 集中 存储 和 访问 , 那么 我 们 可 以 推断 这 个 事物 从 收 
全 状态 走向 松 耦 合 迷离 状态 ， 当 前 就 是 这 样 一 种 状态 ， 多 点 集群 ,那么 多 点 集群 下 一 步 的 趋势 将 
是 完全 分 散 状态 。 分 散 状 态 下 的 存储 系统 是 什么 呢 ? 其 实 就 是 彻底 的 DAS 状态 ， 即 存储 架构 又 
回 到 了 每 个 使 用 者 各 自 保 有 一 个 独立 专 供 的 存储 系统 , 各 自 管理 各 自 的 存储 系统 , 各 个 使 用 者 互 
不 干扰 , 却 还 可 以 取得 良好 的 性 能 以 及 高 容量 ， 而 且 还 不 浪费 多 少 电 和 物理 空间 。 符 合 这 种 条 件 
的 存储 介质 是 什么 呢 ? 当然 是 芯片 存储 而 非 机 械 存储 。 

当前 的 SSD 硬盘 ， 单 块 SSD 的 大 块 连 续 读 吞吐 量 甚至 可 以 超过 350MB/s， 写 则 超过 了 
210MB/s; 甚至 在 4K 块 随机 读 吞吐 量 也 超过 了 200MB/s， 写 超过 了 180MB/s， 随 机 读 IOPS 超 
过 600， 随 机 IO 延迟 不 超过 lms。 这 确实 是 非常 惊人 的 速度 。 这 种 速度 ， 满 足 当 前 主流 的 应 用 
系统 已 经 不 成 问题 。 所 以 ， 随 着 技术 的 发 展 ， 大 容量 SSD 的 成 本 会 逐渐 降低 到 可 以 用 得 起 的 地 
步 (128GB 的 SATA 6Gb/s 的 SSD 价格 目前 为 146GB 的 3 倍 还 多 ) ， 并 且 各 种 技术 壁垒 相继 突 
破 ， 一 块 或 者 几 块 SSD 即 可 满足 主流 的 应 用 ， 试 问 此 时 有 何 理由 再 去 使 用 网 络 适 配 卡通 过 线 费 
连接 到 外 部 设备 上 去 存储 数据 呢 ? 

当 存 储 介质 有 了 一 次 质 的 飞跃 之 后 , 整个 存储 系统 架构 就 产生 了 彻底 的 一 次 轮回 。 那 么 再 之 
后 会 怎么 发 展 呢 ? 分 久 必 合 ， 当 无 线 电 技 术 发 展 到 一 定 程度 时 ,数据 再 一 次 将 会 被 集中 存放 , 各 
个 角色 可 以 用 无 线 通信 来 获取 数据 。 那 么 再 往 后 呢 ? 合 久 必 分 , 此 时 又 怎么 分 呢 ? 这 个 问题 现在 
还 无 法 想象 。 

集群 存储 系统 可 以 分 为 基于 Block 协议 访问 的 传统 存储 的 集群 ， 以 及 基于 NAS 协议 访问 的 
NAS 集群 系统 ， 还 有 一 类 属于 文件 系统 的 集群 ， 下 面 将 一 一 介绍 。 
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15.6.1 IBM XIV 集群 存储 系统 


IBM XIV 存储 系统 为 以 色 列 的 一 家 公司 所 开发 ， 后 被 BM 收购 。XIV 是 一 种 网 格 集群 化 存 
储 系统 ， 集 群 中 的 每 个 节点 都 是 一 台 X86 Server， 每 个 节点 都 包含 12 块 本 地 SATA 硬盘 。 


1. XIV 系统 的 物理 拓扑 设计 思想 


共有 两 种 类 型 的 节点 , 一 种 是 Interface Node, 或 者 称 Interface Module; 另 一 种 是 Data Node， 
或 者 称 Data Module。 只 有 Interface Module 上 插 有 前 端 主机 通道 适 配 卡 ， 比 如 FC 卡 、ISCSI 卡 
等 ， 这 也 是 其 名 称 的 由 来 ， 意 即 主机 端 只 能 连接 到 Interface Module 上 。Interface Module 本 身 也 
含有 12 块 SATA 磁盘 。Data Module 上 没有 前 端 主机 通道 适配器 ， 只 包含 12 块 SATA 硬盘 以 及 
两 块 双 口 1Gbps 以 太 网 适配器 。 每 个 节点 有 1 颗 Intel 的 4 核 CPU ( 新 一 代 产 品 有 2 晒 ) 和 8GB 
的 DDR2 内 存 。 

整个 系统 的 连接 拓扑 图 如 图 15-33 所 示 。6 个 Interface Module 通过 两 台 宛 余 的 以 太 网 交换 
机 与 9 个 Data Module 相连 接 , 每 个 Interface Module 使 用 3 条 链 路 与 一 个 以 太 网 交换 机 连接 , 而 
Data Module 使 用 两 条 链 路 与 每 个 交换 机 连接 。 每 个 Interface Module 包含 4 个 4Gb/s 的 FC 口 ， 
其 中 两 个 用 于 主机 连接 ， 另 两 个 用 于 其 他 用 途 ( Mirror、DR 等 ) 。 

如 图 15-34 所 示 为 满 配 的 XIV 存储 系统 各 种 节点 在 机 柜 中 所 处 的 位 置 示意 图 。 
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图 15-33 XIV 内 部 连接 逻辑 拓扑 图 图 15-34 节点 排列 图 
如 图 15-35 所 示 为 XIV 存储 系统 实物 的 前 视图 和 后 视图 。 
如 图 15-36 所 示 为 XIV 存储 系统 中 节点 机 箱 的 透视 图 。 
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图 15-35 机 柜 实物 图 


如 图 15-37 所 示 为 Interface 节点 的 连接 拓扑 


如 图 15-38 所 示 为 节点 的 正视 图 。 


Intorface Modulo with 1SCSI ports 


图 15-36 节点 机 箱 透视 图 


示意 图 。 


SATA disk drives 


图 15-37 Interface 节点 连接 示意 图 


如 图 15-39 所 示 为 节点 互 连 用 后 端 交 


负 机 的 实物 图 。 
如 图 15-40 所 示 为 XIV 存储 系统 的 GUI 配置 界面 。 其 个 性 化 十 足 


图 15-38 节点 正视 图 
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图 15-39 节点 互 连 交换 机 实物 图 
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图 15-40 ”GUI 配置 界面 
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2. XIV 系统 对 LUN 的 分 布设 计 思想 


对 于 这 样 一 个 网 格 化 的 存储 系统 ， 卷 /逻辑 驱动 器 /LUN 被 设计 为 平均 分 布 在 多 个 或 者 全 部 
节点 之 上 ， 有 一 个 映射 图 来 记录 每 个 LUN 的 分 布 状况 。 而 且 每 个 LUN 对 应 的 每 个 数据 块 都 会 
被 镜像 一 份 ， 存 储 在 与 源 数据 块 不 同 的 任何 一 个 节点 上 ， 源 分 块 称 为 Primary， 镜 像 之 后 的 分 块 
称 为 Secondary。 这 样 一 来 ， 任 何 一 个 节点 故障 不 会 导致 数据 丢失 ， 并 且 在 任何 一 块 磁盘 或 者 整 
个 节点 故障 之 后 ， 系 统 会 根据 LUN 映射 图 来 判断 并 将 丢失 的 部 分 通过 尚 完好 的 源 数据 块 再 次 镜 
像 一 份 到 其 他 任何 一 个 节点 上 的 剩余 存储 空间 。 

这 种 思想 与 NetApp 公司 的 WAEL 文件 系统 极为 类 似 , 大 凡 高 度 虚拟 化 的 设备 , 其 底层 的 逻 
辑 卷 /LUN 都 不 是 存在 于 固定 位 置 的 ，XIV 用 映射 图 来 遍历 整个 LUN 在 所 有 节点 磁盘 上 的 存储 
地 址 ， 并 可 以 将 LUN 的 某 个 块 移动 到 其 他 节点 并 重新 更 新 映射 图 ， 这 种 思想 就 是 不 折 不 扣 的 文 
件 系统 思想 : 文件 系统 可 以 将 任何 文件 分 步 到 硬盘 上 的 各 个 空间 , 并 使 用 Inode Tree 来 遍历 整个 
文件 的 分 布 情况 。WAFL 和 XIV 正 是 对 这 种 思想 在 卷 管理 设计 上 的 灵活 运用 ， 但 是 XIV 可 能 并 
没有 沦 为 彻底 的 文件 系统 ， 其 粒度 以 及 元 数据 复杂 度 一 定 不 如 WAEL 那么 细 。 最 终 , 一 个 LUN 
或 者 卷 就 体现 为 一 个 Filedisk， 但 是 这 只 是 对 存储 系统 内 部 而 言 ， 对 主机 客户 端 而 言 一 切 都 没有 
变化 。 如 图 15-41 所 示 为 XIV 系统 接受 一 个 客户 端 主机 发 送 的 写 IO 请 求 之 后 的 流程 。 


Hosts 


ER 


图 15-41 写 I0 处理 流程 图 

XIV 系统 在 其 某 个 Interface Module 上 接收 到 一 个 针对 某 LUN 某 地 址 段 的 写 IO。 

接收 到 IO 的 Interface Module 将 IO 数据 收入 之 后 ,首先 通过 Distribution Map 判断 这 个 LUN 
的 这 段 地 址 落 在 的 分 块 及 其 镜像 块 存在 于 哪个 Module 上 。 如 果 对 应 的 分 块 或 者 镜像 块 其 中 一 个 
是 存在 自己 本 地 硬盘 中 ， 那 么 这 个 Interfice Module 会 立即 将 这 份 数据 副本 通过 后 端 以 太 网 发 送 
到 这 个 分 块 镜像 所 在 的 Module， 然 后 通知 客户 端 主机 写 入 成 功 。 这 样 ， 数 据 便 会 在 两 个 节点 的 
Cache 中 ， 实 现 了 Cache Mirror， 一 旦 这 份 数 据 尚 写 入 硬盘 的 过 程 中 ， 某 个 节点 发 生 故 障 ， 那 么 
还 有 另外 一 个 节点 保存 着 这 份 数 据 。 
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如 果 接 收 到 写 IO 的 Interface Module 判断 的 结果 是 ， 这 个 IO 对 应 的 LUN 分 块 没有 存在 自 
己 本 地 硬盘 ， 而 是 存放 在 了 另外 两 个 节点 上 ， 那 么 这 个 Interface Module 会 根据 Distribution Map 
将 这 份 IO 数据 发 送 到 这 个 分 块 所 对 应 的 Primary 副本 所 被 保存 的 节点 。 

保存 Primary 分 块 节点 收 到 IO 数据 之 后 , 再 次 根据 Distribution Map 判断 出 对 应 这 个 分 块 的 
Secondary 副本 被 保存 的 节点 ,立即 将 这 个 IO 发 送 过 去 ， 当 收 到 发 送 成 功 的 回应 之 后 , 立即 向 刚 
才 的 那个 Interface Moudle 返回 写 入 成 功 的 回应 。Interface Module 接收 到 成 功 回应 之 后 ， 立 即 向 
客户 端 主机 返回 写 入 成 功 的 回应 。 


3. XIV 系统 的 快照 设计 思想 


Filedisk 的 设计 思想 会 彻底 地 改变 后 续 所 有 上 层 功能 模块 的 设计 ， 比 如 Thin Provision、 
Snapshot、Clone、Mirror、Dedupe 等 。 例如, 对 于 Snapshot 的 实现 , WAFL 和 XIV 都 使 用 了 Write 
Redirect 的 实现 方式 ， 这 绝对 不 是 巧合 ， 而 是 Filedisk 的 核心 设计 思想 使 然 。 
在 WAFL 中 ， 每 个 Snapshot 其 实 就 是 一 份 mode Tree 指针 链条 和 其 对 应 的 实体 数据 块 的 留 
存 影像 ,包括 当前 的 活动 文件 系统 ,这 种 设计 使 得 当前 活动 文件 系统 与 Snapshot 本 身 是 同 质 化 的 ， 
可 以 大 大 降低 设计 复杂 度 ， 从 而 提高 运行 效率 。 同 样 , 在 XIV 的 卷 管理 模块 ( 本 质 是 一 个 文件 
系统 ， 而 且 是 集群 文件 系统 ) 中 , 每 个 LUN (文件 ) 都 对 应 一 份 Distribute Map ( Inode Tree ) ， 
如 果 需 要 将 LUN (文件 ) 中 的 某 个 或 者 某 段 数据 块 (文件 的 一 字 节 或 一 段 字 节 ) 移动 到 系统 中 
的 其 他 节点 上 的 硬盘 (文件 所 存储 的 底层 硬盘 空间 ) , 那么 只 需要 将 对 应 的 数据 作 相应 移动 之 后 ， 
在 Distribute Map 中 作 相 应 的 指针 改变 即 可 。 当 快照 生成 时 , 采用 Write Redirect 方 式 , 快照 时 间 
的 这 个 LUN 的 Distribute Map 与 其 对 应 的 实体 数据 将 会 被 冻结 ， 然 后 系统 将 当前 的 Map 复制 
一 份 存放 (或 者 只 复制 Map 的 跟 入 口 ， 视 设计 不 同 而 定 ) ， 这 个 新 Map 就 是 当前 活动 Map。 当 
随后 有 针对 这 个 LUN 的 写 IO 请 求 进入 时 , 系统 将 会 把 这 个 IO 数据 写 到 系统 中 任何 一 个 节点 的 
任何 一 个 空闲 数据 块 ， 并 在 新 生成 的 Map 对 应 的 位 置 将 指针 更 新 ， 指 向 这 个 新 数据 块 。 如 果 再 
次 生成 快照 ， 那 么 系统 就 把 当前 的 活动 Map 再 复制 一 份 ， 然 后 将 当前 的 Map 冻结 为 快照 Map， 
之 后 的 动作 以 此 类 推 。 对 于 Write Redirect 模式 的 快照 具体 设计 思想 可 以 参照 本 书 第 16 章 。 

基于 这 个 设计 模式 , XIV 还 可 以 复制 快照 , 即 生成 一 份 与 某 个 快照 完全 相同 的 快照 , 其 原理 
很 简单 ， 就 是 复制 一 份 这 个 快照 的 Distribute Map 并 冻结 即 可 。 

当然 ， 对 于 一 个 粗 线条 的 卷 管理 模块 来 讲 ， 其 管理 LUN 的 数据 粒度 必定 不 会 与 彻底 的 文件 
系统 相 比 ， 但 是 本 质 思想 却 是 相同 的 。WAEL 的 管理 粒度 为 KB， 而 XIV 的 管理 粒度 为 1MB。 


4. XIV 系统 的 故障 恢复 设计 


经 过 上 文 的 论述 , 我们 可 以 看 到 XIV 对 数据 分 布 的 本 质 思想 其 实 是 分 布 式 RAID 10。 就 相 
当 于 在 一 个 文件 系统 之 内 将 一 个 文件 (LUN ) 复制 了 一 份 , 并 将 副本 存放 于 其 他 的 位 置 ( 每 个 数 
据 块 的 源 和 镜像 不 允许 放 在 同一 个 节点 上 ) 。 这 样 ， 整体 系统 的 可 用 容量 就 相当 于 减 半 。 我 们 可 
以 将 这 种 设计 称 为 “上 层 分 布 式 RAID 10”， 那 么 与 其 对 应 的 就 是 “底层 固定 式 RAID 10” 了 。 
后 者 就 是 传统 的 RAID 10 系统 。 传 统 的 RAID 10 系统 有 一 个 很 大 的 不 足 , 即 不 管 Raid Group 内 
分 布 了 几 个 LUN, 或 者 甚至 有 没有 被 实体 数据 所 占用 , 那么 底层 均 会 将 所 有 的 数据 块 镜像 起 来 。 

刚才 所 说 的 “有 没有 被 数据 占用 ”， 这 句 话 或 许 有 人 不 理解 ， RAID 层 怎么 会 判断 其 上 的 哪 
些 块 “ 有 用 ”， 哪些 块 “ 没 用 ” 呢 ? (关于 这 个 话题 请 参考 附录 2 的 问题 11 和 48 ) 的 确 ， 正 因 
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为 Raid 无 法 判断 ， 所 以 才 需 要 把 有 用 没 用 的 一 同 镜像 起 来 ， 这 就 是 底层 应 该 做 的 。 负 责 判 断 有 
用 或 者 没 用 的 是 上 层 文件 系统 ， 或 者 ， 就 是 我 们 当前 论述 的 XIV 的 卷 管 理 系 统 。 底 层 实现 不 了 
这 种 判断 的 结果 就 是 直接 导致 了 资源 浪费 ,在 一 块 磁盘 故障 之 后 ， 系 统 做 了 太 多 的 无 用 功 ， 
Rebuild 了 许多 无 用 的 数据 块 ， 实 在 是 划 不 来 。 
上 面 讲 了 对 应 于 “底层 ”二 字 ， 再 来 说 说 “固定 式 ”的 缺点 。 传 统 的 RAID 10 系统 ， 源 和 镜 
像 必须 有 相同 的 磁盘 数量 和 容量 ， 一 对 一 ， 少 一 块 都 不 行 ， 而 镜像 端的 磁盘 容量 可 以 比 源 端的 大 ， 
但 是 多 余 的 容量 ，RAID 又 会 将 其 砍 掉 不 用 , 很 滑稽 ， 这 无 疑 是 一 个 巨大 的 浪费 。 是 否 可 以 实现 一 
种 另外 的 模式 呢 ? 比如 将 一 块 磁盘 上 的 数据 , 分 开镜 像 到 多 块 磁盘 上 , 相当 于 把 一 块 磁盘 再 RAID 
0 化 ; 或 者 , 将 多 块 磁盘 上 的 数据 ,镜像 到 一 块 磁盘 上 。 对 于 后 者 ,底层 RAID 是 无 论 如 何 也 实现 
不 了 的 。 另 外 ,底层 固定 式 RAID 10 要 求 Raid Group 中 的 磁盘 一 定 是 在 本 地 管理 范围 内 ， 而 不 能 
跨 计 算 机 系统 ， 如 果 本 地 计算 机 系统 整体 故障 ， 那 么 整个 Raid Group 就 无 法 访问 了 。 
再 来 看 看 XIV 的 上 层 分 布 式 RAID 10 是 如 何 解决 上 述 这 些 问 题 的 。 
"解决 做 无 用 功 的 问题 。 前 文 说 过 ，XIV 的 卷 管理 系统 是 一 个 粗 线条 的 文件 系统 ， 它 当 
然 可 以 感知 自己 所 管理 的 文件 (LUN ) 占用 了 哪 块 磁盘 上 的 哪 块 空间 ， 既 然 这 样 ， 那 
么 卷 管理 系统 就 可 以 只 镜像 这 些 文件 ， 而 无 须 镜 像 硬盘 上 没有 被 文件 以 及 元 数据 所 占 
用 的 数据 块 。 镜 像 操作 是 由 卷 管理 层 完成 的 ， 所 以 称 之 为 “上 层 ”。 这 就 很 好 地 解决 
了 第 一 个 问题 。 
”解决 磁盘 数量 必须 一 一 对 应 问题 。 既 然 卷 管理 系统 可 以 将 LUN 像 对 待 文件 一 样 将 其 复 
制 到 另外 的 存储 空间 ， 那 么 为 何不 可 以 将 这 个 文件 分 开 若干 份 存储 于 多 个 硬盘 中 ,或 
者 将 原本 分 开 存放 于 多 个 硬盘 中 的 文件 的 各 个 部 分 再 合并 起 来 存放 到 一 个 硬盘 中 呢 ? 
当然 是 可 以 的 了 。 比 如 ， 某 个 LUN 被 分 为 4 块 B1、B2、B3、B4。 这 4 块 数 据 分 别 
存放 于 D1、D2、D3 和 D4 这 4 块 硬盘 当中 。 现在 决定 拿 掉 D1、D2 这 两 块 硬盘 而 保留 
这 个 LUN， 那么 卷 管理 系统 会 首先 将 BI 、B2 这 两 个 块 复制 到 D3 和 D4 硬盘 上 , 然后 
通知 可 以 拿 掉 硬盘 。 此 时 ， 这 个 LUN 就 由 原来 分 布 于 4 块 硬盘 上 变 成 现在 分 布 于 两 块 
硬盘 上 了 ， 当 然 这 里 只 是 一 个 RAID 0 思想 ， 并 未 涉及 到 RAID 10。 
下 面 我 们 就 来 演示 一 下 XIV 卷 管理 系统 是 如 何 解决 传统 RAID 10 模式 下 磁盘 数量 一 一 对 应 
的 问题 的 。 
如 图 15-42 所 示 , 传统 RAID 10 模式 下 , 设 某 个 LUN 被 分 为 6 块 数据 块 , 分 别 标记 为 B1~ 
B6, 每 个 数据 块 的 镜像 块 分 别 标记 为 M1 ~ M6。 这 些 数据 分 布 在 4 块 硬盘 上 , 并 且 每 块 硬盘 都 有 
剩余 空间 。 
某 时 刻 ，D1 磁盘 故障 ， 数 据 块 B1、B2、B3 丢失 。 但 是 其 镜像 M1 ~ M3 依然 存在 ， 此 时 ， 
XIV 系统 为 了 恢复 数据 的 元 余 ， 需 要 将 M1 ~ M3 数据 块 再 次 镜像 到 其 他 磁盘 。 如 图 15-43 左边 
部 分 所 示 ，XIV 系统 将 这 三 个 数据 块 镜像 到 了 D3 磁盘 的 剩余 空间 内 。 右 半边 显示 的 是 另外 一 种 
镜像 方式 ， 即 系统 可 以 将 数据 块 镜像 到 任何 磁盘 的 任何 位 置 。 右 半边 所 示 的 方式 ,同样 可 以 保证 
数据 的 宛 余 性 。 
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图 15-42 传统 RAID 10 图 15-43 D1 故障 

假如 ，XIV 系统 在 D1 磁盘 故障 之 后 ， 成 功 地 将 M1 ~ M3 再 次 镜像 到 了 D3 和 D4 两 块 磁盘 
之 后 ，D3 磁盘 又 发 生 了 故障 。 那 么 此 时 可 以 判断 出 ,数据 依然 没有 丢失 。 为 了 恢复 数据 的 匈 余 
性 ， 此 时 系统 会 再 次 将 只 剩 下 一 份 复制 的 数据 块 再 次 镜像 到 系统 整体 的 剩余 空间 内 。 如 图 15-44 
所 示 。 左 右 两 半边 分 别 对 应 了 两 种 方式 。 

当 镜 像 完 成 后 ， 系 统 依然 可 以 保证 元 余 性 。 如 果 此 时 D2 或 者 D4 任何 一 块 磁盘 故障 ， 那 么 
系统 将 没有 元 余 性 , 但 是 数据 依然 可 以 访问 。 当 最 后 剩余 的 磁盘 也 故障 时 ,数据 就 损毁 了 。 某 时 
刻 ， 管 理 员 手动 添加 了 两 块 新 硬盘 ，XIV 系统 会 重新 平衡 数据 分 布 ， 让 LUN 的 6 个 分 块 平衡 分 
布 在 这 4 块 硬盘 上 。 如 图 15-45 所 示 为 重新 分 布 完 成 后 的 数据 分 布 图 。 


D1 D2 D3 D4 D1 D2 D1 D2 D3 D4 


HM 则 


图 15-44 ”元 余 性 恢复 了 (两 种 模式 ) 图 15-45 新 盘 加 入 之 后 数据 重新 平衡 

从 上 面 的 例子 中 我 们 可 以 体会 出 ，XIV 的 这 种 上 层 RAID 10 设计 ， 是 一 种 可 以 随时 迁移 数 
据 块 的 , 并 且 可 以 任意 分 布 式 摆 放 数据 块 , 不 受 磁盘 数量 限制 而 只 受 系统 内 整体 剩余 空间 限制 的 
新 设计 思想 。 所 以 我 们 在 上 文 把 这 种 模式 叫做 “上 层 分 布 式 RAID 10”。 

传统 RAID 10 系统 在 一 块 磁盘 故障 之 后 ， 只 能 将 源 磁盘 上 的 全 部 数据 镜像 到 新 的 磁盘 中 ， 
如 果 此 时 系统 已 经 没有 新 的 磁盘 ， 那 么 系统 什么 也 不 会 做 ， 只 会 报警 通知 管理 员 快 增加 新 磁盘 。 

解决 磁盘 必须 在 本 地 的 问题 。 由 于 是 上 层 RAID， 所 以 XIV 系统 中 的 每 个 节点 都 可 以 通过 
后 端的 以 太 网 交换 机 与 其 他 节点 进行 内 部 通信 ， 以 同步 所 有 LUN 的 Distribute Map, 以 及 用 于 将 
本 地 存储 的 数据 块 镜像 到 另外 节点 上 的 磁盘 。 同 一 个 节点 中 存储 的 数据 块 中 任何 一 个 数据 块 的 镜 
像 块 都 必须 被 存放 在 非 本 节点 的 任何 一 个 或 多 个 其 他 节点 上 。 这 样 , 一 旦 一 个 节点 整体 故障 , 数 
据 依然 可 以 访问 ， 同 时 剩余 的 所 有 节点 均 会 通过 Distribute Map 来 判断 故障 节点 中 原来 所 存储 的 
某 个 或 某 些 数据 块 是 否 是 本 地 存储 的 某 个 或 某 些 数据 块 的 源 块 或 者 镜像 块 ; 如 果 是 , 则 证 明 这 个 
数据 块 目前 已 经 没有 了 宛 余 性 ,需要 再 次 将 其 镜像 , 则 系统 会 将 存储 于 本 地 的 这 个 或 者 这 些 数据 
块 镜像 一 份 ， 将 其 复制 到 另外 的 节点 中 的 剩余 空间 存放 。 
目前 所 发 布 的 XIV 系统 ， 最 大 配置 为 6 个 Interface Module+9 个 Data Module。 最 大 磁盘 数 
量 =15 x 12=180 块 SATA 硬盘 。 虽 然 系统 整体 容量 不 大 ， 但 是 XIV 的 这 种 架构 设计 可 以 很 容易 
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地 扩充 到 更 多 的 节点 。 

此 外 , XIV 的 一 项 非常 拿 得 出 手 的 本 领 ， 就 是 ， 只 要 系统 整体 还 有 剩余 的 磁盘 空间 , 那么 只 
要 磁盘 一 块 一 块 的 坏 下 去 ,甚至 节点 一 个 一 个 的 故障 下 去 ,那么 整体 数据 的 元 余 性 依然 会 被 保持 ， 
直到 没有 剩余 空间 不 足 为止 。 当 然 , 前 提 是 ,在 一 个 磁盘 或 者 一 整个 节点 坏 掉 之 后 ,必须 等 待 系 
统 Rebuild， 也 就 是 镜像 完成 之 后 ， 才 能 允许 再 坏 下 一 块 磁盘 ( 与 上 一 块 磁盘 在 同一 节点 的 磁盘 
可 以 一 下 全 坏 ) 或 者 下 一 个 节点 ,否则 数据 很 大 几率 上 将 被 损毁 。 这 一 点 ,在 经 过 上 文 演示 之 后 
相信 读者 都 可 以 充分 深刻 地 理解 其 本 质 了 。 

还 有 , XIV 的 另 一 项 杀手 铀 就 在 于 其 在 故障 之 后 对 系统 元 余 性 的 恢复 速度 方面 。 很 多 人 都 表 
示 惊 讶 。 据 资料 显示 ，“ 一 个 1TB 容量 的 SATA 磁盘 损坏 后 ， 满 配 的 XIV 并 且 数 据 存 满 这 块 故 
障 的 磁盘 后 的 Rebuild 时 间 只 需要 30 分 钟 左 右 ,相对 传统 Raid 恢复 来 讲 ,速度 有 了 惊人 的 提升 "”。 
请 注意 ， 所 谓 “ 相 对 于 传统 Raid 恢复 ”， 是 传统 RAID 5 还 是 传统 RAID 10 呢 ? 这 可 能 会 让 人 
产生 思维 定 势 ， 自 然 的 考虑 到 RAID 5 恢复 时 所 耗费 的 时 间 ， 那 是 相当 长 的 。 但 是 XIV 本 质 是 
RAID 10 啊 ， 得 用 传统 RAID 10 来 比较 才 对 ， 下 文 会 做 详细 比较 。 

经 过 上 面 的 分 析 之 后 , 这 种 恢复 速度 丝毫 不 让 人 惊讶 , 因为 其 设计 思想 自然 地 就 能 够 达到 这 
么 高 的 恢复 速度 ， 如 果 达 不 到 , 那 才 是 让 人 惊讶 之 处 。 下 面 列 出 了 几 个 让 人 不 惊讶 的 原因 及 对 应 
的 分 析 。 

原因 1: 看 清楚 ， 想 清楚 。 是 RAID 10 不 是 RAID 5， 如 果 换 RAID 5 试 试 ? XIV 的 卷 管理 
系统 在 故障 恢复 和 数据 分 布 时 之 所 以 可 以 设计 得 如 此 灵活 , 是 因为 其 使 用 的 RAID 10 镜像 的 思想 ， 
而 不 是 RAID 5 的 Seripe 算 XOR 的 思想 。 假 如 ，XIV 使 用 RAID 5 的 思想 ， 也 就 是 几 个 数据 块 做 
XOR ， 然 后 将 校 验 值 存放 在 其 他 存储 空间 。 那 这 样 的 话 ， 每 当 卷 管理 系统 要 将 某 LUN 的 某 个 块 
移动 到 其 他 位 置 的 时 候 , 系统 都 要 在 新 位 置 上 重 算 XOR , 与 传统 RAID 5 实现 方式 没有 一 点 区 别 。 
所 以 如 果 使 用 RAID 5 或 者 RAID 4 的话, 那么 XIV 就 与 常人 无 异 了 , 就 是 一 款 普 普通 通 的 集群 存 
储 系 统 ， 其 杀手 铀 也 将 不 复 存在 。 正 因 如 此 , 由 于 RAID 5 的 XOR 计算 需要 耗费 太 多 的 计算 资源 
和 IO 资源 ， 所 以 XIV 的 恢复 速度 比 RAID 5 快 十 几 倍 也 是 很 正常 的 。 

原因 2: 分 布 式 , 理解 这 三 个 字 。 传 统 RAID 10, 一 块 磁盘 丢失 后 ,镜像 的 数据 只 能 从 那 一 
块 镜像 磁盘 上 来 读 ， 然 后 还 只 能 写 到 那 一 块 新 磁盘 上 去 ， 也 就 是 一 个 盘 读 ， 一 个 盘 写 。 而 XIV 
的 卷 管理 系统 是 将 LUN 分 块 平衡 存放 于 多 个 磁盘 的 ， 而 这 些 分 块 对 应 的 镜像 块 也 都 是 存放 在 多 
个 磁盘 上 的 ， 所 以 在 XIV 进行 Rebuild 的 时 候 ， 是 从 多 个 盘 读 ,同时 向 多 个 盘 写 , 相当 于 RAID 
3 的 思想 ， 众 人 拾 柴 火焰 高 ， 满 配 180 块 磁盘 ， 所 以 恢复 速度 快 是 理所当然 的 了 。 

这 里 有 必要 再 与 RAID 5 比较 一 下 。 假 设 同样 有 180 块 硬盘 ， 组 成 了 一 个 大 RAID 5, 坏 掉 
一 块 磁盘 之 后 , 系统 需要 从 剩余 的 179 块 磁盘 中 读 出 其 上 的 所 有 数据 ( 当然 数据 是 边 读 边 运 算 的 ， 
这 里 将 其 转换 为 最 终 统计 数字 ) ， 然 后 再 将 运算 结果 写 到 新 磁盘 中 。 如 果 每 块 磁盘 容量 是 1TB， 
内 部 磁盘 环 路 带宽 为 4Gb=400MB/s, 需要 读 出 的 总 数据 量 为 179TB ， 需 要 耗费 的 时 间 为 ( 179 x 
1024 x 1024/400 ) /3600=130.3 小 时 ， 由 于 写 入 新 盘 和 读 取 剩 余 磁 盘 为 双 工 操作 ， 所 以 不 计 入 总 
时 间 ， 另外， 也 忽略 了 XOR 运算 所 消耗 的 时 间 ， 而 且 磁 盘 环 路 带宽 按照 100% 效 率 计 算 。 这 个 
数字 与 0.5 相 比 ， 反 差 是 巨大 的 。 但 是 一 定 要 清楚 ，RAID 10 与 RAID 5 在 恢复 时 间 方面 没有 可 
比 性 。 况 且 实 际 也 不 会 使 用 这 么 多 的 磁盘 来 形成 一 个 RAID 5 组 。 实 际 中 一 般 情 况 下 就 拿 8 盘 
RAID 5 来 算 的 话 ，Rebuild 时 间 也 要 有 8~ 9 个 小 时 ， 而 且 是 系统 外 部 负载 很 小 的 时 候 。 

我 们 不 妨 再 与 传统 RAID 10 系统 来 比较 一 下 。 假 设 同 样 由 180 块 硬盘 组 成 一 个 传统 RAID 10 
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系统 ,其 中 90 块 盘 与 另 90 块 盘 互 为 镜像 关系 。 某 时 刻 ， 其 中 一 块 磁盘 故障 ， 此 时 系统 会 从 这 块 
磁盘 对 应 的 镜像 磁盘 将 数据 读 出 同时 写 入 新 磁盘 。 由 于 不 牵扯 任何 XOR 之 类 的 额外 运算 , 属于 
整 盘 复制 ,IO 类 型 属于 连续 读 与 连续 写 , 所 以 可 以 按照 SATA 硬盘 的 理论 连续 读 吞吐 量 60MB/s 
来 计算 。( 1 x 1024 x 1024/60 ) /3600=4.85 小 时 。 可 以 近似 认为 180 块 硬盘 配置 的 XIV 在 Rebuild 
时 耗费 的 时 间 为 传统 RAID 10 的 1/10。 如 果 今后 XIV 系统 可 以 增加 更 多 的 节点 ， 想 必 Rebuild 
速度 会 有 所 加 快 。 当 然 ， 系 统 整体 磁盘 越 少 ，Rebuild 时 间 也 就 会 相应 延长 了 。 

原因 3: 最 重要 的 原因 是 , 不 做 无 用 功 ! 这 也 是 3 个 原因 中 最 重要 也 是 效果 最 大 的 一 个 原因 。 
恢复 速度 快 ， 只 重新 镜像 复制 磁盘 上 已 经 被 LUN 所 占用 的 那些 数据 块 ， 而 不 是 整 盘 镜像 。 如 果 
这 个 坏 盘 上 原先 只 有 很 少 的 数据 块 被 占用 ,还 用 30 分 钟 么 ? 估计 一 分 钟 也 可 以 了 ， 甚 至 几 秒 钟 
都 有 可 能 ， 或 者 ， 根 本 不 用 时 间 ， 因 为 或 许 它 上 面 本 来 就 没有 任何 LUN 去 占用 。 


5. XIV 系统 很 容易 做 到 但 尚未 做 到 的 


动态 存储 分 级 数据 迁移 是 目前 正在 被 热 炒 的 几 个 存储 系统 上 层 技术 之 一 。 包 括 Compellent、 
EMC、HDS 在 内 的 多 家 厂商 都 已 经 在 这 个 领域 有 相关 的 产品 发 布 。 但 是 IBM 只 是 在 Tivoli 软件 
中 实现 了 一 个 客户 端 基于 文件 的 分 层 管 理工 具 , 并 未 在 存储 端 提供 基于 卷 或 者 基于 Block 的 动态 
迁移 方案 。 

XIV 这 种 可 以 将 LUN 分 块 任意 迁移 到 其 他 节点 的 功能 ， 自 然而 然 地 就 可 以 在 稍 加 开发 的 基 
础 上 做 到 Tiered Storage Management。 Compelent 公司 可 以 在 其 在 线 存储 中 实现 基于 Block 的 动态 
数据 迁移 ，HDS 可 以 在 其 存储 系统 中 做 到 基于 卷 的 手动 迁移 ，EMC 在 其 存储 系统 中 提供 FAST 
功能 可 以 实现 基于 卷 或 者 卷 分 块 的 动态 迁移 。 可 以 看 到 , 这 些 技术 都 是 将 整 卷 或 者 整 卷 细 分 成 更 
细小 的 块 来 做 迁移 的 。XIV 原生 的 技术 已 经 支持 了 卷 分 块 迁移 , 相 比 于 上 述 厂商 , 所 需要 开发 的 
模块 就 少 了 很 多 。 

遗憾 的 是 , XIV 目前 尚未 有 相关 技术 发 布 。 包 括 有 类 似 潜 质 的 WAFL,， 也 未 见 动静 。 综 上 所 
述 ，XIV 将 LUN 当 作 一 个 文件 ， 然 后 在 一 个 分 布 式 多 节点 系统 内 利用 分 布 式 文件 系统 来 管理 这 
些 LUN， 再 利用 Interface Module 将 这 些 文件 LUN 以 SCSI 块 的 形式 进行 输出 。 


6. XIV 系统 的 理论 吞吐 量 计算 


XIV 存储 系统 在 节点 互 连 带宽 方面 不 是 很 足 。 干 兆 以 太 网 交换 机 ， 在 15 个 节点 满 配 的 情况 
下 ， 其 后 端 整体 互 连 带宽 也 不 过 6 x 6+9 x 4=72Gb/s=9GB/s。 对 于 15 个 节点 的 存储 集群 ， 这 个 
数值 是 比较 低 的 ， 也 是 瓶颈 所 在 。 

由 于 系统 在 处 理 IO 写 的 过 程 中 ,会 产生 2 次 或 者 3 次 IO 传输 过 程 , 均 会 跨越 后 端 交换 机 。 
我 们 在 此 给 出 一 个 理论 计算 推导 出 来 的 XIV 满 配 情况 下 的 最 大 读 和 写 吞 吐 量 的 计算 过 程 和 结 
果 。 由 于 系统 包含 6 个 Interface Module 和 9 个 Data Module， 所 以 需要 读 写 的 数据 块 地 址 落 在 
前 者 类 型 节点 之 上 的 几率 为 6/15=0.4， 落 在 后 者 类 型 节点 之 上 的 几率 为 0.6。 我 们 按照 几率 来 
进行 计算 。 

1 ) 理论 平均 最 大 读 吞 吐 量 ( Cache Miss ) 

假设 , 在 一 秒 之 内 , 系统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 者 Secondary 块 均 落 在 了 
Interface 类 型 的 节点 之 上 。 那 么 , 我们 假设 IO 类 型 为 大 块 连续 IO ， 每 个 Interfaice Module 的 12 
块 SATA 硬 盘 以 额定 速率 发 送 数 据 , 即 每 块 硬盘 60MB/s 的 速度 ,总 速度 为 12 x 60MB/s=720MB/s， 
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6 个 节点 后 端 额定 速度 共 4320MB/s, 前 端 额定 速度 为 2x 6x 400MB/s=4800MB/s, 所 以 整体 理论 
额定 速率 以 后 端 为 准 ， 为 4320MB/s。 

假设 , 在 一 秒 之 内 , 系统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 者 Secondary 块 均 落 在 了 
Data 类 型 的 节点 之 上 ， 而 且 我 们 同样 假设 IO 类 型 为 大 块 连续 IO。 此 时 ， 每 个 Interface Module 
在 接收 到 读 IO 请 求 之 后 都 需要 从 后 方 的 Data Module 上 取 数 据 。 所 有 6 个 InterBce Module 的 后 
端 链 路 总 带宽 为 6 x 6Gb/s=36Gb/s=4.5GB/s， 而 所 有 9 个 Data Module 所 提供 的 链 路 总 带宽 为 9 
x 4Gb/s=36Gb/s=4.5GB/s， 与 前 方 Interface Module 匹配 ， 但 是 必须 要 看 后 端 磁盘 是 否 可 以 满足 
这 个 带宽 。 后 端 共 9x 12=108 块 SATA 硬盘 ,每 块 理论 最 大 带宽 60MB/4， 总 后 端 磁盘 带宽 =108 
x 60MB/s=6480MB/s>4.5GB/s， 所 以 ， 按 照 前 端 带 宽 为 准 ， 整 体 理论 带宽 为 4.5GB/s。 

按照 几率 比例 将 结果 进行 换算 得 出 系统 读 平均 理论 最 大 带宽 为 : (4.5GB/s x 0.6)+ 
(4320MB/s x0.4) = 4492.8MB/s。 除 掉 前 端 FC 协议 以 及 后 端 以 太 网 与 其 上 层 协议 传输 耗费 的 
带宽 , 按照 15% 来 算 ， 再 除 掉 控制 器 处 理 所 耗 费 的 延迟 资源 等 ,按照 10% 计 算 ， 则 最 终 实际 结 
应 该 接近 于 3369MB/s。 

2 ) 理论 平均 最 大 写 知 吐 量 ( Write Through ) 

"假设 IO 类 型 为 大 块 连续 IO。 由 于 后 端 牵扯 到 Cache Mirror 过 程 ， 所 以 计算 起 来 比较 

3 ) IO 对 应 的 地 址 落 在 Interface 节点 (几率 0.4) 

4) IO 对 应 的 块 地 址 恰好 落 在 接收 到 IO 的 Interface 节点 ( 几率 0.4x1/6) 

5 ) 镜像 块 落 在 了 其 他 Interface 节点 ( 几率 0.4x1/6x5/14) 

这 种 情况 下 ， 每 个 接收 到 IO 的 Interface 节点 可 以 用 后 端 6 条 链 路 全 速 向 镜像 块 所 在 的 节点 
发 送 数据 ， 即 整体 写 吞 吐 量 为 6x 6Gb/s=36Gb/s=4.5GB/s。 

= ”镜像 块 落 在 了 某 Data 节点 ( 几率 0.4x1/6x9/14)。 

这 种 情况 下 , 同样 由 于 每 个 接收 到 IO 的 Interface 节点 只 能 向 一 个 Data 节点 发 送 数据 , 则 只 
能 够 以 Data 节点 后 端 链 路 数 为 准 ， 即 整体 写 吞 吐 量 为 6 x 4Gb/s=3GB/s。 

。 IO 对 应 的 块 地 址 落 在 了 非 接收 到 IO 的 Interface 节点 (几率 0.4x5/6 ) 。 

" ”镜像 块 落 在 了 其 他 Interface 节点 (几率 0.4x5/6x5/14)。 

这 种 情况 下 ， 要 计算 理论 最 大 带宽 ,需要 让 所 有 的 节点 在 收发 数据 时 不 发 生 冲 突 ， 即 每 3 
个 Interface 节点 为 一 组 (接收 到 IO 的 节点 、 一 次 转发 节点 、 二 次 转发 节点 ) ， 共 两 组 。 整 体 传 
输 带 宽 为 : 2 x 6Gb/s=1.5GB/s。 

a ”镜像 块 落 在 了 某 Data 节点 (几率 0.4x5/6x9/14) 。 

这 种 情况 下 , 要 计算 理论 最 大 带宽 , 需要 让 所 有 的 节点 在 收发 数据 时 不 发 生 冲 突 , 即 每 两 个 
Interface 节点 为 一 组 (接收 IO 的 节点 、 一 次 转发 到 的 节点 ) ， 共 3 组 。 但 是 这 三 组 接收 传送 组 
的 终点 是 各 自 对 应 的 Data 节点 ， 所 以 按照 Data 节点 的 最 大 链 路 来 计算 。 整 体 吞吐 量 为 3 x 
4Gb/s=1.5GB/s。 

将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 一 种 情况 的 吞吐 量 贡献 值 为 0.736GB/s。 

= IO 对 应 的 地 址 落 在 Data 节点 (几率 0.6) 。 

= ”镜像 块 落 在 了 Interface 节点 (几率 0.6x6/14 ) 。 

在 这 种 情况 下 ,一 个 接收 转发 组 由 接收 到 IO 的 节点 一 次 转发 Data 节点 和 二 次 转发 Interface 
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节点 组 成 。 二 次 转发 Interface 节点 又 可 作为 接收 到 IO 的 节点 ， 依 次 类 推 串联 ， 每 个 转发 组 都 不 
会 与 其 他 转发 组 冲突 。 这 样 一 共 是 5.5 组 。 以 Data 节点 链 路 数量 为 准 计算 ， 整 体 吞 吐 量 为 5.5 x 
4GB/s=2.75GB/s。 

= ”镜像 块 落 在 了 其 他 Data 节点 (几率 0.6X8/14) 。 

在 这 种 情况 下 ， 一 个 接收 转发 组 由 接收 到 IO 的 节点 、 一 次 转发 Data 节点 和 二 次 转发 Data 
节点 组 成 , 共 可 组 成 4.5 组 ,以 Data 节点 链 路 数量 为 准 计算 ,整体 吞吐 量 为 45 x 4GB/s=2.25GB/s。 

将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 二 种 情况 的 吞吐 量 贡献 值 为 1.478GB/s。 

将 第 一 种 和 第 二 种 情况 的 贡献 值 相 加 得 出 系统 整体 理论 写 吞 吐 量 为 2.214GB/s。 除 掉 协 议 层 
耗费 的 带宽 以 及 控制 器 处 理 延迟 总 开销 共 25%， 得 出 最 后 实际 写 吞 吐 量 应 接近 1.66GB/s。 

XIV 系统 在 读 和 写 同 时 进行 的 时 候 , 由 于 后 端 链 路 会 发 生 严重 的 冲突 ( 读 和 写 都 需要 后 端 链 
路 进行 发 送 和 接收 动作 ) ， 所 以 理论 值 更 是 达 不 到 上 述 分 析 结 果 了 。 其 次 ， 由 于 多 个 LUN 都 均 
匀 分 布 于 所 有 节点 的 所 有 硬盘 ， 所 以 ,在 多 LUN 并 发 连续 大 块 IO 读 或 者 写 的 时 候 ， 很 有 可 能 
会 造成 硬盘 寻 道 冲突 ， 大 大 降低 吞吐 量 ( 这 个 冲突 作用 我 们 会 在 性 能 优化 章节 中 介绍 和 分 析 ) 。 
而 对 于 小 块 随 机 IO， 即 OLTP 类 型 的 IO， 分布 式 的 LUN 的 设计 会 随 着 节点 的 增加 而 IOPS 正 
比 升 高 。 

如 图 15-46 所 示 为 XIV 系统 的 吞吐 量 实测 值 ， 我 们 看 到 与 推导 值 较为 接近 ， 但 是 误差 比较 
大 ， 这 个 无 法 避免 。 

如 图 15-47 所 示 为 XIV 系统 的 IOPS 实测 值 ( Cache Miss ) , 可 以 看 到 这 个 值 对 于 一 个 由 180 
块 SATA 盘 组 成 的 集群 系统 来 讲 还 是 比较 可 观 的 。 
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图 15-46 ”吞吐 量 实测 什 图 15-47 IOPS 实测 值 
7. 全 打 散 式 LUN 分 布 方式 的 致命 缺点 


当 遇 到 多 主机 用 大 块 连续 IO 的 方式 并 发 访问 多 个 LUN 的 时 候 ， 此 时 系统 整体 的 性 能 会 又 
降 ， 具 体 原 因 可 以 参考 本 书后 面 章 节 。 机 械 磁盘 最 怕 寻 道 ， 加 上 XIV 使 用 的 都 是 SATA 盘 , 平 
均 寻 道 速度 更 慢 ， 此 时 便 是 XIV 最 难受 的 时 候 。 


15.6.2 ”3PAR 公司 Inserv-T800 集群 存储 系统 


1. Inserv-T800 系统 硬件 架构 简 述 
3PAR 公司 设计 的 Inserv-T800 为 一 款 X86 集群 式 存储 系统 。 整 个 集群 系统 可 以 由 2~8 个 


第 15 章 众志成城 一 一 存储 集群 @ 


节点 组 成 ， 其 中 节点 必须 成 对 添加 , 每 1 对 为 1 个 单元 , 这 1 对 节点 共享 的 带 起 后 端的 两 串 磁盘 
扩展 柜 (每 串 4 个 ) ， 一 个 节点 对 不 能 直接 访问 另 一 个 节点 对 所 管理 的 磁盘 。 

每 一 个 节点 都 是 一 台中 高 配置 的 X86 Server。 系 统 内 的 所 有 节点 间 两 两 直通 , 每 两 个 节点 都 
使 用 一 条 独立 的 100MHz 64bPCI-X 总 线 相连 。 在 一 个 8 节点 的 系统 内 ，1 个 节点 需要 与 另外 7 
个 节点 互 连 ,所 以 ,每 个 节点 都 需要 7 条 PCI-X 总 线 连 接 到 背 板 ,形成 一 个 具有 28 条 直通 PCI-X 
总 线 的 星 形 结构 ， 如 图 15.48 右 侧 所 示 。 但 是 由 于 PCI-X 为 半 双 工 传输 ， 所 以 整体 系统 内 部 互 
殿 带 宽 为 28 x 800MB/s=21.875GB/s。 由 于 PCI-X 并 非 一 种 包 交 换 网 络 传输 模式 , 所 以 背 板 并 不 
需要 加 电 , 是 一 块 布 满 导线 和 接口 的 被 动 式 的 背 板 ，PCI-X 编 和 解码 和 传输 电路 都 位 于 节点 内 部 。 
同样 是 由 于 被 动 背 板 的 原因 ， 如 果 系 统 节点 数量 达 不 到 8 个 , 比如 只 有 两 个 , 那么 此 时 只 能 用 到 
后 端的 一 条 PCI-X 线路 作为 互联 ， 因 为 背 板 没有 智能 到 判断 连接 的 节点 数量 并 自动 将 电路 开关 
切换 以 便 让 当前 连接 的 节点 尽 可 能 多 地 使 用 后 端的 所 有 总 线 。 
如 图 15-48 所 示 为 单个 节点 内 部 的 架构 。 每 个 节点 使 用 两 个 双核 Intel 的 CPU, 并 使 用 4GB 
内 存 作为 3PAR 的 InForm 操作 系统 的 运行 空间 。 另 外 加 一 块 ASIC 芯片 来 负责 数据 在 前 端 和 后 
端 之 间 的 传输 、 与 其 他 节点 的 缓存 镜像 操作 、RAID XOR 运算 、 节点 间 相 互通 信 以 及 
ThinProvision 和 LUN Shrink 功能 。 这 款 ASIC 的 功能 是 非常 多 的 , 而 且 最 新 奇 的 是 , ThinProvision 
以 及 LUN Shrink 的 功能 也 被 内 内 到 了 这 款 芯 片 中 来 执行 ， 这 在 其 他 厂商 是 从 未 见 过 的 ， 也 是 
3PAR 的 一 大 亮点 。 目 前 这 款 芯 片 最 新 的 一 代为 第 三 代 。 芯片 内 部 有 3 个 133MHz 64b 的 PCI-X 
总 线 用 于 连接 前 端 和 后 端的 接口 卡 ; 以 及 7 个 100MHz 64b 的 PCI-X 总 线 专门 用 于 连接 其 他 节 
点 。ASIC 芯片 直接 控制 着 12GB 的 数据 缓存 。 


四 加 四 加 yy (YY 
前 端 FC 接 口 板 


后 端 FC 接 口 板 


图 15-48 控制 器 架构 示意 图 

如 图 15-49 所 示 为 节点 控制 器 的 实物 图 。 可 以 看 到 共有 6 个 PCI-X 扩展 卡 插 槽 ， 它 们 共享 
3 条 PCI-X 总 线 。 图 15-50 左 侧 所 示 为 系统 的 背 板 , 可 以 看 到 其 上 的 8 个 高 密度 针 接 口 对 应 着 8 
个 节点 。 图 15-50 右 侧 所 示 为 磁盘 扩展 柜 实物 图 。3PAR 的 扩展 柜 很 有 特色 , 在 4U 的 空间 内 放 
置 了 40 块 3.5 英寸 硬盘 ， 其 原因 是 由 于 磁盘 竖 置 并 且 紧 密 排 列 并 且 解决 了 散热 和 共振 问题 ， 这 
在 其 他 厂商 产品 中 也 是 没有 过 的 。 并 且 ， 节 点 后 端的 每 个 FC Loop 仅 连 接 一 个 扩展 柜 ， 即 40 块 
硬盘 。 扩 展柜 同样 也 是 双 Loop 结构 ， 一 个 节点 对 中 的 每 个 节点 各 拿 出 一 个 后 端 FC 接口 来 连接 
一 串 (4 个 级 联 ) 扩展 柜 ， 每 个 节点 再 拿 出 另外 一 个 FC 口 连接 对 方 节点 的 扩展 柜 。 这 样 ， 每 个 
节点 对 最 多 可 以 共同 连接 8 个 扩展 柜 ， 即 320 块 盘 ，4 个 节点 对 ( 8 个 节点 ) 共 可 以 连接 的 最 大 
磁盘 数 为 1280 块 。 


437 


旬 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


图 15-50 背 板 和 扩展 柜 实物 图 
15-51 所 示 为 8 个 节点 与 各 自 扩展 柜 的 连接 情况 示意 图 。 每 个 节点 对 最 大 可 以 连接 8 个 
扩展 柜 ， 图 中 未 标识 出 。 


妈 15 一 52 所 示 为 Inserv-T400 系统 ,最 大 4 节点 系统 的 机 柜 , 机 柜上 部 为 磁盘 扩展 柜 ， 下 部 
可 以 放置 4 个 节点 控制 器 。 左 侧 的 背 板 为 8 接口 , 是 对 应 T800 的 , 这 里 只 是 示意 图 。T400 使 用 


的 是 4 接口 的 背 板 。 


三 | 可 1 
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图 15-52 T400 系统 示意 图 


图 15-51 8 节点 互联 
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2. Inserv 集群 存储 系统 架构 简 评 


Inserv 集群 存储 系统 是 一 款 特点 很 多 的 产品 。 

首先 ， 它 使 用 直 连 的 廉价 PCI-X 总 线 作为 节点 间 互 连 的 通道 ,但 是 由 于 PCI-X 半 双 工 的 
限制 , 使 得 8 节点 间 互 连带 宽 只 有 21.875GB/s。 而 且 由 于 采用 点 对 点 直 连 而 非 交 换 方 式 , 这 就 造 
成 系统 的 扩展 性 大 受 限制 ，N 节点 的 系统 就 要 求 每 个 节点 提 
供 N-1 条 PCI-X 总 线 , 不 适合 扩充 到 更 多 的 节点 。 

其 次 , 节点 内 部 使 用 专用 ASIC 来 实现 大 部 分 数据 操作 ， 
并 还 负责 执行 ThinProvision 和 LUNShrink ( 或 者 叫 LUN 
Space Reclaiming ) 的 功能 ， 这 又 会 大 大 降低 系统 主 CPU 的 
负担 。 再 次 ， 磁 盘 扩 展柜 的 高 密度 设计 ， 大 大 减少 了 空间 占 
用 以 及 连 线 , 一定 程度 上 也 降低 了 耗 电 。 如 图 15-53 所 示 为 
这 款 ASIC 芯片 的 实物 图 。 15-53 Thin ASIC 

Inserv 集群 存储 系统 的 一 个 比较 显著 的 瓶颈 点 在 于 每 个 
节点 使 用 3 条 1GBA 的 PCI-X 总 线 来 支撑 6 个 扩展 卡 共 24 个 4Gb/s 的 FC 接口 , 这 实在 有 点 捉 
襟 见 肘 。 这 也 注定 了 这 款 产 品 在 满 配 8 个 节点 ， 前 端 128 个 4Gb/s 的 FC 接口 的 情况 下 ， 系 统 整 
体 带 宽 吞吐 量 上 不 去 ， 停 留 在 不 到 6.5GBA 的 级 别 上 。 

但 是 系统 整体 的 IOPS 吞吐 量 是 很 不 错 的 ,如 图 15-54 所 示 ,SPC-1 测试 取得 了 224990 IOPS 
的 成 绩 。 而 且 曲 线 非常 平滑 和 趋 缓 ， 显 示 了 系统 整体 极 高 的 IO 消化 能 力 。 


. transaction-intensive applications typically 
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图 15-54 IOPS SPC-1 值 


15.6.3 EMC 公司 Symmetrix V-MAX 集群 存储 系统 


1. Symmetrix V-MAX 集群 存储 系统 硬件 架构 简 述 


Symmetrix V-MAX 是 EMC 在 2009 年 中 旬 推 出 的 一 款 集群 存储 系统 。 其 使 用 X86 Server 作 
为 节点 ,每 个 节点 配备 两 颗 四 核 Intel CPU 以 及 几 十 GB 的 内 存 ， 若 干 扩展 卡 ， 另 外 当然 也 少 不 
了 用 于 节点 互联 的 网 络 通道 卡 一 一 RapidIO 适 配 卡 。V-MAX 集群 采用 RapidIO 网 络 来 作为 集群 
内 部 互联 通道 ， 整 体 采用 两 个 外 部 独立 RapidIO 交换 机 来 提供 交换 介质 通道 。 

如 图 15-55 所 示 为 V-MAX 系统 满 配 时 的 拓扑 图 , 共 16 个 Director( 节点 ) , 每 两 个 Director 
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组 成 一 对 共同 


挂 起 后 端 一 串 磁盘 扩展 柜 , 每 对 Director 被 称 做 一 个 Engine, 满 配 最 大 8 个 Engine。 


如 图 15-55 右 侧 所 示 为 单个 节点 ( Director ) 内 部 的 带宽 情况 。 节 点 硬件 指标 方面 ， 这 里 就 不 作 


RapidIO 
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图 15-55 满 配 时 示意 图 
图 15-56 所 示 为 单个 Engine 的 物理 视图 。 两 个 Director 组 成 一 个 Engine 并 放置 于 同一 个 机 
箱 之 内 。 


Power SupplyB Power Supply A 
Back End Virtual Matrix 
I/O Module 


Management VO Module Carrier Management 
Module B Module A 
Front End I/O Module Front End I/O Module 


图 15-56 单个 Engine 物理 视图 
是 一 种 高 速 网 络 , 目前 被 广泛 用 于 岁入 式 半 导体 器 件 之 间 的 互 连 。 像 任何 高 速 传输 
网 络 协 议 集 一 样 , RapidIO 也 定义 了 一 套 自己 的 传输 协议 层次 , 在 OSI 各 层 都 有 相关 定义 。 物 理 
层 可 以 采用 并 行 传输 或 者 串 行 传输 ,但 是 目前 广泛 被 应 用 的 是 串 行 传输 ，8/10b 编码 机 制 ， 目 前 


单 向 传输 速率 为 3.125GBaud/s， 合 2.5Gb/s=312.5MB/s。 同 样 可 以 4 条 串 行 链 路 捆绑 形成 4X 链 
路 ， 加 上 全 双 工 设计 ， 一 条 4X 的 RapidIO 链 路 可 以 提供 双向 20Gb/s=2.5GB/s 的 带宽 。 链 路 层 
采用 成 帧 传输 ， 具 有 链 路 层 流 控 和 传输 层 流 控 机 制 。 网 络 层 ，RapidIO 定义 了 8b 或 者 16b 的 地 


址 用 于 路 由 /交换 每 个 Packet。 传 输 层 ，RapidIO 根据 不 同 应 用 行为 规定 了 多 种 传输 类 型 。 相 比 


Fibre Channel 


阿 


来 讲 ，RapidIO 协议 更 加 高 效 。 目 前 最 多 支持 一 个 交换 域内 16 个 端点 ， 所 以 这 个 


限制 也 是 目前 V-MAX 存储 系统 的 节点 限制 ， 即 16 个 节点 。 


RapidIO 
定 和 维护 , 比 
的 速率 。 


前 已 经 成 为 一 种 标准 开放 的 芯片 通信 网 络 标准 , 有 多 家 厂商 参与 了 这 个 标准 的 制 
如 德州 仪器 、 朗讯、EMC 等 。RapidIO 下 个 速率 级 别 为 6.25Baud/s, 合 单 向 20Gb/s 
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RapidIO 提供 对 所 有 节点 共享 内 存 的 支持 , 即 在 一 个 RapidIO 网 络 之 内 的 所 有 节点 上 的 内 存 
共同 组 成 一 个 逻辑 的 大 内 存 空间 , 每 个 节点 都 可 以 寻 址 这 个 全 局 内 存 。 当 目标 地 址 位 于 本 地 内 存 
的 时 候 , 数据 请 求 无 须 经 过 外 部 网 络 ; 当 目标 地 址 位 于 其 他 节点 的 内 存 的 时 候 , 那么 本 地 节点 的 
数据 请 求 会 经 过 外 部 RapidIO 网 络 被 发 送 到 对 应 的 节点 并 将 对 应 数据 取 回 。 如 果 本 地 寻 址 不 命 
中 ， 则 由 于 经 过 了 外 部 网 络 ， 所 以 整体 响应 时 间 就 会 增加 。 

Symmetrix V-MAX 系统 就 是 一 个 共享 全 局 内 存 的 集群 存储 系统 。 


2. Symmetrix V-MAX 集群 存储 系统 IO 处 理 流程 示例 


每 个 Director 的 内 存 被 分 为 三 大 区 域 : CS ( Control Store ) 、GM ( Global Memory ) 和 S and 
F ( Store and Forward ) 。CS 区 域 保存 着 运行 在 每 个 Director 上 的 操作 系统 所 必需 的 运行 时 数据 ; 
GM 区 域 用 于 存放 被 缓存 的 写 IO 数据 或 者 被 Prefetch 的 待 读 IO 数据 ; S and F 区 域 用 来 存放 
Director 后 端 之 间 相 互 等 待 交换 的 数据 队列 。 下 面 我 们 通过 几 个 示例 来 了 解 这 些 逻 辑 区 域 的 角色 。 

1) 1 个 Director 参 与 ， 本 地 Read Hit 

如 图 15-57 所 示 , 某 Direcor 某 时 刻 接 收 到 了 一 个 主机 发 送 的 读 IO 请 求 , Director 在 接收 到 
这 个 IO 请 求 之 后 ,查询 系统 全 局 内 存 中 是 否 有 针对 这 个 IO 地 址 的 缓存 数据 存在 。 本 例 中 ,Director 
恰好 发 现 对 应 的 缓存 Slot 就 在 本 地 的 GM 中 , 所 以 Director 在 S and F 区 域 生成 一 条 针对 这 份 数 
据 在 GM 区 域 中 的 指针 , 然后 追加 到 S and F 区 域 队列 尾部 等 待 发 送 。 随 着 S and F 区 域 队列 不 断 
被 执行 ， 这 份 数据 被 发 送 到 主机 客户 端 。 


Single Director Logical I/O Flow (Read Hitto Local Cache) 


» Read request from host hits in local Global Memory slot 
， CPU moves dala from Global Memory to Store and Forward buffer 
» lO device moves data from S and F buffer to host 


图 15-57 I0 流 程 1 
2 ) 两 个 Director 参与 ，Read Hit 于 远程 Director 
如 图 15-58 所 示 , Directorl 接收 到 主机 的 一 个 读 IO 请 求 , 首先 查询 系统 全 局 GM 是 否 有 对 
应 的 缓存 Slot， 发 现在 远程 Director2 的 GM 中 存在 针对 这 个 IO 地 址 的 缓存 数据 Slot，Directorl 
立即 通过 后 端 RapidIO 网 络 向 Director2 发 起 请 求 ,将 Director2 的 GM 中 对 应 的 数据 通过 RapidIO 
网 络 传送 到 Directorl 的 S and F 区 域 队 列 中 。 数 据 收 到 后 ， 随 着 Directorl 的 S and EF 区 域 队列 不 
断 被 执行 ， 这 份 数据 最 终 被 发 送 到 主机 客户 端 。 
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Two Directors Logical I/O Flow (Read Hitto Remote Cache) 
Host port on Director 1, Cache slot on Director 2 


» Read request from hosthits in remote Global Memory slot 


» CPU moves data across the Virtual Matrix Interconnect from remote 
Global Memory to local S and F buffer 


» VO device moves data from S and F buffer to host 


图 15-58 I0 流 程 2 

3 ) 3 个 Director 参与 ，Read Miss 

如 图 15-59 所 示 , Directorl 接收 到 主机 的 一 个 读 IO 请 求 , 首先 查询 系统 全 局 GM 中 是 否 有 
针对 这 个 IO 地 址 的 缓存 Slot, 发 现 系统 全 局 GM 内 没有 针对 这 个 地 址 的 缓存 Slot, 所 以 Director1 
会 为 这 个 IO 对 应 的 地 址 分 配 一 段 缓存 , 此 时 Directorl 会 根据 某 种 策略 , 在 集群 内 任何 一 个 节点 
的 GM 上 都 可 以 进行 分 配 。 本 例 中 假设 Directorl 选择 了 在 Director2 的 GM 中 为 这 个 IO 对 应 的 
地 址 分 配 缓存 ， 则 Directorl 会 通过 RapidIO 网 络 向 Director2 发 起 这 个 命令 请 求 。Director2 收 到 
命令 后 , 在 本 地 GM 为 这 个 IO 地 址 分 配对 应 的 缓存 , 并 同时 根据 IO 地 址 来 判断 这 个 IO 所 请 求 
的 数据 存在 于 哪个 节点 的 磁盘 上 。 本 例 中 假设 数据 存在 于 Director3 的 磁盘 上 ， 则 Director2 向 
Director3 请 求 这 份 数据 ，Director3 收 到 请 求 后 ,从 其 后 挂 的 磁盘 中 将 这 份 数 据 读 出 并 存 入 本 地 S 
andF 区 域 等 待 被 发 送 。Director2 收 到 Director3 发 送 的 数据 后 , 将 其 放 入 已 经 分 配 的 位 于 GM 中 
的 缓存 Slot 中 ,并 在 本 地 S and F 区 域 队列 尾部 追加 这 份 数据 在 GM 中 的 指针 。 最 终 ， 队 列 中 这 
份 数据 被 发 送 到 了 Directorl ， 然 后 被 发 送 到 主机 客户 端 。 


Three Directors Logical IO Flow (Read Miss) 
Read from Disk on Director 3, Through Cache slot on Director 2. to Host port on Director 1 


* Read Miss request from host to Director 1 
* Cache slotallocated on Director 2 (could be allocated to any Director) 
* Read data from disk on Director 3 into S and F buffer on Director 3 

* Move data across fabric to allocated cache slot on Director 2 

* Move data across fabric to S and F buffer on Director 1 

* Move data to host connected to Director 1 


图 15-59 I0 流 程 3 
上 面 这 个 例子 中 所 述 的 过 程 可 能 有 点 让 人 琢磨 不 透 ， 即 为 何 此 时 Director2 会 参与 进来 ,在 
发 生 Read Cache Miss 时 , 系统 为 何不 直接 根据 IO 对 应 的 卷 和 卷 中 的 地 址 来 判断 所 请 求 的 数据 落 
在 哪个 节点 管理 的 后 端 磁盘 中 。 如 果 直 接 在 包含 IO 请 求 数据 对 应 磁盘 的 那个 节点 来 分 配 缓存 ， 
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那么 就 会 节省 一 次 多 余 的 数据 传送 过 程 ， 节 约 后 端 网 络 带 宽 。 对 于 这 个 问题 ， 后 文 会 有 阐述 。 

4) 4 个 Director 参 与 ，Write IO 

如 图 15-60 所 示 ，Directorl 接收 到 主机 的 一 个 写 IO 操作 ，Direcotr1 根据 这 个 IO 针对 的 卷 
和 卷 中 的 地 址 判断 , 对 应 数据 的 磁盘 不 在 本 地 , 所 以 立即 在 系统 全 局 GM 中 分 配 两 份 缓存 以 用 于 
保存 这 份 IO 数据 。 本 例 中 ，Directorl 选择 了 在 Director2 和 3 的 GM 中 各 分 配 一 块 缓存 用 于 存 
放 这 份 数据 ,Directorl 将 数据 指针 追加 至 本 地 S and FF 区 域 队列 准备 发 送 到 Director2 和 3 为 其 分 
配 的 缓存 中 。 至 此 ， 这 份 写 IO 数据 成 功 的 在 系统 内 部 保留 了 两 份 ， 避 免 了 单 点 故障 ， 可 防止 一 
且 数 据 未 写 入 硬盘 之 前 整个 节点 发 生 故 障 所 造成 的 数据 丢失 。Director 在 完成 缓存 镜像 的 操作 之 
后 ,立即 向 主机 返回 写 入 成 功 的 消息 .之 后 ,Director2 和 3 中 的 一 个 (Primary 镜像 ), 比 如 Director2， 
根据 IO 针对 的 卷 和 卷 中 的 地 址 判断 出 此 IO 的 目标 数据 对 应 的 磁盘 存在 于 Director4 上 ， 所 以 
Director2 将 数据 指针 追加 到 本 地 S and F 中， 将 数据 发 送 到 Director4 的 S and FE 中，Director4 收 
到 数据 之 后 将 其 写 入 后 端 对 应 的 硬盘 中 。 

Four Directors Logical I/O Flow (host write) 


Write from Host port on Director 1 to Cache slots on Diector 2 & 3, with destage to Disk on Director 4 


。 Write request from host to Drector 1, data placed in S*F buffer on Director 1 
。 Cache so alloceted on Directors 2and 3 

» Vite cata across fabric to allocated cache slot on Director 2 

» Wite dala across fabric to allocated cache slol on Director 3 

» Read data across fabric into S and F buffer on Director4 
ee Vwite data to disks on Direcior 4 


图 15-60 I0 流 程 4 

对 于 写 IO 的 处 理 ，V-MAX 也 同样 可 能 产生 额外 的 不 必要 操作 。 比 如 上 个 例子 中 ， 数 据 完 
全 可 以 只 在 接收 到 IO 的 Director 即 Director1 与 数据 所 保存 的 磁盘 所 在 的 Director 即 Director4 的 
GM 中 保存 两 份 即 可 ， 当 数据 写 入 硬盘 之 后 , 对 应 GM 中 的 缓存 Slot 自然 变 为 Prefetch 类 型 的 组 
存 。 但 是 上 个 例子 中 ,数据 被 多 余 的 传送 了 两 次 。 

当然 上 面 所 有 示例 中 的 情况 都 是 最 极端 的 情况 ， 实 际 中 有 可 能 接收 到 IO 的 Director 缓存 将 
被 耗 尽 , 或 者 处 理 资源 耗 尽 , 或 者 由 于 其 他 各 种 原因 ， 导致 缓 存 Slot 必须 在 其 他 节点 分 配 , 这 种 
情况 是 有 可 能 发 生 的 , 一 旦 发 生 , 就 需要 额外 的 操作 来 解决 这 些 问题 ; 同时 ,额外 的 操作 使 得 系 
统 IO 响应 时 间 延 长 ， 相 应 主机 端 IO 的 压力 就 会 随 之 降低 ， 使 得 系统 资源 状况 得 以 恢复 ， 然 后 
再 次 轮回 发 生 ， 这 也 在 一 定 程 度 上 做 到 了 压力 自 缓解 。 

对 于 一 个 集群 存储 系统 , 主机 理应 可 以 连接 到 集群 中 任何 一 个 节点 来 向 整个 集群 中 存在 的 卷 
发 起 IO 请 求 而 不 关心 这 个 卷 对 应 的 实际 数据 存放 在 哪个 节点 上 或 自己 是 否 就 正在 向 这 个 节点 发 
送 IO 请 求 。 当 主机 将 IO 发 送 到 一 个 其 所 挂 的 后 端 磁盘 中 并 不 包含 对 应 数据 的 节点 的 时 候 ， 就 
要 求 节点 通过 后 端 互 连通 道 进行 数据 转发 动作 了 , 这 一 点 是 无 论 如 何不 可 避免 的 。 因 为 不 可 能 强 
制 让 主机 连接 到 磁盘 上 有 对 应 数据 的 节点 , 这 样 的 话 就 失去 了 集群 的 意义 。 况 且 ， 有 些 集群 比如 
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XIV 会 将 卷 数据 分 块 存放 于 集群 中 的 每 个 节点 的 磁盘 上 。 虽 然 集群 内 部 数据 互 转 在 所 难免 , 但 是 
我 们 依然 需要 考虑 节约 后 端 有 限 的 互联 带宽 。 

V-MAX 的 这 种 设计 使 得 缓存 Slot 可 以 脱离 数据 对 应 的 磁盘 所 依附 的 节点 而 存在 于 任何 节 
点 上 ,游离 于 各 个 节点 之 间 ， 耦 合 非常 松 ， 有 很 大 的 灵活 性 和 压力 自 缓解 功能 。 当 系统 资源 压力 
不 大 的 时 候 ， 系 统 应 当选 择 最 优 的 缓存 分 配方 式 以 降低 IO 延迟 和 节约 后 端 互 连 通道 带宽 。 

V-MAX 的 这 种 设计 可 以 说 与 操作 系统 内 核 使 用 Page Cache 机 制 ( 见 本 书后 面 章节 ) 是 同 
源 的 ,操作 系统 可 以 将 各 种 实体 比如 文件 、 设 备 映射 到 内 存 空间 中 , 访问 内 存 空间 就 等 于 访问 文 
件 或 者 设备 对 应 的 地 址 。 实 际 上 ，V-MAX 采用 某 种 hash 算法 (比如 DHT ) ,根据 IO 的 发 出 


主机 、 


标 地 址 、 长 度 等 信息 ， 做 一 致 性 hash 计算 ， 从 而 映射 到 集群 中 的 某 个 节点 ， 对 应 该 目 


标 地 址 的 缓存 一 定位 于 某 固定 节点 中 固定 的 内 存 区 域 ， 使 用 这 种 算法 可 以 避免 每 次 IO 都 查 表 来 
确定 其 缓存 位 置 ， 能 够 节省 计算 资源 ， 提 升 速 度 ， 但 是 却 可 能 由 于 多 次 转发 而 降低 速度 ， 这 是 个 


矛盾。 


思想 与 缓存 与 RAM 之 间 的 映射 类 似 ， 都 各 有 收益 和 辆 牲 。 


FC SAN 集群 存储 系统 小 论 : EMC 与 3PAR 之 间 一 直 火 药 味 比较 浓 ，EMC 长 期 以 来 一 直 
诉 病 3PAR 的 PCI-X 总 线 、 不 支持 8Gb 的 FC 和 10Gb 的 以 太 网 、 不 支持 SSD 和 不 支持 分 
级 迁移 等 。3PAR 也 时 常 调侃 EMC 的 一 些 策略 。HDS 和 EMC 之 间 也 在 互相 拿 对 方 的 架构 
指 指点 点 。 其 实 本 来 就 没什么 可 指点 的 ， 表现 上 可 能 不 一 样 ， 但 是 骨子里 却 都 一 个 样 。 
这 次 ， EMC 来 了 个 大 翻转 , 一 改 DMX 的 直 连 矩阵 架构 ， 全 面 转向 基于 包 交 换 互 联网 络 的 
集群 存储 架构 , 一 改 PowerPC, 全 面 转向 开放 的 Intelx86。 仔细 的 读者 可 能 会 发 现 , V-MAX 
甚至 与 3PAR 的 Inserv-T 系列 集群 架构 有 些许 相似 之 处 ， 即 节点 都 是 成 对 出 现 。3PAR 和 
V-MAX 之 所 以 必须 以 节点 对 的 形式 出 现 ， 是 为 了 使 用 这 一 对 节点 共同 连接 一 串 磁盘 扩展 
柜 ， 以 避免 单 点 故障 。 比 如 ， 一 旦 某 个 节点 Down 机 故障 ， 如 果 其 后 挂 的 扩展 柜 没有 另外 
节点 来 接管 的 话 , 那么 所 有 存储 于 这 串 扩展 柜上 的 数据 将 无 法 再 被 访问 到 。 这 里 不 得 不 提 
一 下 XIV，XIV 的 镜像 保护 方式 和 动态 随时 迁移 数据 的 设计 ， 让 其 可 以 只 用 一 个 节点 连接 
后 端的 磁盘 ， 虽 然 它 目前 还 没有 扩展 柜 , 但 是 不 见得 未 来 不 支持 扩展 ， 毕 竞 X86 Server 是 
个 很 开放 的 架构 ， 只 要 插 上 一 堆 扩 展 卡 ,没有 做 不 到 的 事情 。 

V-MAX 在 节点 内 部 使 用 了 PCI-E，8Gb 的 FC 和 10Gb 的 以 太 网 ， 节 点 互 连 通 道 使 用 了 基 
于 包 交 换 的 RapidIO 网 络 ， 这 些 用 料 比 起 3PAR 来 可 是 足 足 高 了 不 少 。 

目前 HDS 公司 尚未 发 布 集群 存储 系统 ， 并 一 贯 坚 持 着 其 基于 Crossbar 的 大 型 主机 架构 控 
制 器 。 随 着 IBM、EMC 这 两 家 巨头 相继 发 布 了 纯 集群 存储 系统 ， 不 知道 这 三 家 巨头 中 的 
最 后 一 家 HDS 还 能 坚持 多 久 。 

目前 X86 系统 越 来 越 普 及 , 性 价 比 越 来 越 高 , 作为 开放 系统 , 逐渐 地 被 存储 厂商 用 于 新 的 
集群 存储 系统 上 来 。 而 存储 厂商 可 以 基于 这 些 开 放 系统 , 研发 更 加 高 级 、 更 加 智能 化 和 移 
植 性 良好 的 存储 软件 模块 ， 可 能 这 就 是 激发 X86 集群 普遍 被 应 用 的 原因 之 一 。 

存储 系统 中 , 硬件 的 发 展 前 景 已 经 变 得 缓慢 ， 而 真正 更 加 需要 的 ,不 是 数据 存储 方面 ， 而 
是 数据 管理 方面 。 


集群 NAS 系统 和 集群 文件 系统 : 前 面 介 绍 并 分 析 了 几 个 基于 Block SAN 方式 访问 的 集群 
存储 系统 。 另 一 大 阵营 ， 即 NAS 存储 系统 ,一 样 可 以 集群 化 ,而且 已 经 变 成 了 一 种 趋势 。 
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促成 集群 NAS 发 展 的 一 个 最 大 原因 就 是 因为 NAS 系统 前 端 以 太 网 速率 较 低 , 传统 NAS 设 
备 单个 控制 器 性 能 不 高 ， 能 够 满足 的 吞吐 量 也 很 低 ， 导 致 传统 NAS 存储 系统 常用 于 二 线 
应 用 , 比如 文件 共享 或 者 一 些 非 关键 而 且 对 性 能 要 求 不 高 的 应 用 。 然而 , 一 些 特殊 的 应 用 ， 
需要 多 点 共同 读 写 某 个 文件 的 应 用 系统 ， 比 如 3D 泻 染 集群 、 电 影 泻 染 集群 等 ， 这 些 集群 
中 包含 几 百 甚至 上 千 台 服务 器 节点 , 它们 可 能 需要 同时 读 或 者 写 某 个 大 文件 , 这 种 需求 如 
果 使 用 Block 级 别 的 存储 系统 的 话 ， 那 么 务必 需要 在 应 用 程序 中 引入 文件 锁 机 制 ， 就 会 大 
大 造成 应 用 程序 设计 的 负担 并 且 不 具有 通用 性 , 每 种 应 用 都 自行 设计 集群 模块 , 是 没有 必 
要 的 。 此 时 ， 需 要 一 个 公共 的 集群 层 ， 而 NAS (NFS、CIFS ) 自身 就 已 经 有 文件 锁 机 制 ， 
所 以 只 要 应 用 程序 在 设计 的 时 候 调 用 对 应 NAS 协议 提供 的 锁 API 即 可 。 

苦于 NAS 系统 的 性 能 问题 ， 在 客户 端 节点 过 多 而 NAS 服务 端 性 能 又 太 低 时 ， 系 统 整体 的 
性 能 将 会 很 差 。 这 就 迫切 需要 NAS 存储 系统 进行 集群 化 扩展 ,将 客户 端的 IO 压力 分 摊 到 
集群 中 的 每 个 节点 上 。 除 了 将 NAS 系统 集群 化 之 外 ,还 有 男 一 种 选择 ， 即 集群 文件 系统 。 
下 面 介绍 几 种 集群 NAS 系统 或 者 称 集群 文件 系统 的 设计 架构 。 


所 谓 “ 谁 才 是 真正 的 Scale-Out ?”: IBM 自从 亮相 了 XIV 之后，EMC 接着 出 了 V-Max， 
接着 HDS 也 推出 了 VSP。 这 三 者 都 宣称 自己 是 Scale-Out 架构 , 在 业界 也 引发 了 一 些 讨论 ， 
有 人 认为 只 有 XIV 才 是 真正 的 Scale-Out， 而 V-Max 与 VSP 则 不 算 Scale-Out。 对 于 这 个 
问题 , 我 是 这 么 看 的 。 

大 家 知道 服务 器 多 CPU 架构 变迁 过 程 , 一 开始 是 单 CPU， 后 来 发 展 到 双 CPU 或 者 多 CPU 
的 SMP 架构， 也 就 是 多 CPU 共享 相同 的 内 存 、 总 线 、 操 作 系 统 等 资源 ， 每 个 CPU 访问 全 
局 内 存 任何 地 址 耗费 的 时 间 都 是 相等 的 。 还 有 一 类 AMP 架构 ， 即 不 同 CPU 做 的 事情 是 不 
同 的 。 但 是 由 于 共享 访问 冲突 ，SMP 架构 扩展 性 -效率 曲线 已 经 达到 瓶颈 。 为 了 进一步 提 
高 CPU 数量 的 同时 保证 效率 , NUMA 架构 出 现 了 , 也 就 是 将 多 个 SMP 进行 松 一 点 的 耦合 ， 
多 个 SMP 之 间 通 过 CrossBar Switch 高 速 交换 矩阵 互联 ， 每 个 SMP 都 有 各 自 自己 的 内 存 ， 
一 个 SMP 内 部 的 CPU 访问 自己 的 内 存 时 与 之 前 没什么 两 样 , 但 是 要 访问 其 他 SMP 处 的 内 
存 ， 就 需要 走 交 换 和 矩阵， 导致 延 迟 增加 , 所 以 ,NUMA 通过 牺牲 了 内 存 访 问 的 时 延 来 达到 
更 高 的 扩展 性 ， 比 如 可 以 将 数 百 个 CPU 组 成 NUMA 架构 。SMP 和 NUMA 架构 对 于 软件 程 
序 方面 的 影响 不 大 ， 同 一 台 主 机 内 都 使 用 单一 操作 系统 。 但 是 由 于 NUMA 访问 远 端 内 存 
时 的 时 延 问 题 ， 导 致 NUMA 架构 下 的 效率 也 不 能 随 着 CPU 数量 的 增加 而 线性 增长 ， 只 是 
比 SMP 要 好 户 了 。 此 时 ，MPP 架构 就 出 现 了 。MPP 可 以 说 已 经 与 CPU 已 经 关系 不 大 了 ， 
MPP 说 白 了 就 是 将 多 台独 立 的 主机 使 用 外 部 网 络 来 组 成 一 个 集群 ， 显 然 MPP 架构 下 ， 每 
个 节点 都 有 各 自 的 CPU、 内 存 、IO 总 线 和 操作 系统 ， 属 于 最 松 的 耦合 ， 而 且 运 行 在 MPP 
集群 中 的 软件 程序 的 架构 也 需要 相应 改变 , 变 为 大 范围 并 行 化 , 并 尽量 避免 节点 之 问 的 消 
息 传递 。 由 于 软件 程序 发 生 了 变化 ， 那 么 MPP 的 效率 随 节点 数量 的 增长 就 可 以 呈 线 性 关 
系 了 。 其 实 , 如果 在 NUMA 架构 下 ,软件 也 可 以 避免 尽量 少 读 取 远 端 内 存 的 话 , 那么 NUMA 
效率 也 会 线性 增长 ,但 是 NUMA 架构 下 的 操作 系统 仍然 是 同一 个 ， 内 存 仍 然 是 全 局 均匀 
的 , 而 程序 架构 又 尽量 保持 不 变 , 那么 就 不 可 避免 的 时 不 时 访问 远 端 内 存 了 。MPP 相当 于 
把 内 存 强制 分 开 , 把 操作 系统 强制 分 开 , 把 程序 架构 也 强制 改变 从 而 保持 海量 计算 下 的 效 
率 线性 增长 。 
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那么 再 说 回 到 存储 系统 。 与 服务 器 CPU 架构 演进 相同 ， 可 以 把 存储 系统 的 控制 器 类 比 为 
CPU， 而 后 端 磁盘 柜 类 比 为 一 条 条 的 内 存 。 一 开始 的 单 控 ， 后 来 的 双 控 互 备份 ( 传统 双 控 
存储 ) ， 一 直到 双 控 并 行 处 理 ( 目前 只 有 HDS 的 AMS2000 存储 系统 为 双 控 并 行 架构 ) ， 
到 这 个 阶段 就 类 似 于 AMP ( 双 控 互 备 ) 和 SMP ( 双 控 并 行 ) 架构 ， 后 来 则 有 多 控 并 行 对 
称 处 理 架构 ，Oracle 的 RAC 集群 也 可 以 视 作 一 种 多 点 SMP， 各 种 共享 底层 存储 的 集群 文 
件 系统 及 基于 这 种 文件 系统 所 构建 的 存储 系统 也 属于 多 点 对 称 SMP。 

同样 ,由 SMP 到 NUMA 的 过 度 也 出 现在 了 存储 系统 中 ， 比 如 EMC 的 V-Max， 相 当 于 多 
个 SMP( 一 对 控制 器 组 成 一 个 Director 等 价 于 一 个 SMP 矩阵 ) 利 用 高 速 交换 矩阵 ( RapidIO ) 
来 共享 访问 每 个 SMP 上 掌管 的 内 存 。 

由 NUMA 到 MPP 的 过 度 一 样 也 出 现在 存储 系统 中 ，IBM 的 XIV 就 属于 松 耦 合 MPP 架构 ， 
多 个 节点 之 间 彻 底 松 看 合 ， 各 自 都 有 各 自 的 CPU/ 内 存 /总 线 /磁盘 /10 接口 ， 使 用 外 部 以 太 网 
交换 机 ， 使 用 TCPIP 协议 互相 通信 。 而 HDS 的 VSP 则 更 像 是 一 个 紧 耦 合 的 MPP， MPP 对 
软件 架构 变化 很 大 ， 所 以 传统 存储 厂商 很 难 将 之 前 的 架构 演变 到 MPP 上 来 。 另 外 一 种 属于 
MPP 架构 的 存储 系统 就 是 各 种 分 布 式 文件 系统 ( 注意 ， 并 非 共享 存储 的 集群 文件 系统 ) 。 
至 于 谁 才 是 真正 的 Scale-Out， 这 个 是 个 无 定论 的 问题 了 。SMP/NUMA/MPP 其 实 都 算 
Scale-Out， 只 不 过 程度 和 形态 都 不 同时 了 。 有 人 说 MPP 才 是 真正 的 Scale-Out， 可 能 是 基 
于 MPP 流行 的 原因 。 但 是 不 能 一 概 而 论 。MPP 架构 的 存储 ,例如 XIV， 由 于 特定 场景 下 ， 
由 于 单 路 IO 就 可 能 导致 整个 MPP 集群 中 的 磁盘 资源 全 部 牵动 ( 每 磁盘 同一 时 刻 只 能 执行 
一 个 I0 ), 在 多 路 大 块 连续 IO 并 发 的 情况 下 , 反而 效率 很 差 ( 比如 多 流 大 块 连续 地 址 IO ); 
而 某 些 特 定 场景 下 ， 多 路 10 之 间 牵 制 很 少 ， 则 表现 出 线性 增长 的 性 能 ( 比如 小 块 高 随机 
IO ) 。 这 也 可 以 类 比 为 将 一 个 程序 并 行 分 解 成 多 个 执行 颗粒 (类比 为 高 随机 IO ) ， 颗 粒 
间 的 关联 性 越 少 , 则 节点 间 通 信 量 就 越 少 , 则 并 行 执行 的 效率 越 高 , 一 个 道理 , 所 以 MPP 
自身 为 Share-Nothing 架构 ， 那 么 运行 在 它 上 面 的 程序 颗粒 之 间 最 好 也 Share-Nothing。 对 
XIV 的 具体 分 析 可 以 参见 后 面 的 一 节 。 

SMP、NUMA 和 MPP 各 有 各 的 好 处 ， 也 各 有 各 的 应 用 场景 。 比 如 SMP 适用 于 扩展 性 要 求 
不 太 高 而 又 不 想 对 程序 改变 太 大 的 场景 , 而 MPP 则 使 用 海量 数据 下 的 高 扩展 性 需求 场景 ， 
需要 对 程序 有 较 大 改变 才能 获得 良好 性 能 。 同样 对 于 存储 也 是 这 样 , 比如 一 旦 决定 用 MPP 
架构 的 存储 , 那么 就 需要 面 对 多 流 大 块 连续 I0 场景 下 性 能 不 佳 以 及 效率 -扩展 曲线 的 线性 
不 佳 这 两 个 事实 。 或 者 你 去 修改 上 层 应 用 , 将 大 块 连续 IO 改 为 高 随机 IO, 而 这 显然 荒唐 。 
并 且 为 了 适应 存储 去 修改 应 用 ， 这 一 般 是 不 可 能 被 接受 的 。 而 MPP 架构 却 被 广泛 用 于 互 
联网 运营 商 的 底层 Key-Value 分 布 式 数据 库 , 其 高 随机 小 块 读 访问 场景 下 能 获得 巨 量 的 性 
能 以 及 线性 的 效率 -扩展 曲线 。 


15.7 集群 NAS 系统 和 集群 文件 系统 


15.7.1 HP 公司 的 Ibrix 集群 NAS 系统 


IBRIX 是 一 家 专 做 集群 文件 系统 的 公司 ,近年 来 被 HP 收购 ,IBRIX 的 集群 文件 系统 称 为 “Fusion”， 
其 架构 中 包含 Fusion Segment Server/Client 和 Fusion Managero 下 面 了 解 一 下 IBRIX 的 架构 。 
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如 图 15-61 所 示 为 IBRIX Fusion 集群 文件 系统 部 署 之 后 的 整体 系统 架构 示意 图 。Fusion 

Segment Server 是 IBRIX 集群 的 

主体 软件 包 , 需 要 将 其 安装 到 集 

群 中 的 每 一 台 PC Server 中 。 集 

群 中 的 所 有 节点 从 后 端的 磁盘 

阵列 中 获取 存储 空间 以 便 存 放 服务 器 

文件 ,这 些 存储 空间 可 以 被 所 有 DE | Ee 

节点 共享 ， 也 可 以 单个 节点 独 本 | 私有 协议 

享 , 集 群 中 的 节点 也 可 以 使 用 本 TT 

地 存储 空间 或 者 DAS 直 连 存储 

的 存储 空间 来 存放 文件 ,推荐 使 1 

用 共享 存储 空间 ,因为 一 旦 某 个 

节点 发 生 故障 ,那么 系统 会 自动 人 

将 共享 的 存储 空间 挂 载 到 正常 ss 人 

节点 之 上 继续 提供 服务 ,客户 端 | 

主机 可 以 使 用 三 种 方式 来 访问 

Fusion 集群 : NFS、CIFS、 Fusion 15-61 IBRIX 整体 拓扑 图 

Client。 集 群 中 的 每 个 节点 都 有 

各 自 的 不 同 的 IP 地 址 ， 客 户 端 只 要 访问 任何 一 个 节点 即 可 访问 到 集群 内 所 有 的 数 所 资源。 集群 

内 的 节点 各 自 有 各 自 所 管理 的 文件 系统 和 Mount Point， 但 是 每 个 节点 都 可 以 向 外 部 Export 所 有 

节点 上 的 Mount Point ( Export 其 他 节点 的 Mount Point 之 前 ， 本 地 节点 中 必须 提前 也 创建 这 个 

Mount Point。 当 然 也 可 以 手动 控制 那些 只 有 Export 自己 管理 的 Mount Point ) ， 客 户 端 如 果 一 旦 

试图 访问 不 受 本 地 管理 的 数据 , 那么 这 个 节点 就 会 从 管理 这 份 数 据 的 那个 节点 将 这 份 数据 对 应 的 

Metadata 拿 过 来 ,然后 通过 Metadata 来 获取 这 份 数据 在 后 端 存储 空间 内 的 位 置 ,比如 哪个 Volume， 

哪个 磁盘 ， 然 后 通过 后 端 存储 网 络 将 数据 读 出 来 再 返回 给 客户 端 。 如 果 使 用 非 共享 存储 ， 则 收 到 

IO 请 求 的 节点 会 通过 前 端 以 太 网 从 保存 对 应 数据 的 节点 把 数据 拿 到 本 地 然后 返回 给 客户 端 。 
客户 端 可 以 采用 NFS 或 者 CIFS 方式 访问 集群 节点 , 也 可 以 安装 一 个 Fusion Client 代理 程序 

从 而 通过 这 个 代理 来 访问 集群 节点 。NES 和 CIFS 方式 下 ， 如 果 某 节点 所 连接 的 客户 端 试 图 访问 

一 个 不 受 本 地 管理 的 目录 或 者 文件 的 话 ,就 会 发 生 上 文 所 述 的 过 程 , 需要 耗费 一 定 的 开销 。 但 是 

如 果 使 用 Fusion Client 代理 来 访问 集群 的 话 ，Fusion Client 会 预先 从 集群 中 将 Metadata 拿 到 客户 

端 缓存 ， 这 个 Metadata 描述 了 哪些 Mount Point 受 哪 些 节点 管理 ， 所 以 ，Fusion Client 会 将 客户 

端 发 出 的 访问 请 求 转发 到 集群 中 实际 管理 被 请 求 数据 的 那个 节点 。 这样, 虽然 客户 端 只 显 式 挂 载 

了 集群 中 一 个 节点 上 的 Mount Point， 但 是 Fusion Client 却 会 在 底层 隐 式 地 将 所 有 请 求 对 号 入 座 

转发 到 对 应 的 节点 ， 这 样 就 避免 了 节点 之 间 互 相 要 求 Metadata 的 开销 ， 系 统 性 能 有 所 提升 。 

如 图 15-62 所 示 为 上 图 中 所 示 的 一 个 Fusion Segment Server 内 部 的 软件 层次 架构 图 oSegment 
Server 首先 包含 了 一 个 Cluster Aware Logical Volume Manager, 即 CLVM。 由 于 集群 中 多 个 节点 可 
以 共享 后 端 存储 ， 所 以 这 里 的 卷 管理 软件 也 要 支持 多 节点 共享 卷 。 其 他 功能 与 普通 LVM 无 异 ， 
LVM 先 将 物理 LUN 组 成 VG, 然后 在 VG 中 最 终 做 成 的 Logical Volume 即 LV, 被 Segment Server 
称 为 一 个 “Segment”， 即 分 段 的 意思 。 每 个 Segment 必须 只 隶属 于 一 个 Segment Server 管理 , 但 
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是 一 个 Segment Server 可 以 管理 多 个 LV， 即 Segment。 当 某 个 节点 故障 之 后 ,正常 的 节点 可 以 直 
接 接管 故障 节点 原先 所 管理 的 Segment， 并 且 接 管 故障 节点 原本 承担 的 所 有 前 端 数据 访问 ( 如 果 
某 个 Segment 存储 空间 为 非 共享 的 , 那么 管理 这 个 Segment 的 节点 故障 后 , 正常 节点 无 法 接管 ) 。 
Segment 之 上 便 是 IBRIX Fusion 文件 系统 ，Fusion FS 对 Segment 进行 格式 化 ， 并 且 将 Segment 
挂 载 到 一 个 Single Name Space 路 径 之 下 , 每 个 节点 的 挂 载 动作 都 会 通知 到 集群 中 所 有 节点 以 避免 
冲突 和 统一 口径 。 集 群 内 的 通信 是 通过 以 太 网 进行 的 ， 后 端 数据 路 径 则 通过 后 端 SAN 交换 机 或 
者 本 地 存储 和 DAS 直 连 存储 ， 后 端的 SAN 可 以 是 FC 方式 也 可 以 是 iSCSI 方式， 本 地 存储 或 者 
DAS 的 话 可 以 是 通过 RAID 卡 挂 JBOD 或 者 本 地 磁盘 等 。 


图 15-62 Segment Server 内 部 架构 图 

在 Segment 上 创建 文件 系统 的 时 候 , 可 以 只 使 用 一 个 Segment 作为 这 个 文件 系统 对 应 的 存储 
空间 。 然 而 ,也 可 以 使 用 多 个 Segment 作为 这 个 文件 系统 的 存储 空间 ， 每 个 Segment 又 可 以 隶属 
于 单一 或 不 同 的 Segment Server 来 管理 , 文件 和 目录 在 多 个 Segment 之 间 的 存放 策略 由 Allocation 
Policy 模块 管理 ， 其 提供 了 多 种 Polic， 比 如 ROUNDROBIN (新 文件 或 者 目录 轮流 地 在 各 个 
Segment 之 间 存 放 ) 、STICKY ( 新 文件 或 者 目录 都 存放 到 某 个 固定 Segment 中 直到 这 个 Segment 
的 剩余 容量 达到 一 定 国 值 )、DIRECTORY( 新 文件 或 者 目录 将 被 存放 在 与 其 父 上 日 录 所 在 Segment 
相同 的 Segment 上 ) 、LOCAL ( 将 新 文件 或 目录 存放 到 接受 客户 端 请 求 的 节点 所 管理 的 Segment 
中 ) 、RANDOM (新 文件 或 者 目录 随机 选择 一 个 Segment 进行 存放 ) 等 。 

这 些 策略 可 以 让 管理 员 充分 调节 以 平衡 系统 的 负载 。 如 果 客 户 端 使 用 Fusion Client 来 访问 集 
和 群 ， 由 于 其 可 以 直接 与 所 有 Segment Server 通信 ， 所 以 这 些 策略 必须 放 到 Client 端 执行 ;如果 客 
户 端 使 用 NFS/CIFS 协议 来 访问 集群 ， 则 由 于 客户 端 只 能 直接 访问 它 所 Mount 的 那个 Segment 
Server， 所 以 Policy 必须 在 所 有 Segment Server 上 执行 。Segment 有 三 种 类 型 ， 第 一 种 是 只 可 以 存 
放 目 录 的 ， 第 二 种 是 文件 目录 都 可 以 存放 的 ( Mixed ) ， 第 三 种 是 只 可 以 存放 文件 的 ， 除 非 有 特 
殊 用 途 ， 黑 认 情况 下 皆 使 用 Mixed 模式 。 

Segment 的 Owner 可 以 动态 地 从 一 个 Segment Server 迁移 到 另 一 个 , 迁移 过 程 对 前 端 访问 没 
有 影响 。 由 于 集群 底层 使 用 了 CLVM, 在 一 个 节点 上 创建 的 Segment， 在 其 他 节点 上 都 会 同步 显 
示 。 在 选择 一 个 或 者 几 个 Segment 建立 文件 系统 的 时 候 ， 可 以 指定 用 何 种 Policy 以 及 将 哪个 
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Segment 分 配给 哪个 节点 。Segment 的 大 小 可 以 不 同 。 如 果 使 用 多 个 Segment 来 作为 某 文件 系统 
的 存储 空间 ， 那 么 在 创建 文件 系统 的 时 候 可 以 指定 其 中 哪个 为 Root Segment， 谁 管理 Root 
Segment， 谁 就 是 掌控 这 个 文件 系统 Mount/Unmount 的 首席 执行 者 。 

文件 系统 被 创建 之 后 ， 需 要 在 Segment Server 上 创建 Mount Point。 可 以 只 在 一 个 或 多 个 或 
者 全 部 节点 上 创建 菜 Mount Point。 创 建 Mount Point 其 实 就 是 在 系统 虚拟 目录 下 创建 一 个 新 路 
径 ， 创 建 命令 只 需要 在 一 个 节点 上 执行 ， 指 定 所 有 需要 创建 Mount Point 的 节点 ， 即 可 将 同时 在 
对 应 节点 上 创建 。Mount Point 被 创建 之 后 ， 就 需要 
将 先前 创建 好 的 文件 系统 挂 载 到 Mount Point 中 ,可 
以 选择 只 在 一 个 或 者 多 个 或 者 全 部 节点 上 挂 载 某 个 文 
件 系 统 到 某 个 Mount Point; 同样 , 命令 也 只 需要 在 一 
个 节点 上 执行 ， 但 是 这 个 节点 必须 是 管理 Root 
Segment 的 节点 。 文 件 系统 可 以 通过 向 其 中 加 入 新 
Segment 的 方式 进行 空间 扩展 。 如 图 15-63 所 示 为 一 
个 名 为 TEST-FS 的 文件 系统 的 底层 存储 空间 由 4 个 
Segment 组 成 ， 第 一 个 Segment 为 Root Segment， 这 图 15-63 挂 载 点 之 下 的 Segment 
个 文件 系统 被 挂 载 到 了 路 径 /cluster/datal 之 下 。 

挂 载 了 文件 系统 之 后 ,如 果 需 要 访问 对 应 数据 的 应 用 程序 与 Segment Server 处 于 同一 操作 系 
统 内 ， 那 么 就 可 以 直接 读 写 了 。 然 而 ，Fusion 集群 还 可 以 将 这 个 Mount Point 以 NFS 或 者 CIFS 
的 方式 Export 出 去 ， 可 以 选择 在 一 台 、 多 台 或 者 全 部 节点 上 Export， 当 然 ， 这 些 节点 必须 已 经 
Mount 了 对 应 的 文件 系统 。 

Export 之 后 ,客户 端 就 可 以 通过 NFS 或 者 CIFS 协议 来 访问 对 应 的 目录 了 。 也 可 以 使 用 Fusion 
Client 来 访问 。Fusion Client 并 不 直接 访问 集群 ， 而 也 是 通过 下 层 的 NFS Client 或 者 CIFS Client 
来 访问 集群 。Fusion Client 只 不 过 在 NFS Client 和 CIFS Client 之 上 再 增加 一 层 控制 逻辑 以 便 执行 
更 多 功能 比如 File Allocation 等 。 

Fusion Manager 是 运行 在 一 个 单独 PC 上 的 组 件 ， 通 过 前 端 以 太 网 来 与 集群 所 有 节点 通信 ， 
可 以 用 来 管理 和 监控 整个 集群 , 但 是 集群 数据 IO 的 过 程 并 不 经 过 Fusion Manager。 创建 VG、LV、 
FS ,Mount Point 等 任务 可 以 在 Fusion Manager 中 进行 ,Fusion Client 的 Mount Point 信息 、Mounted 
Filesystem 信息 都 需要 从 Fusion Manager 中 获取 ， 所 以 对 于 Fusion Clietn 来 讲 ，Fusion Manger 是 
必需 的 。 

IBRIX 已 经 与 Mellanox 公司 进行 了 合作 ， 推 出 了 可 以 使 用 Infiniband 网 络 来 传输 NFS 协议 
的 集群 系统 ， 其 后 端 使 用 Fusion FS， 前端 使 用 NFS Gateway，Gateway 使 用 Mellanox 公司 提供 的 
NFS/RDMA SDK 以 实现 NFS over Infiniband。 实 测 结果 令 人 兴奋 ， 单 个 Gateway 的 吞吐 量 就 可 
以 达到 读 1400MB/s 和 写 400MB/s。 通 过 增加 更 多 的 Gateway， 整 体系 统 性 能 会 线性 增长 。 


说 明 : 至 此 , 第 10 章 的 最 终 幻想 也 被 实现 ， 只 有 想不到 ， 没 有 做 不 到 ， 这 就 是 科技 。 


/cluster/data1 


15.7.2 Panasas 和 PNFS 


Panasas 公司 是 一 家 生产 高 性 能 集群 NAS 存储 系统 的 厂商 。 其 生产 的 ActiveStor 集群 存储 系 
统 由 于 使 用 了 刀片 设计 ， 密 度 非常 高 ， 在 一 个 机 箱 中 可 以 插 满 11 个 刀片 ， 其 中 每 个 刀片 包含 一 
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块 1TB 的 SATA 硬盘 和 一 块 32GB 的 SSD 硬盘 以 存放 Metadata， 加 速 Metadata 的 存 取 。 每 个 刀 
片 最 大 4GB 的 内 存 ， 这 样 每 个 机 箱 就 可 以 包含 10TB 的 数据 存储 空间 、320GB 的 Metadata 存储 
空间 以 及 40GB 的 内 存 空 间 。 最 大 10 个 机 箱 可 以 共同 加 入 集群 。 如 图 15-64 所 示 为 ActiveStor 
存储 系统 示意 图 。 


Storage Server 

Clients ee One Server per 2 Disk 
= Drives for Fast 

Linux Cluster/ File Storage froguction & Rebulld 


NFSICIFS ~ UNIX NT 本 


Metadata Director 
custer 轿 | 


Solid State Disk Drive 
Metadata Acceleration and 
Small User Data Files 


Single Virtual 
Namespace 


Storage Cluster 


图 15-64 ActiveStor 示意 图 

Panasas 将 自己 的 集群 文件 系统 称 为 PanFS。 与 [BRIX 所 不 同 的 是 , PanFS 集群 中 不 是 每 个 节 
点 都 可 以 提供 NFS 或 者 CIFS 服务 端 功能 的 , 每 个 机 箱 中 只 有 几 个 特殊 的 刀片 ( 节点 ) 可 以 提供 
Mount Point 和 Share Directory， 客 户 端 只 能 与 这 些 节 点 通信 才能 够 挂 载 相关 目录 。 只 有 这 些 节 点 
上 维护 着 整个 集群 的 文件 目录 映射 信息 , 所 以 这 些 节点 又 被 称 为 Metadata Server, 即 MDS。 整 个 
集群 内 的 所 有 MDS 形成 一 个 小 集群 , 专门 负责 提供 客户 端 访问 入 口 和 维护 集群 内 所 有 Metadata， 
以 及 锁 管理 。 

与 [BRIX 相同 ，PanFS 也 向 外 提供 了 三 种 访问 方式 : NFS、CIFS、DirectFlow。 像 IBRIX 一 
样 ， 前 两 种 访问 方式 下 ， 客 户 端 并 不 能 并 行 的 直接 访问 集群 内 其 他 节点 ， 数 据 只 能 够 从 MDS 获 
得 , 对 于 不 在 MDS 上 存储 的 数据 , MDS 会 先 向 数据 所 被 存储 的 节点 请 求 这 份 数 据 然后 青 将 其 发 
送 给 客户 端 。 而 DirectFlow 方式 就 类 似 于 IBRIX 中 的 Fusion Client。 其 实 ，DirectFlow 其 本 质 是 
基于 Object Storage 的 pNFS ( Parallel NFS， 即 NFS 4.1 ) ，pNFS 是 一 个 IETF 的 标准 协议 。pNFS 
的 架构 其 本 质 与 Fusion Client 的 实现 方式 相同 ， 即 客户 端 首先 从 MDS 上 获取 需要 访问 的 目标 文 
件 分 块 所 被 存储 的 所 有 节点 的 信息 ， 包 括 地 址 、 分 块 信息 等 ， 然 后 客户 端 根据 得 到 的 映射 信息 ， 
并 行 的 向 分 块 所 被 存储 的 所 有 节点 发 起 数据 请 求 将 数据 取 回 。 

提示 :PanFS 另 一 个 最 大 的 特点 是 使 用 对 象 存储 方式 。 关 于 对 象 存储 我 们 在 下 面 章节 会 有 介 

绍 。 另 一 个 集群 文件 系统 Lustre 的 架构 与 PanFS 基本 上 类 似 ， 这 里 就 不 做 过 多 介绍 了 。 


15.7.3 此 “文件 系统 ” 非 彼 “文件 系统 " 


传统 意义 上 的 文件 系统 ， 比 如 FAT16/32、NTFS、EXT2/3、JFS1/2 等 ， 都 是 实 实在 在 的 文 
件 系统 ， 也 就 是 说 ,它们 是 真正 管理 着 某 个 文件 和 底层 存储 卷 上 某 个 Sector 或 者 Block 的 对 应 关 
系 的 。 而 所 谓 “ 网 络 文件 系统 ”， 它 们 根本 不 管理 文件 与 扇 区 的 对 应 ， 所 以 称 NFS/CIFS 等 为 一 
个 文件 系统 ,从 某 种 角度 来 讲 有 一 点 歧义 ,更 准确 地 可 以 称 NFS/CIFS 等 为 “网 络 文件 访问 系统 ”， 
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而 NTES 等 传统 文件 系统 可 以 更 准确 地 称 为 “文件 管理 系统 ”。 

同样 ， 对 于 集群 并 行 分 布 式 文件 系统 或 者 San 文件 系统 来 讲 ， 在 Unix 平台 下 它们 底层 有 些 
则 直接 使 用 Ext3 文件 管理 系统 来 管理 文件 , 而 Windows 平台 则 使 用 NTFS。 有 些 厂 商 则 对 EXT3 
进行 了 些许 修改 之 后 来 使 用 ， 比 如 
Lustre; 有 些 则 选择 全 部 重 写 一 套 自己 
的 FS， 比 如 Sotrnext。 

在 底层 文件 管理 系统 之 上 ,增加 一 
层 集群 分 布 式 文件 映射 管理 系统 , 外 围 
再 包 庄 上 一 层 NEFS/CIFES 网 络 文件 访问 
系统 , 便 成 了 一 个 分 布 式 集群 并 行文 件 
系统 了 。 

如 图 15-65 所 示 为 集群 文件 系统 
与 操作 系统 文件 系统 生态 图 。 


15.7.4 什么 是 Single Name Space 


Single Name Space 被 翻译 为 “统一 命名 空间 ”。 在 理解 这 个 名 词 之 前 ,首先 要 理解 文件 系统 
对 外 提供 的 访问 方式 。 我 们 都 知道 文件 系统 在 底层 管理 着 上 层 文 件 对 应 底层 存储 卷 或 者 磁盘 上 的 
扇 区 的 情况 。 在 上 层 , 文件 系统 将 文件 放 到 某 个 目录 中 , 然后 目录 还 可 以 在 目录 中 。 当 我 们 需要 
访问 某 个 文件 的 时 候 , 必须 首先 知道 这 个 文件 在 哪个 目录 中 ,比如 Windows 下 的 “D:\data\file.exe” 
就 是 一 个 文件 的 路 径 ， 它 表示 D 分 区 下 的 Data 目录 下 的 file.exe 文件 。 又 例如 Unix 系统 下 的 
“/user/someone/file.exe”。 为 何 Unix 不 像 Windows 有 C 盘 、D 盘 之 类 的 盘 符 呢 ? 这 个 问题 完全 
取决 于 设计 方式 。Windows 默认 就 是 以 各 个 分 区 为 总 入 口 ， 然 后 在 入 口 下 建立 一 级 一 级 的 目录 。 
而 Unix 的 文件 系统 则 是 以 全 局 为 入 口 ， 各 个 分 区 都 被 “ 挂 载 ”到 某 个 目录 下 。 比 如 ， 可 以 将 分 
区 sda2 挂 载 到 “/home/mnt” 下 ， 那 么 我 们 如 果 要 访问 分 区 sda2 中 的 数据 ， 就 需要 进入 
“/home/mnt”，, 就 相当 于 进入 了 sda2 分 区 文件 系统 的 根 入 口 。 当 然 ， 如 果 用 户 习惯 用 Windows， 
想 让 Unix 文件 访问 方式 与 Windows 类 似 ， 那 么 可 以 将 分 区 sdal 挂 载 到 “/sdal”， 分 区 sda2 挂 
载 到 “/sda2”， 依 此 类 推 。 其 实在 Windows 上 也 可 以 将 分 区 挂 载 到 某 个 其 他 目录 下 。 这 种 目录 
叫做 虚拟 目录 , 或 者 Virtual Directory, 即 目录 中 存放 的 并 不 是 原本 隶属 于 这 个 目录 下 的 文件 或 目 
录 , 而 是 另外 一 个 存储 空间 的 目录 树 。 虚 拟 目录 更 应 该 理解 为 一 个 路 径 ， 这 种 意义 上 的 路 径 与 目 
录 和 文件 本 身 没有 直接 关联 了 , 路 径 的 唯一 意义 就 是 提供 一 个 标记 ， 就 像 路 牌 一 样 ， 路 牌 上 对 应 
的 路 名 并 不 等 于 那 条 路 本 身 。 

在 一 个 多 点 集群 环境 中 , 每 个 节点 都 有 各 自 的 虚拟 目录 , 或 者 说 路 径 。 然 而 , 集群 之 所 以 称 
为 集群 ,是 因为 这 个 集群 对 外 应 当 表现 为 一 个 整体 ,内 部 不 存在 冲突 或 者 重复 的 事物 。 比 如 这 个 
集群 对 外 用 NFS Export 的 某 个 路 径 “/cluster/datal1”， 客 户 端 不 管 向 集群 中 的 哪个 节点 发 起 请 求 
使 用 NES 来 Mount 这 个 Export 之 后 ,所 看 到 的 数据 内 容 都 应 当 是 相同 的 。 这 就 要 求 集群 内 部 不 
会 在 多 个 节点 上 共同 存在 多 份 独 立 的 “/cluster/data1”。 比 如 ， 集 群 中 的 某 个 节点 A 将 自己 所 管 
理 的 某 个 分 区 sdal 挂 载 到 了 “/cluster/data1” 路 径 下 面 ， 而 这 个 路 径 是 将 要 被 NFS Export 出 去 供 
客户 端 访 问 的 ， 那 么 这 个 节点 就 应 当 同 时 通知 其 他 所 有 节点 都 生成 这 条 Mount Point， 只 不 过 其 
他 节点 会 感知 到 这 个 路 径 对 应 的 实际 存储 空间 并 不 位 于 本 地 所 管理 的 存储 空间 ， 而 位 于 节点 A 


图 15-65 底层 文件 系统 与 上 层 集群 文件 系统 的 关系 
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上 。 那么 一 旦 非 A 的 其 他 节点 接收 到 针对 这 个 路 径 的 访问 请 求 ， 就 需要 将 请 求 发 送 到 A 节点 执 
行 然后 取 回 结果 并 返回 给 客户 端 ( 节点 后 端 不 共享 存储 ) , 或 者 向 节点 A 发 起 请 求 将 这 个 路 径 对 
应 的 实体 数据 空间 的 映射 信息 传送 过 来 ， 然 后 自己 从 后 端 存 储 空间 中 读 取 数据 并 返回 给 客户 端 
( 节点 共享 后 端 存 储 ) 。 已 经 被 某 节点 使 用 的 路 径 ， 不 能 再 在 其 他 节点 上 再 次 挂 载 ， 因 为 会 引起 
冲突 ， 但 是 其 他 节 站 自己 所 管理 的 存储 空间 挂 载 到 “/cluster/datal ”的 下 一 级 路 径 比如 
“/cluster/datal/othernode” 中 ， 这 样 是 不 冲突 的 。 

在 一 个 非 集群 环境 中 ， 如 果 有 两 个 NAS Server 端 ， 同 时 存在 两 个 名 称 相同 的 路 径 比 如 
“/cluster/data1”， 而 且 都 使 用 NFS Export 出 去 了 ， 此 时 客户 端 挂 载 的 就 是 两 份 完全 不 同 的 独立 
存储 空间 了 。 集 群 中 所 有 节点 上 的 供 客户 端 挂 载 的 路 径 不 重复 并 且 所 有 节点 统一 协作 , 统一 口径 ， 
对 外 表现 一 台 单一 的 NAS Server， 这 就 是 所 谓 “Single Name Space”。 


15.7.5 Single Filesystem Image 与 Single Path Image 


前 面 提 到 过 Single Name Space, 也 就 是 所 谓 的 全 局 统一 命名 空间 。 这 个 词 的 反义词 就 是 非 全 
局 多 命名 空间 , 也 就 是 说 有 多 个 独立 的 文件 系统 空间 。 这 两 个 词 都 是 用 于 集群 文件 系统 环境 中 的 。 

实现 单一 命名 空间 有 两 种 方式 。 第 一 种 是 将 分 布 到 多 个 节点 上 面 的 多 个 独立 文件 系统 进行 松 
绑 定 比如 将 a 节 点 上 的 /B/a 以 及 b 节点 上 的 人/b 绑 定 成 同一 个 /下 面 的 两 个 目录 :/B/a 和 /B/b， 
客户 端 访问 集群 中 的 任何 一 个 节点 ， 比 如 访问 a 节点 ， 那 么 客户 端 所 看 到 的 目录 就 是 /f/a 或 者 
/f/b,， 在 未 实现 单一 命名 空间 之 前 ,客户 端 通过 a 节点 只 能 看 到 /f/a 而 看 不 到 /f/b。 或 者 也 可 以 
这 样 搞 : 两 个 集群 节点 各 自 管理 自己 的 文件 系统 空间 , 用 一 个 虚拟 化 模块 将 这 两 个 实际 的 文件 系 
统 空间 虚拟 成 一 个 大 空间 , 比如 原来 是 /a 和 /b, 而 虚拟 化 之 后 , 这 两 个 目录 共同 融合 成 了 一 个 /a， 
/b 下面 的 子 目 录 和 文件 现在 都 融合 到 了 /a 下面。 或 者 /a 和 /b 下 的 数据 都 被 虚拟 到 了 一 个 虚拟 目 
录 /c 下 面 。 通 过 这 样 的 简单 松 耘 合 方式 来 实现 将 多 个 独立 文件 系统 空间 虚拟 化 融合 成 一 个 大 典 套 
空间 的 做 法 ， 就 属于 Multiple Filesystem Image， 因 为 这 种 整合 方式 并 没有 影响 到 各 个 节点 上 的 本 
地 文件 系统 ,只 是 在 其 上 层 做 了 一 层 覆 盖 虚 拟 化 ,只 是 将 目录 路 径 进行 了 霸 套 虚拟 ， 这 就 必然 导 
致 其 颗粒 度 将 会 非常 大 ， 比 如 某 个 文件 或 者 某 个 目录 的 内 容 只 能 被 存放 在 集群 中 的 一 个 节点 上 。 
当 客 户 端 通过 a 挂 载 /f 目录 却 发 起 了 对 /f&/b 下 某 文 件 的 访问 ， 那 么 此 时 a 节点 会 将 这 个 请 求 通 
过 集群 间 内 部 互联 网 络 发 送 给 b 节点 ，b 节点 处 理 之 后 将 结果 返回 给 a， 然 后 a 再 将 结果 封装 返 
回 给 客户 端 。 所 以 说 ， Mnultiple Filesystem Image 更 准确 的 应 该 被 称 为 Single Path Image， 即 单一 路 
径 影像 。 

相对 于 Single Path Image，Single Filesystem Image 则 是 直接 在 每 个 节点 的 文件 系统 中 作 彻底 
的 架构 改变 。 当 然 ， 这 里 所 谓 “ 彻 底 ”只 是 相对 的 ， 很 多 Single Filesystem Image 实现 方式 其 实 还 
是 在 诸如 EXT3 这 样 的 本 地 文件 系统 之 上 增加 一 层 虚 拟 化 逻辑 , 只 不 过 这 层 逻 辑 与 本 地 文件 系统 
以 及 其 他 节点 之 间 结 合 得 更 加 紧密 了 ， 颗 粒度 大 大 降低 ， 属 于 一 种 紧 耦 合 方式 了 。 比 如 某 个 文件 
里 然 在 客户 端 看 来 是 存放 在 /f&/a 下 面 , 但 是 底层 可 能 是 这 个 文件 的 前 半 部 分 被 放 在 a 节点 , 而 后 
半 部 分 则 被 存放 在 b 节点 中 。 在 Single Filesystem Image 中 , 集群 中 的 所 有 节点 都 可 以 看 到 整个 集 
群 中 的 这 个 大 的 虚拟 的 文件 系统 , 并 且 知 道具 体 哪个 目录 或 者 哪个 文件 的 哪个 部 分 存放 在 集群 中 
的 哪个 节点 ， 多 个 节点 相当 于 被 同一 个 文件 系统 所 管理 的 多 个 “磁盘 ”。 而 Single Path Image 模 
式 下 的 集群 , 每 个 节点 只 能 看 到 和 管理 它 本 地 所 存储 的 文件 ， I 点 上 的 文件 ,更 准确 地 
说 应 该 是 路 径 ， 是 靠 一 个 松 耦 合 的 虚拟 化 层 简单 的 做 套 来 实现 | 
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松 耦 合 可 以 容易 地 实现 更 多 节点 的 扩充 , 紧 耦 合 就 不 是 那么 好 扩展 了 , 紧 耦 合 需要 维护 的 状 
态 、 元 数据 等 信息 量 都 显著 提升 ， 随 着 集群 中 的 节点 数量 增加 ,维护 和 传输 这 些 元 数据 以 及 状态 
就 需要 更 多 的 计算 资源 以 及 网 络 资源 。 在 实现 难度 上 ，Single Path Image 基本 上 没有 太 大 难度 ， 
而 Single Filesystem Image 则 实现 难度 很 大 。 

SPI 其实 就 是 多 个 独立 文件 系统 的 松 耦 合 ， 如 果 客 户 端 程序 从 节点 a 进入 ， 而 访问 的 文件 却 
位 于 节点 b, 那么 此 时 a 会 将 收 到 的 IO 请 求 直 接 通 过 内 部 网 络 通路 转发 给 b, 同 理 , 其 他 节点 所 
收 到 的 针对 b 节点 中 文件 的 访问 都 会 被 直接 转发 给 b， 这 样 就 相当 于 b 这 个 独立 文件 系统 像 传统 
方式 一 样 接受 外 部 的 IO。 而 在 SFI 模式 下 ， 接 收 到 客户 端 IO 请 求 的 节点 需要 将 对 应 的 IO 进行 
和 解析， 获得 这 个 IO 对 应 的 数据 到 底 落 在 哪个 或 者 哪些 节点 上 ， 然 后 将 IO 拆 分 后 分 别传 送 到 对 
应 的 集群 节点 中 进行 读 取 或 者 写 入 。 


15.7.6 ”集群 中 的 分 布 式 锁 机 制 


在 单个 节点 的 单一 操作 系统 内 ， 存 在 多 个 应 用 程序 进程 ， 如 果 某 时 刻 ， 应 用 程序 A 试图 访 
问 一 个 记录 文件 FE，F 中 包含 有 地 址 簿 和 电话 信息 ，A 将 其 打开 之 后 ， 又 有 一 个 应 用 程序 B 也 将 
F 打 开 ， 此 时 , F 同 时 存在 于 A 和 B 的 Buffer 内。 之 后 ,A 将 F 中 的 对 应 某 和 人 的 电话 号 码 做 了 更 
改 , 并 且 将 更 改写 入 了 F。 而 此 时 B 的 Buffer 中 的 F 的 内 容 依然 是 A 做 更 改 之 前 的 , 此 时 B 将 F 
中 对 应 这 个 人 的 电话 号 码 改 成 了 与 A 之 前 改 的 所 不 同 的 值 , 并且 保存 到 了 F 中 , 那么 , F 的 内 容 
就 会 变 为 B 所 更 改 的 ，A 做 的 更 改 将 丢失 。 在 Windows 系统 下 ，MS Office 在 打开 文件 时 是 对 整 
个 文件 加 锁 的 ,而 记事 本 是 不 加 锁 的 。 大 家 可 以 做 个 实验 , 打开 两 个 记事 本 程序 ， 打开 同一 个 文 
件 各 自 编辑 ， 谁 最 后 一 个 保存 退出 ， 谁 做 的 编辑 就 被 保存 到 了 文件 中 。 我 们 也 可 以 使 用 CIFS 协 
议 来 分 别 打开 一 个 文本 文件 和 一 个 Word 文 件 , 如 图 15-66 所 示 , 在 数据 包 中 , 上 面 为 打开 TXT 
文档 时 程序 的 行为 ,可 以 看 到 程序 并 没有 对 文件 加 任何 锁 ， 甚 至 允许 删除 ( 在 本 地 也 是 同样 的 行 
为 , 已 经 打开 的 TXT 文件 可 以 被 其 他 程序 删除 ) 。 下 面 为 用 MS Word 程序 打开 Word 文档 时 的 
数据 包 ， 可 以 看 到 程序 只 允许 其 他 程序 读 取 此 文件 。 


日 Share Access: 0X00000007 SHARE_DELETE SHARE_WRITE SHARE_READ 
四 5 。 .…,。 1.. = Delete: Object can be shared for DELETE 
.1. = Write: Object can be shared for WRITE 
i = Read: Object can be shared for READ 


日 Share Access: 0X00000001 SHARE_READ 


。 = Delete: Object can NOT be shared for delete 
. = Write: Object can NOT be shared for write 
1 = Read: Object can be shared for READ 


图 15-66 Word 文件 与 TXT 文 件 的 加 锁 情 况 

这 显然 是 一 个 很 大 的 问题 。 所 以 , 所 有 文件 系统 都 会 提供 一 种 API， 让 一 个 程序 在 打开 一 个 
文件 的 时 候 ， 顺 便 给 这 个 文件 上 锁 ， 其 他 程序 不 可 以 打开 或 者 只 能 以 只 读 方式 打开 这 个 文件 , 只 
有 当 加 锁 的 程序 退出 之 后 , 或 者 将 锁 释 放 了 之 后 ， 其 他 程序 才 可 以 修改 这 个 文件 。 即 , 一 旦 遇 到 
多 个 程序 需要 修改 同一 个 文件 , 那么 这 些 程序 只 能 排队 一 个 一 个 的 来 , 如 果 某 个 程序 给 文件 加 了 
锁 ， 但 是 却 迟 迟 不 作为 ， 比 如 操作 员 离开 ， 而 其 他 操作 员 终 端 就 只 能 等 待 ,那么 时 间 就 被 白白 的 
浪费 了 。 上 图 中 所 示 的 Share Mode 只 是 Windows 下 提供 给 程序 的 一 个 简易 粗 粒 度 锁 API， 以 整 
个 文件 为 单位 设 定 共 享 模式 ，Windows 还 提供 了 Lockfile Extend 高 级 锁 API ( 见 下 文 ) 。 

不 锁 不 是 ， 锁 也 不 是 ， 那 么 有 没有 两 全 其 美的 解决 办 法 呢 ? 当然 有 。 
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1. 字 节 锁 ( Byte Range Lock ) 


应 用 程序 可 以 不 要 求 加 锁 整个 文件 , 而 是 只 加 锁 文 件 中 的 某 段 或 者 某 几 段 字 节 , 这 些 字 节 是 
这 个 程序 当前 读 入 并 且 打算 更 改 的 。 而 其 他 程序 如 果 访 问 这 个 文件 的 字 节 偏 移 不 处 于 被 加 锁 的 范 
围 内 ， 则 多 个 程序 就 可 以 并 行 地 读 写 这 个 文件 的 不 同 部 分 ， 互 不 影响 。 这 样 ， 锁 的 粒度 就 被 极 大 
的 降低 了 ， 对 应 地 可 以 并 行 读 写 同一 个 文件 的 程序 也 就 可 以 并 行 执行 了 ， 提 高 了 系统 性 能 。 


2. 并 行 冲突 访问 锁 仲裁 


在 Byte Range Lock 的 基础 上 ， 如 果 有 多 个 应 用 程序 同时 访问 一 段 字 节 ， 或 者 访问 的 字 节 段 
有 交集 , 那么 一 次 只 能 够 由 一 个 应 用 程序 掌握 对 这 段 交 集 的 更 改 权 , 其 他 应 用 程序 可 以 处 于 只 读 

应 用 程序 一 般 不 会 被 设计 为 多 个 进程 同时 写 同一 文件 的 同一 段 字 节 ， 如 果真 的 需要 这 种 应 用 场 
景 ， 那 么 必须 加 锁 一 更 改 一 释放 ， 之 后 由 其 他 程序 再 加 锁 一 更 改 一 释放 ， 这 样 才 可 以 保证 一 致 性 。 


3. 集群 中 的 分 布 式 锁 


同样 , 一 个 集群 就 相当 于 一 台大 的 虚拟 的 独立 系统 , 集群 外 的 多 个 客户 端 就 相当 于 多 个 应 用 
程序 , 它们 共同 并 行 地 访问 集群 中 的 资源 , 如果 它 们 也 需要 同时 并 行 访问 一 个 文件 或 者 一 个 文件 
的 各 个 字 节 段 , 那么 同样 也 需要 锁 机 制 。 如 果 要 保证 一 致 性 ， 那么 程序 在 打开 文件 的 时 候 必须 显 
式 地 对 对 应 字 节 段 加 对 应 权限 的 锁 。 然 而 ,由 于 集群 毕竟 是 由 多 个 节点 而 组 成 ,那么 维护 所 有 的 
锁 这 件 工作 需要 由 哪个 节点 负责 呢 ? 一 般 有 两 种 实现 方式 , 第 一 种 是 在 集群 所 有 节点 中 选择 一 个 
节点 专门 负责 锁 的 维护 ; 第 二 种 是 所 有 的 节点 共同 维护 锁 ， 锁 信息 在 所 有 节点 上 同步 。 前 者 称 为 
集中 式 锁 管理 ， 用 于 非 对 称 式 集群 ; 后 者 则 称 为 分 布 式 锁 管理 ， 用 于 对 称 式 集群 。 


4. 元 数据 锁 与 实际 数据 锁 


在 一 个 共享 存储 型 的 对 称 式 集群 ( 见 下 文 ) 中 , 所 有 节点 均 可 以 掌管 文件 系统 元 数据 , 所 有 
节点 中 的 元 数据 信息 是 完全 同步 的 , 一 个 节点 的 元 数据 变化 均 要 通知 到 其 他 节点 。 当 某 个 节点 需 
要 为 某 个 文件 分 配 物理 存储 空间 的 时 候 , 会 锁 住 相关 受 影 响 的 元 数据 , 比如 空余 空间 位 图 。 为 何 
要 锁 住 ? 因为 此 时 只 有 这 个 节点 知道 具体 要 分 配 哪些 空余 块 给 这 个 文件 ,如 果 不 锁 住 位 图 , 其 他 
节点 如 果 也 在 分 配 空余 块 给 其 他 文件 , 那么 这 两 个 节点 所 分 配 的 空余 块 就 有 可 能 冲突 , 导致 文件 
数据 被 错误 覆盖 ， 后 果 严 重 。 所 以 这 个 节点 需要 利用 分 布 式 锁 机 人 制 来 通知 其 他 所 有 节点 ， 此 时 由 
它 来 操控 位 图 , 分 配 完成 之 后 , 将 元 数据 的 变化 通告 给 所 有 其 他 节点 ,其 他 节点 同步 更 新 自己 的 
元 数据 缓存 。 元 数据 锁 的 重要 性 就 体现 在 这 里 。 而 实际 数据 的 锁 一 般 是 由 应 用 自己 来 申请 的 , 集 
群 各 个 节点 不 会 自己 去 锁定 用 户 实际 文件 的 某 段 字 节 。 元 数据 锁 是 集群 为 了 保证 自身 一 致 性 而 必 
须要 有 的 ,用户 是 见 不 到 也 调用 不 到 这 种 锁 的 。 而 实际 数据 锁 是 文件 操作 语义 层面 的 。 元 数据 锁 
与 实际 数据 锁 要 分 清 。 


15.7.7 ”集群 文件 系统 的 缓存 一 致 性 
集群 文件 系统 一 般 都 会 有 读 缓存 , 即 在 集群 中 的 每 个 节点 上 都 会 维护 一 个 读 缓存 , 一 旦 某 个 
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客户 端 应 用 程序 更 改 了 某 个 节点 上 存储 的 内 容 , 而 这 段 内 容 恰 好 又 与 其 他 节点 缓存 中 的 缓存 数据 
有 交集 ,那么 有 交集 节点 的 缓存 中 对 应 的 数据 就 会 被 作废 ,不 再 缓存 , 或 者 读 入 最 新 数据 继续 组 
存 。 利 用 这 种 “ 写 即 作废 ” ( Invalidate on Write ) 机 制 来 保证 全 局 缓存 一 致 性 。 

对 于 共享 存储 方式 的 集群 , 写 入 数据 的 时 候 最 好 刷 盘 , 这 样 其 他 节点 就 可 以 通过 读 磁盘 来 看 
到 这 些 最 新 的 数据 。 相 当 于 公用 物品 , 用 完 之 后 要 放 回 原 处 别人 才 可 以 继续 用 ， 而 不 能 先 暂 存在 
你 这 里 。 某 些 复杂 的 系统 也 可 以 使 用 写 缓存 , 对 于 缓存 的 脏 数 据 会 通知 到 集群 中 所 有 其 他 节点 作 
废 对 应 的 缓存 , 同时 其 他 节点 针对 这 段 数 据 的 操作 都 与 缓存 脏 数据 的 节点 联系 而 获取 这 段 数据 而 
不 是 从 磁盘 读 入 , 其 他 节点 如 果 需 要 更 改 这 段 数据 , 则 作废 之 前 的 其 他 节点 上 对 应 的 这 段 脏 数据 ， 
写 一 次 即 可 。 

而 对 于 非 共 享 存储 的 集群 , 写 入 的 数据 可 以 缓存 在 本 节点 中 而 无 须 考虑 缓存 一 致 性 问题 , 因 
为 所 有 其 他 节点 谁 想 访问 这 份 数据 的 话 就 必须 从 这 拿 ， 所 以 不 存在 不 一 致 性 问题 。 

对 于 共享 存储 型 集群 , 由 于 底层 卷 是 所 有 节点 共享 的 , 所 以 除了 元 数据 之 外 其 他 实际 数据 最 
好 都 不 要 缓存 ， 以 便 将 数据 实时 地 体现 在 底层 共享 卷 中 ， 谁 用 谁 拿 。 写 缓存 最 好 关闭 ,但 是 也 可 
以 有 , 一 旦 写 缓存 被 打开 , 那么 系统 需要 花费 额外 的 沟通 成 本 来 保证 缓存 一 致 性 了 。 读 缓存 一 般 
都 是 有 的 。 对 于 非 共 享 存储 的 集群 ， 读 写 缓存 都 有 。 

如 果 某 集群 文件 系统 是 作为 一 个 外 服务 的 存储 集群 而 存在 的 ， 那 么 写 缓存 最 好 一 律 关闭 ， 因 
为 集群 节点 中 并 没有 类 似 SAN 磁盘 阵列 一 样 的 电池 保护 机 制 , 一 旦 掉 电 , 缓存 中 的 脏 数据 将 丢失 。 


15.7.8 ”集群 NAS 的 本 质 


集群 NAS， 说 白 了 ， 就 是 一 网 络 文件 系统 RAID 0 (或 者 RAID 10 ) 。 如 果 建 立 几 个 独立 的 
NAS Server， 客 户主 机 分 别 Mount 这 些 Server， 然 后 将 不 同 的 数据 手动 分 类 存放 在 不 同 Server 的 
目录 内 ， 这 样 也 可 以 做 到 一 定 的 负载 均衡 能 力 ， 其 本 质 与 集群 NAS 要 解决 的 问题 相同 ， 只 不 过 
在 其 他 方面 不 如 集群 NAS 系统 灵活 。 统 一 集群 NAS 相对 于 手动 Mount 多 个 NFS Server 所 带 来 
的 好 处 如 下 。 

(1 ) 能 做 到 Single Name Space。 比 如 某 个 应 用 程序 需要 在 一 个 目录 下 存放 几 十 万 个 小 文件 ， 

而 如 果 将 这 么 多 文件 放 在 传统 非 集群 NAS 上 的 同一 个 目录 下 ， 其 性 能 往往 是 非常 低下 
的 。 此 时 ， 需 要 考虑 将 这 些 文件 分 在 NAS 中 分 开 不 同 的 目录 存放 以 提升 性 能 。 但 是 这 
样 做 的 结果 是 ，NAS 系统 必须 对 每 个 目录 都 Export 出 来 ， 应 用 服务 器 上 也 必须 对 每 一 
个 Export 点 进行 Mount， 所 以 也 会 显示 为 多 个 目录 。 这 就 无 法 满足 应 用 程序 的 要 求 了 。 
你 难道 可 以 强行 更 改 这 个 应 用 程序 , 比如 ,和 开发 人 员 商 量 一 下 , 别 让 他 将 这 么 多 的 文 
件 都 放 在 一 个 目录 下 ， 能 不 能 分 多 个 目录 放 ? 如 果 是 某 个 系统 管理 员 提出 这 种 要 求 的 
话 , 那 就 非常 不 合适 和 无 理 了 。 遇 到 性 能 冲突 的 时 候 , 修改 应 用 程序 只 能 是 最 后 的 对 应 
方法 。 而 集群 NAS 却 可 以 在 解决 性 能 问题 的 基础 上 又 不 影响 应 用 ， 比 如 将 这 个 文件 系 
统 承载 于 多 个 Segment 上 ， 每 个 Segment 又 分 配 到 不 同 的 Segment Server 主机 上 进行 管 
理 ， 而 Export 的 时 候 只 需要 Export 一 个 单一 Mount Point， 应 用 主机 也 只 需要 Mount 
单一 目录 ， 这 就 很 好 地 解决 了 问题 。 

(2 ) 能 做 到 统一 管理 、 故 障 切换 和 在 线 迁 移 平衡 负载 。 手 动 部 署 多 个 NAS Server，Mount 

多 个 目录 ， 手 动 平 衡 负 载 ， 不 但 会 与 应 用 程序 设计 造成 冲突 ， 而 且 还 有 其 他 诸多 不 便 。 
比如 ， 如 果 某 个 NAS Server 出 现 性 能 瓶颈 ， 而 其 他 NAS Server 的 负载 却 很 低 ， 此 时 只 
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能 是 望 洋 兴叹 ， 累 的 累 死 ， 闲 的 闲 死 。 而 对 于 集群 NAS 系统 来 说 就 大 不 一 样 了 ， 可 以 
随时 将 负载 过 高 的 节点 上 对 应 的 Segment 动态 迁移 到 负载 低 的 Segment Server 上 同时 又 
不 影响 应 用 ， 而 且 这 种 迁移 根本 不 涉及 到 数据 移动 过 程 ( Segment Server 之 间 共 享 后 端 
存储 ) ,执行 的 速度 是 非常 快 的， 得 到 的 性 能 提升 也 是 立竿见影 的 。 其 次 ,如果 多 台独 
立 NAS Server 中 某 台 发 生 故 障 , 那么 它 所 管理 的 数据 也 就 无 法 访问 了 ,而 集群 NAS 系 
统 由 于 后 端 可 以 共享 存储 , 所 以 在 某 节 点 发 生 故 障 之 后 , 可 以 由 正常 的 节点 接管 所 有 资 
源 ， 包 括 后 端 Segment 以 及 前 端 接口 IP 地 址 ,客户 端 访 问 继续 执行 ， 当 然 集群 NAS 也 
允许 任何 节点 使 用 非 共 享 存储 。 但 使 用 非 共享 存储 就 不 会 享受 到 HA 切换 和 在 线 迁 移 
Segment 所 带 来 的 好 处 了 。 最 后 , 多 台独 立 的 NAS Server 已 经 形成 了 数据 孤岛 ,不 便于 
数据 统一 管理 ， 比 如 Snapshot 、Mirror 等 。 
将 集群 文件 系统 中 的 文件 用 NAS 协议 输出 ， 这 就 是 集群 NAS。 使 用 SPI 模式 或 者 SFI 模式 
的 集群 文件 系统 均 可 以 输出 为 集群 NAS 系统 ， 其 表现 出 来 的 优 劣 与 SPI 和 SFI 集群 文件 系统 本 
身 的 优 劣 相同 。 


15.7.9” 块 级 集群 与 NAS 集群 的 融合 猜想 


统一 存储 这 个 概念 是 近 几 年 一 直 在 炒 的 概念 ， 即 在 同一 台 存 储 设备 中 同时 实现 FC、ISCSI、 
NFS 和 CIFS 等 存储 协议 支持 ， 也 就 是 常 说 的 SAN 和 NAS 融合 。 对 于 传统 的 非 Scale-Onut 存储 
系统 , NAS 与 SAN 的 融合 一 般 都 是 通过 在 SAN 设备 前 加 一 个 NAS 机 头 来 实现 , NetApp 则 是 完 
全 通过 一 个 机 头 来 实现 ， 其 他 诸如 EMC、HDS 等 都 是 采用 前 一 种 方式 。 

面 对 市 场 上 如 此 多 的 集群 NAS 系统 以 及 集群 文件 系统 ， 可 以 说 它们 早 就 实现 了 Scale-Out 
架构 -SAN 方面 也 是 从 2008 年 开始 由 EMC 的 V-Max 以 及 IBM 的 XIV 两 款 产 品 宣布 了 SAN 存 
储 也 开始 走向 Scale-Out 架构 ， 其 实在 此 之 前 3PAR 的 SAN 设备 也 早 就 属于 Scale-Onut 架构 了 ， 
一 时 间 包 括 Dell Equalogic、HP P4000、Infortrend ESVA 等 可 横向 扩展 的 x86 集群 SAN 存储 系统 
都 突然 变 得 被 广泛 关注 ,这 些 产 品 共同 打造 出 了 所 谓 “ 新 型 高 端 " 存 储 , 开 始 侵 刨 以 EMC Symmtrix 
DMX 和 HDS USP 为 代表 的 传统 高 端 SAN 阵列 市 场 。 

至 此 ，Scale-Out 架构 的 硬件 同时 承载 了 NAS 和 SAN, 它们 二 者 势必 也 要 进行 融合 ,以 
SAN 与 NAS 将 会 共同 被 承载 于 Scale-Out 架构 的 硬件 平台 之 上 。 


15.8 “对象 存 储 系统 


对 象 存储 系统 ( Object Storage System, OSS ) , 或 者 也 叫 对 象 存储 设备 ( Object Storage Device， 
OSD ) ， 本 书 选用 OSD 作为 这 种 技术 的 代名词 。 

OSD 的 雏形 是 由 卡耐基 梅 隆 大 学 的 Garth Gibson 在 1994 年 提出 的 ， 当 时 被 叫做 Network 
Attached Secure Disks ( NASD ) 。 几 年 后 , National Storage Industry Consortium ( NSIC ) 对 NASD 
进行 了 完善 和 修改 ， 最 终 被 ANSIT10 收录 成 为 一 个 标准 项 目 ， 命 名 为 T10/1355-D。 几 年 之 后 ， 
也 就 是 2004 年 ，SNIA 组 织 对 这 个 技术 改头换面 ， 成 为 了 ANSI T10 SCSI OSD v1 标准 ， 随 后 又 
继续 对 其 进行 发 展 ， 形 成 了 ANSI T10 SCSI OSD v2 标准 。 

那么 , OSD 到 底 是 为 何 而 生 的 呢 ? 我 们 都 知道 NAS 协议 设备 , 主机 客户 端 不 需要 维护 文件 
一 块 映射 ， 只 需要 将 对 文件 的 操作 请 求 发 送 到 NAS 服务 端 即 可 得 到 相应 回复 ，NAS 相当 于 把 文 


到 
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件 系统 逻辑 Ofload 到 了 主机 之 外 。NAS 协议 中 的 NEFS 协议 是 Sun 公司 在 1984 年 左右 提出 的 。 

10 年 之 后 ,也 就 是 1994 年 ,卡耐基 梅 隆 大 学 所 发 布 的 NASD 也 同样 使 用 这 种 将 文件 系统 底层 存 
储 映射 管理 外 置 的 思想 ， 即 把 块 映射 逻辑 移出 主机 之 外 ， 放 到 外 部 存储 设备 中 执行 。 但 是 , 与 
NFS 不 同 的 是 , NASD 的 设计 之 初 的 构想 是 把 文件 系统 逻辑 直接 放置 在 磁盘 中 , 因为 设计 者 认为 
磁盘 内 部 处 理 蕊 片 已 经 足够 强大 到 可 以 执行 这 些 高 层 复杂 逻辑 了 。 这样 的 话 , 主机 直接 可 以 并 行 
地 访问 每 块 硬盘 来 获取 文件 数据 ， 而 不 是 块 数据 。 如 图 15-67 所 示 为 NASD 的 系统 架构 示意 图 


o 
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Switch 
图 15-67 NASD 架构 示意 图 

NASD 设计 之 初 就 与 NFS 在 架构 上 有 着 本 质 不 同 ， 针 对 同一 个 Export 目录 ，NEFS 客户 端 只 
能 够 从 一 个 NFS 服务 节点 Mount 一 次 ， 而 且 今 后 所 有 针对 这 个 目录 中 文件 的 IO 访问 都 只 能 够 
发 送 给 这 个 NFS 服务 节点 来 处 理 ， 一 个 节点 的 处 理 能 力 、 网 络 带 宽 都 是 有 限 的 。 而 NASD 打算 
打破 这 种 限制 ，NASD 可 以 让 客户 端 主机 直接 并 行 地 访问 所 有 Disk， 所 有 Disk 同时 为 客户 端 主 
机 服务 ， 这 样 ， 就 打破 了 传统 NFS 的 瓶 横 ，IO 访问 数据 就 可 以 并 行 地 被 处 理 和 传输 ， 性 能 有 很 
大 提升 。 然 而 主机 客户 端 如何 知 道 要 访问 的 文件 被 存储 在 哪个 Disk 上 呢 ? 难道 需要 在 客户 端 本 
地 维护 一 份 映射 信息 么 ?这样 做 不 就 与 普通 文件 系统 无 异 了 么 ? 解决 这 个 问题 的 办 法 是 , NASD 
在 系统 中 引入 了 一 个 独立 的 Metadata Server ( MDS ) ， 这 台 Server 上 维护 着 整个 系统 内 的 “文件 
一 所 在 Disk 及 块 ”映射 关系 ,任何 客户 端 访问 任何 文件 ， 都 需要 先 通 过 网 络 向 MDS 进行 查询 目 
标 文件 所 被 存储 的 Disk 和 块 列表 ( 某 个 文件 可 以 以 Stripe 的 形式 分 散 到 存储 在 多 个 Disk 上 ) ; 
任何 客户 端 打算 创 建文 件 或 者 对 文件 进行 写 入 , 也 需要 首先 告知 MDS, 由 MDS 来 决定 文件 将 被 
存储 在 哪个 或 者 哪些 Disk 块 上 ， 并 将 信息 返回 给 客户 端 。 在 得 到 列表 及 其 他 必要 信息 之 后 ， 客 
户 端 主机 直接 向 对 应 的 Disk 地 址 发 起 数据 IO 请 求 来 读 出 或 者 写 入 数据 。MDS 不 仅 负责 元 数据 
管理 ， 而 且 还 负责 客户 端 认 证 以 及 文件 权限 认证 ， 只 有 通过 认证 的 客户 端 才能 够 访问 Disk 以 及 
对 应 的 文件 、 目 录 等 。 

以 上 仅 为 NASD 设想 中 的 理想 状况 ,请 勿 对 号 入 座 。 我 们 知道 ， 将 文件 系统 逻辑 移 到 Disk 
上 这 个 构想 ， 至 今 仍然 只 是 一 个 梦 。 在 磁盘 上 实现 高 级 复杂 的 逻辑 的 想法 毕竟 太 过 超前 与 疯狂 ， 
甚至 比 集群 化 并 行 访问 的 思想 更 加 超前 ， 所 以 我 真是 佩服 Garth Gibson。 


我 们 总 结 一 下 NASD 的 设计 架构 :将 文件 系统 逻辑 从 3 


E 机 端 移出 放 到 网 络 上 的 一 台 MDS 上 ， 


所 有 的 智能 Disk 也 放 到 网 络 上 ,3 


E 机 端 通过 某 种 NASD 客户 端 程序 来 向 MDS 获取 元 数据 信息 ， 


457 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


458 


并 且 在 得 到 信息 之 后 根据 这 些 信息 直接 访问 网 络 上 的 智能 Disk 存储 文件 。 我 们 再 仔细 思考 一 下 
这 种 架构 ， 这 其 实 和 单 台 主机 的 内 部 架构 本 质 上 没 哈 两样。 如 图 
15-68 所 示 ， 在 传统 的 单 台 主机 内 部 ， 程 序 如 果 打 算 访 问 某 个 文件 ， 
文件 系统 也 会 查找 对 应 的 元 数据 以 获得 对 应 文件 所 处 的 Disk 以 及 
Disk 上 的 Setcor 的 位 置 , 查 到 之 后 , 也 会 通过 磁盘 控制 器 来 并 行 地 对 
多 块 磁盘 进行 访问 ( Raid ) 以 存 取 数据 。 它 与 NASD 的 架构 的 差别 只 
在 于 : 文件 系统 块 映射 逻辑 在 主机 中 运行 , Disk 位 于 磁盘 控制 器 之 后 
而 不 是 网 络 上 。 但 是 单 台 主机 所 获得 的 性 能 可 是 要 远 高 于 NASD, 因 
为 文件 系统 运行 在 主机 内 存 中 , 通信 也 是 在 内 存 中; 磁盘 控制 器 的 主 图 15-68 单 台 主机 内 部 
机 总 线 以 及 控制 器 连接 磁盘 的 总 线 速率 均 远 高 于 外 部 网 络 。 

虽然 NASD 的 架构 设计 并 不 能 取代 传统 主机 客户 端的 文件 访问 ， 但 是 它 却 可 以 超越 传统 的 
NFS/CIFS 架构 。 

如 图 15-69 所 示 ， 左 侧 的 传统 NAS 访问 架 
构 , 虽然 磁盘 数量 相同 , 但 是 NFS 客户 端 只 能 够 
通过 一 条 网 络 链 路 来 访问 NFS 服务 端 节点 , 而 且 
每 份 数据 都 是 串 行 存 取 的 ，NEFS 服务 端 节点 也 只 
有 一 条 链 路 连接 网 络 ， 而 右 侧 的 NASD 架构 中 ， 
磁盘 数量 没有 变化 , 但 是 每 个 NFS 客户 端 节点 却 
可 以 直接 并 行 地 访问 每 个 数据 服务 端 节 点 
(Disk ) ,并且 , 随 着 服务 端 节点 ( Disk ) 的 增多 ， 
系统 性 能 会 线性 增长 。 而 如 果 向 传统 的 NFS 服务 图 15-69 NASD 与 传统 NAS 架构 比较 
端 中 增加 再 多 的 磁盘 ， 其 所 获得 性 能 也 没有 什么 
本 质 提升 。 

那么 是 否 传统 的 NAS 也 可 以 改 为 这 种 架构 呢 ? 当然 可 以 ， 我 们 可 以 手动 地 将 文件 分 别 放 入 
多 个 节点 的 多 个 Export 中 存放 ， 再 在 客户 端 主机 上 分 别 Mount 这 些 NFS Server 所 输出 的 目录 ， 
然后 修改 应 用 程序 ， 访 问 A 文件 请 走路 径 a， 访 问 B 文件 请 走路 径 b。 这 样 也 可 以 达到 并 行 访问 
的 目的 , 但 是 由 于 同一 个 文件 只 能 放 到 同一 个 Server 节点 , 所 以 不 能 并 行 同一 个 文件 ; 而 且 这 样 
做 也 是 不 可 行 的 ，Mount 多 个 节点 、 修 改 应 用 程序 ， 这 是 完全 的 强 资 逻辑 。 所 以 ， 传 统 NAS 虽 
然 在 物理 上 也 可 以 改 为 这 种 架构 , 但 是 ， 由 于 传统 文件 系统 中 的 目录 、 文 件 、 路 径 等 概念 ， 以 及 
NFS 所 使 用 的 Mount Point 的 做 法 , 却 注定 它 不 能 够 实现 对 同一 文件 的 并 行 。NASD 并 没有 Mount 
的 概念 ， 它 对 “文件 ”和 “目录 ”等 抽象 概念 进行 重新 定义 和 封装 ( 详 见 下文 ) ， 正 因 如 此 ， 
NASD 才 可 以 做 到 对 任何 要 访问 对 象 的 并 行 操作 。 

至 此 我 们 明白 了 NASD 的 价值 所 在 。Disk 这 个 词 是 不 是 可 以 在 NASD 的 概念 中 消失 了 呢 ? 
因为 至 今 也 没有 实现 智能 Disk。 所 以 下 文中 不 再 用 Disk， 而 将 Disk 改 为 OSD, 即 Object Storage 
Device。 这 里 何谓 “Object” 呢 ?如 图 15-70 所 示 为 OSD 层 在 系统 IO 路径 中 的 示意 图 。 图 中 右 
侧 下 部 即 为 一 个 OSD。 左 侧 则 为 传统 Block 级 访问 模型 。 
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图 15-70 0SD 协议 在 系统 I0 路 径 中 的 位 置 和 作用 方式 

可 以 看 到 ，OSD 在 协议 层面 与 NAS 协议 本 质 上 是 相同 的 。 它 之 所 以 被 称 为 “Object Storage 
Device”， 是 因为 在 OSD 的 概念 中 ,文件 不 叫 Fle 了 ， 叫 Object; 目录 也 不 叫 Directory 了 ， 叫 
Partition。 在 此 之 上 ，OSD 相 比 NAS 增加 了 一 些 改 进 ， 比 如 安全 认证 等 方面 。 其 次 ，OSD 中 每 
个 Object 都 用 一 个 128b 的 Object ID ( OID ) 表示 , 说 白 了 这 个 OID 也 就 对 应 了 NAS 协议 中 的 
File Handle。 

如 图 15-71 所 示 为 OSD 中 的 各 种 主要 概念 。 像 普通 文件 系统 一 样 , OSD 设备 一 样 需要 维护 
每 个 文件 , 哦 ,应 该 说 是 Object 的 块 映射 、 元 数据 、 属 性 和 OID 等 信息 。Object 分 为 多 种 类 型 ， 
每 种 类 型 的 Object 含义 如 下 。 


dda Object Types 


Metadata; 

creation datehme; ownership, size 
Attributes ~ inferred: 

access pattems, content inderes. 
Attributes ~ user supplied: 

telention, QoS. 


图 15-71 0SD 中 的 各 种 概念 
”Root Object: 表示 OSD 设备 本 身 。 
" ”User Object : 被 客户 端 主机 所 创建 的 Object。 


= ”Collection Object: 一 组 按照 某 种 条 件 而 聚集 起 来 的 Object 组 合 , 比如 “x*.exe”, 即 “ 所 
有 exe 文件 的 集合 ”就 是 一 种 Collection Object。 


= 了 Partition Object: 一 个 用 来 盛 放 User Object 的 容器 ， 相 当 于 目录 。 
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OSD 不 可 能 由 一 个 磁盘 来 充当 了 , 那么 谁 来 充当 呢 ? 当 然 只 能 用 一 台独 立 的 服务 器 来 充当 。 
这 台 服 务 器 与 NFS 服务 器 底层 处 理 方式 类 似 ， 都 是 维护 一 个 本 地 文件 系统 ， 管 理 Object 与 底层 


磁盘 块 的 
Objecto。 


决 射 关 系 以 及 其 他 元 数据 等 信息 ， 对 外 使 用 一 种 专门 的 协议 来 供 客户 端 访 问 其 保存 的 


可 以 说 NASD 是 一 种 极其 超前 的 思想 和 技术 。 它 早 就 将 集群 环境 考虑 在 内 ， 可 惜 的 是 ，20 


世纪 80 恒 


F 代 , 集群 并 未 得 到 发 展 , 所 以 NASD 也 并 没有 成 为 潮流 技术 ,而 被 随后 出 现 的 NFS 和 


SMB 协议 超过 了 。 

但 是 NASD 却 一 直 没 有 停止 发 展 ， 一 直到 被 SNIA 推进 并 最 终 在 2004 年 被 收入 T10， 成 为 
一 个 标准 ， 也 就 变 为 现在 俗称 的 OSD 了 。 

有 人 可 能 会 问 : T10 不 是 专门 搞 SCSI 协议 的 组 织 么 ? 怎么 开始 搞 起 文件 级 访问 协议 了 呢 ? 
说 对 了 。 也 正 是 因为 T10 只 搞 SCSI， 所 以 才 会 收录 它 ， 因 为 ，OSD 就 是 使 用 SCSI CDB 来 传输 
针对 文件 的 IO 请 求 的 。 对 于 当初 NASD 是 否 也 是 使 用 SCSI， 不 得 而 知 ， 但 是 SNIA 提交 到 T10 
的 OSD 协议 确实 是 使 用 了 SCSI CDB 来 描述 文件 级 的 请 求 . 如 图 15-72 所 示 为 OSD 协议 在 SCSI 
协议 层次 中 所 处 的 位 置 。 


Source: Www.T10.0rg 


图 15-72 0SD 协议 在 SCSI 协议 层次 中 所 处 的 位 置 


思考 : 其 实 读者 此 时 应 该 已 经 早 就 了 解 了 所 谓 的 “IO 三 大 件 ” 了 ， 每 个 I0， 不 管 是 标准 
协议 ， 还 是 私有 函数 调用 ， 基 本 上 都 是 由 “目标 ”、“ 起 始 地 址 ”和 “长 度 ” 这 三 大 件 组 
成 的 。 对 于 块 IJ0， 这 三 大 件 就 是 目标 LUN ID、 起 始 LBA 地 址 、 要 I0 的 LBA 地 址 长 度 ; 
而 对 于 文件 ID， 这 三 大 件 就 是 文件 名 、 起 始 字 节 地 址 、 要 IO 的 字 节 长 度 。 可 以 看 到 文件 
和 块 这 两 种 10 方式 ， 其 本 质 是 一 样 的 ， 本 来 文件 底层 也 就 是 对 应 的 数据 块 ， 文 件 系统 只 
不 过 做 了 一 层 地 址 翻译 封装 和 组 织 。 那 么 这 两 种 IO 从 本 质 上 来 讲 就 可 以 被 融合 。 对 象 存 
储 系统 从 某 种 意义 上 讲 结合 了 块 级 访问 的 高 效 与 文件 访问 的 灵活 性 和 便捷 性 。 


OSD 将 文件 访问 协议 也 统一 到 了 SCSI 协议 集中 ,做 到 了 Block 和 文件 级 访问 的 大 统一 


o 
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NASD 所 做 的 最 大 贡献 其 实 并 不 是 Object， 也 不 是 后 来 被 标准 化 的 OSD 协议 ,而 是 其 针对 集群 
环境 下 文件 的 高 性 能 访问 所 作 的 设计 ， 这 个 思想 最 终 催生 了 一 大 批 有 着 类 似 架构 的 集群 文件 系 
统 ， 包 括 Lustre、PolyServe 、Ibrix、PanFS 等 。 
这 些 集群 文件 系统 拥有 共 
同 的 基础 架构 ， 如 图 15-73 所 
示 为 这 种 架构 的 示意 图 。 
它们 有 些 使 用 OSD 来 作为 
访问 协议 ,也 有 些 使 用 私有 的 但 
是 与 OSD 类 似 的 协议 。 目 前 几 
平 所 有 的 集群 文件 系统 都 同时 
提供 了 基于 NAS ( CIFS/NES) 
的 访问 接口 。 客 户 端 主机 可 以 选 
择 使 用 OSD 或 者 NAS 方式 来 
访问 集群 。 至 于 具体 的 访问 方 
法 , 请 参考 本 章 其 他 部 分 , 这 里 
就 不 做 过 多 介绍 了 。 
部 署 OSD, 不 但 需要 OSD 图 15-73 基于 0SD 的 集群 文件 系统 普遍 架构 
存储 设备 ， 还 需要 在 客户 端 主机 上 安装 OSD Initiator， 就 像 NFS 或 CIFS 需要 使 用 对 应 的 NFS 
Client 模块 和 SMB 模块 一 样 。Panasas 的 DirectFlow 就 是 一 种 OSD Initiator。 
用 户 程序 本 身 无 须 做 任何 更 改 即 可 使 用 OSD 作为 存储 设备 。 用 户 可 以 挂 载 一 个 由 MDS 虚 
拟 出 来 的 路 径 ， 当 在 这 个 路 径 下 创建 一 个 文件 或 者 访问 这 个 路 径 中 的 某 个 文件 时 ，OSD Initiator 
会 与 操作 系统 内 核 的 目录 虚拟 层 (比如 Linux 下 的 VFS 层 ) 进行 对 接 ， 将 用 户 程序 针对 VFS 路 
径 下 被 Mount 的 OSD 路 径 下 某 文件 的 访问 ， 翻 译 封 装 为 相应 的 OSD SCSI CDB 并 发 向 OSD 设 
备 以 执行 这 个 IO 请 求 ， 当 然 , 之 前 应 当先 去 MDS 查询 待 访 问 目标 所 被 存储 的 OSD 设备 和 块 列 
表 。OSD Initiator 向 OSD 发 送 的 请 求 中 只 需要 给 出 Object ID 即 可 ， 而 无 须 像 传统 NAS 协议 一 
样 给 出 这 个 Object 的 绝对 路 径 。OSD 设备 会 自行 查找 这 个 OID 所 对 应 的 底层 块 并 做 相应 操作 。 
OSD 目前 被 使 用 的 非常 少 。 根据 一 些 极力 推广 OSD 的 厂商 的 态度 , 他 们 认为 传统 的 文件 系 
统 , 不 管 是 从 底层 的 元 数据 组 织 方式 上 , 还 是 上 层 的 访问 接口 方面 来 讲 , 已 经 不 能 够 满足 海量 文 
件 的 存储 和 访问 了 。 而 OSD 却 能 够 从 根本 上 解决 这 个 问题 。 
集群 文件 系统 提供 的 NFS 或 者 CIFS 访问 接口 , 客户 端 主机 只 能 够 从 集群 中 的 某 台 节点 上 来 
Mount 某 个 Export 输出 目录 ,而 所 有 的 数据 IO 也 都 是 通过 这 个 节点 进行 , 这 也 就 从 根本 上 限制 
住 了 传统 NAS 协议 访问 集群 所 能 够 获得 的 最 大 性 能 。 而 OSD 从 一 开始 就 考虑 到 了 这 种 限制 ， 
OSD 冲破 了 这 种 限制 ,所 有 使 用 OSD 协议 访问 集群 的 客户 端 主机 , 它们 都 首先 从 Metadata Server 
上 查询 待 访 问 的 目标 文件 /Object 都 分 布 在 哪些 OSD 节点 上 , 得 到 所 需 的 信息 之 后 , 客户 端 主机 
的 OSD Inmitiator 会 同时 并 行 地 向 所 有 存储 有 这 个 目标 文件 碎片 的 OSD 节点 发 起 IO 请 求 ， 并 行 
地 存 取 数 据 ， 这 就 比 传统 的 NAS 协议 有 了 质 的 飞跃 。 
思考 : 我 们 观察 一 下 图 15-73， 可 以 发 现 一 些 玄妙 的 东西 。 即 ， 在 这 整个 集群 内 ，0OSD 相 
当 于 Disk，MDS 相当 于 FS， 每 个 Client 主机 相当 于 应 用 程序 ， 以 太 网 交换 机 相当 于 系统 
总 线 。 我 们 仔细 思考 一 下 ,这 整个 集群 ,是 不 是 就 像 一 台 单独 的 计算 机 一 样 呢 ? 多 个 应 用 
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程序 同时 通过 文件 系统 来 访问 磁盘 上 的 数据 。 

而 我 们 再 仔细 观察 一 下 图 15-69 左 侧 的 传统 NAS 架构 ， 再 观察 一 下 右 侧 的 NASD 架构 。 
你 发 现 这 其 中 的 奥妙 了 人 么 ? 是 的 。NASD 相当 于 把 上 面 所 述 的 “系统 总 线 ” 扩 充 了 ,由 单 
条 串 行 改 为 多 条 并 行 ; 还 有 ，NASD 相当 于 把 底层 做 了 Raid0 了 。 

这 就 是 “轮回 ”二 字 的 奥妙 所 在 。 


传统 NAS 也 不 甘 示弱 ，NEFS 的 最 新 升级 版 NFS 4.1， 即 pNFS ( Parallel NFS ) ， 也 采用 了 这 
种 集群 架构 以 及 OSD 访问 协议 标准 。 而 CIFS/SMB 协议 的 始祖 Microsoft 在 其 Windows 
Vista/Server 2008/7 操作 系统 中 提供 了 SMB 1.0 的 升级 换代 版 一 一 SMB 2.0, 其 在 单机 访问 时 相 比 
SMB 1.0 有 了 很 大 的 效率 和 速度 提升 , 而 使 用 MS 提供 的 DFS 也 可 以 达到 与 集群 FS 类 似 的 效果 ， 
但 并 不 是 那么 纯粹 。 传 统 NAS 与 OSD 将 会 走向 融合 。 


15.9 ”当前 主流 的 集群 文件 系统 架构 分 类 与 对 比 


存储 系统 中 的 集群 系统 可 以 分 为 两 大 部 分 ， 一 个 是 像 V-Max、XIV、InserveT 这 样 的 集群 
SAN 系统 ， 它 们 的 集群 化 对 客户 端 来 说 是 完全 透明 的 ; 第 二 种 就 是 集群 文件 系统 ， 集 群 文件 系 
统 又 可 以 分 为 其 他 多 种 类 别 。 下 面 我 们 从 不 同 的 角度 分 析 一 下 目前 的 集群 文件 系统 的 分 类 。 


15.9.1 共享 与 非 共 享 存储 型 集群 


如 果 某 个 集群 中 的 所 有 节点 是 共享 使 用 后 端 存储 的 ( 这 里 的 共享 不 是 说 共享 一 台 磁 盘 阵 列 ， 
而 是 共享 访问 同一 个 或 者 多 个 LUN ) ， 那 么 这 个 集群 就 属于 共享 存储 型 集群 ， 否 则 便 是 非 共 享 
存储 型 集群 。 如 图 15-74 所 示 ， 左 侧 为 共享 存储 型 集群 示意 图 , 右 侧 为 非 共享 存储 型 。 但 是 不 要 
被 图 中 所 示 的 场景 所 误导 , 非 共享 存储 型 集群 不 一 定 每 个 节点 都 必须 用 自己 本 地 的 磁盘 ,节点 当 
然 也 可 以 连接 到 一 台 或 者 几 台 磁盘 阵列 中 来 获取 各 自 的 存储 空间 , 但 是 各 自 的 存储 空间 只 能 自己 
访问 ， 其 他 节点 不 可 访问 ， 这 就 是 非 共享 的 意义 。 


EE 并 


— | | 


图 15-74 共享 存储 与 非 共 享 存储 型 集群 架构 
共享 与 非 共享 存储 型 集群 对 比如 下 。 
(1 ) 非 共享 模式 的 集群 文件 系统 ， 当 某 节 点 需要 访问 其 他 节点 上 的 数据 时 , 这 些 数 据 需 要 在 
前 端 交换 机 中 (一般 是 以 太 网 ) 传输 ,速度 偏 慢 ; 而 共享 存储 型 则 每 个 节点 可 以 直接 对 
后 端 存储 设备 对 应 的 LUN 进行 读 写 , 在 前 端 传输 的 只 有 集群 间 的 元 数据 沟通 流量 而 不 
是 实际 数据 流量 。 
(2 ) 缓存 一 致 性 ， 共 享 式 需要 考虑 ， 非 共享 式 不 需要 考虑 。 
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(3 ) 对 于 非 共 享 式 集群 文件 系统 , 为 了 防止 单 点 故障 , 需要 将 每 个 节点 上 的 数据 镜像 一 份 存 

在 其 他 节点 ; 而 共享 式 集群 ,一 个 节点 故障 , 另外 的 节点 可 以 同时 接管 前 端 和 后 端 ， 因 

为 后 端 存 储 是 所 有 节点 共享 访问 的 。 

(4 ) 非 共 享 式 集群 可 以 不 使 用 SAN 阵列， 服务 器 节点 本 地 模 位 多 的 话 使 用 本 地 磁盘 也 可 以 

满足 大 部 分 需求 ， 不 可 以 使 用 DAS 磁盘 箱 等 ; 共享 存储 型 集群 则 必须 使 用 SAN 阵列 。 

非 共享 存储 型 文件 系统 又 可 被 称 为 “分 布 式 文件 系统 ”， 即 数据 被 分 布 存放 在 集群 中 多 个 节 
点 之 上 。 


15.9.2 ”对 称 式 与 非 对 称 式 集群 


如 图 15-75 所 示 为 对 称 式 集群 示意 图 。 所 谓 对 称 式 集群 文件 系统 是 指 集群 中 所 有 节点 的 角 
色 和 任务 都 相同 ， 完 全 等 价 。 在 对 称 式 集群 文件 系统 中 ,每 个 节点 都 很 “聪明 ”， 它 们 每 时 每 刻 
都 能 够 保持 精确 的 沟通 与 合作 , 共同 掌管 着 全 局 文件 系统 的 元 数据 , 每 个 节点 要 更 新 某 元 数据 时 
都 会 先 锁 住 , 这 样 其 他 节点 就 必须 等 待 , 就 这 样 轮值 执行 任务 , 保证 了 文件 系统 元 数据 的 一 致 性 ， 
同时 也 精确 地 保持 着 缓存 一 致 性 。 各 个 节点 间 沟 通 量 很 大 。 


素 据 进行 更 改 。 


图 15-75 对 称 式 集群 文件 系统 架构 


如 图 15-76 所 示 为 非 对 称 式 集群 示意 图 。 在 非 对 称 式 集群 中 ， 只 有 少数 节点 是 “聪明 ”的 ， 
其 余 都 是 傻 节点 。 也 就 是 说 ， 只 有 少数 节点 (一般 为 两 个 主 备 关系 的 节点 ) 掌管 着 系统 内 全 局 的 
文件 系统 信息 , 其 他 节点 均 不 清楚 。 当 其 他 节点 需要 访问 某 文件 时 , 需要 首先 联系 这 个 聪明 节点 ， 
后 者 将 前 者 要 访问 的 文件 所 对 应 的 具体 信息 ( 比如 存放 在 后 端 哪 个 LUN 的 哪 段 地 址 ,或 者 存放 
在 哪个 节点 中 ) 告诉 前 者 ， 前 者 得 到 这 些 信息 之 后 便 直 接 从 后 端的 LUN 或 者 对 应 节点 中 访问 该 
数据 。 每 个 傻 节 点 上 安装 一 个 代理 客户 端 程序 来 与 聪明 节点 通信 。 图 中 可 以 看 到 一 些 具体 的 通信 
过 程 。 这 个 “聪明 ”节点 叫做 “Metadata Server”,， 简称 MDS 或 者 MDC ( Metadata Controller ) 。 
MDS 是 系统 中 唯一 掌握 文件 系统 元 数据 的 角色 , 下 文中 还 会 有 涉及 MDS 的 描述 , 请 注意 阅读 和 
关联 理解 。 
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A->B: 我 要 查 一 下 当前 文件 系统 的 目录 结构 . 


Ee 给 你 ， 根 目录 是 /cluster， 下 面 有 如 下 二 级 目录 或 
文件 assim 


A->B: 我 要 读 出 /cluster/test 文 件 的 前 1024 字 节 . 
B->A: 对 应 磁盘 扇 区 LBA1000， 自 己 去 读 吧 . 
A-> 磁 盘 阵 列 : read () 


A->B: 我 要 写 入 xxx 这 些 内 容 到 /cluster/test 文 件 的 前 
1024 字 节 - 


B->A: 对 应 磁盘 扇 区 LBA1000， 自 己 去 写 吧 ， 写 完了 告 
诉 我 一 下 - 

A-> 磁 盘 阵 列 : Write () 

A->B: 写 入 完成 

图 15-76 非 对 称 式 集群 文件 系统 架构 


对 称 式 集群 文件 系统 的 典型 代表 有 Veritas ClusterFS、HP Ibrix。 非 对 称 式 集群 文件 系统 的 典 
型 代表 有 Stomext SNFS、EMC MPFS 、IBM SanFS。 显 然 ， 由 于 第 二 种 方式 易于 实现 ， 集 群 间 
沟通 成 本 低 , 所 以 对 应 的 产品 也 多 。 对 于 对 称 式 集群 ,客户 端 可 以 通过 挂 载 任何 一 个 节点 上 的 目 
录 输 出 即 可 访问 到 集群 中 所 有 数据 ， 或 串 行 或 并 行 ， 但 是 对 于 非 对 称 式 集群 ， 客 户 端 只 能 通过 
MDS 节点 来 挂 载 , 一 定 程度 上 造成 MDS 节点 瓶颈 。 但 是 由 于 对 称 式 集群 的 沟通 复杂 度 太 高 , 不 
利于 扩展 到 太 多 节点 数量 ; 而 非 对 称 式 集群 可 以 通过 引入 多 个 MDS 节点 来 均 摊 负 载 。 在 节点 数 
量 较 少 , 也 就 是 在 对 称 式 集群 的 可 容忍 范围 之 内 时 , 对 称 式 集群 由 于 每 个 节点 都 可 以 充当 非 对 称 
式 集群 中 MDS 的 角色 ， 所 以 往往 能 够 表现 出 更 好 的 性 能 。 


15.9.3 ”自助 型 与 服务 型 集群 


上 面 图 示 中 的 拓扑 结构 均 为 “自助 型 ”文件 系统 集群 。 何 谓 “ 自 助 型 ”, 顾名思义 ， 也 就 是 
谁 用 谁 就 形成 集群 ， 自 我 集群 ， 自 种 自 收 。 比 如 有 个 视频 编辑 应 用 集群 ，100 台 PC Server, 每 个 
节点 上 装 有 视频 编辑 程序 , 形成 了 应 用 集群 , 现在 这 些 节点 想 使 用 一 种 集群 文件 系统 来 共享 地 访 
问 系统 内 的 所 有 文件 , 那么 就 可 以 在 这 些 应 用 节点 上 直接 安装 部 署 集群 文件 系统 , 应 用 集群 同时 
也 变 成 了 文件 系统 集群 , 每 个 节点 既是 形成 集群 的 服务 者 , 同时 还 是 数据 的 生产 者 (数据 由 其 上 
的 应 用 程序 生产 ) ， 同 时 又 是 直接 访问 底层 文件 数据 的 消费 者 ， 这 就 是 所 谓 “ 自 助 型 ”的 含义 。 

那么 再 来 看 看 图 15-77 所 示 的 拓扑 架构 ， 框 内 的 是 一 个 集群 文件 系统 ， 框 外 又 增加 了 一 排 
客户 端 主机 , 左右 两 侧 分 别 为 对 称 式 和 非 对 称 式 集群 。 在 这 个 拓扑 中 ,集群 内 的 服务 节点 自身 
不 是 数据 的 消费 者 ,而 只 是 服务 者 、 提 供 者 ,而 集群 之 外 的 客户 端 主机 通过 某 种 访问 协议 来 访问 
集群 内 的 文件 数据 。 这 就 是 所 谓 “ 服 务 型 集群 文件 系统 ”。 
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图 15-77 服务 型 集群 文件 系统 架构 
为 何 会 出 现 服务 型 文件 系统 集群 呢 ? 自助 型 不 是 很 好 么 ? 还 节约 了 服务 器 主机 的 数量 。 究 其 
原因 主要 有 如 下 两 个 。 

= 降低 成 本 。 自助 型 集群 中 每 个 节点 均 需 要 高 速 IO 适配器 比如 FC 来 访问 阵列 存储 空间 ， 
随 着 集群 规模 扩大 ， 适 配 卡 、 交 换 机 、 线 缆 等 的 成 本 不 断 攀 升 。 

”可 以 接 入 更 多 的 客户 端 。 服 务 型 集群 可 以 用 较 少 的 集群 节点 服务 于 较 多 的 客户 端 主机 。 
集群 内 部 的 沟通 成 本 可 以 控制 ， 实 现 高 速 高 效 。 同 时 外 部 客户 端 之 间 不 需要 互相 沟通 ， 
所 以 客户 端 数量 可 以 大 幅 增 加 。 对 于 自助 型 集群 ， 如 果 节 点 数量 太 多 的 话 ， 集 群 内 部 
沟通 信息 量 以 及 复杂 度 将 会 成 几何 数量 上 升 ， 不 利于 扩充 。 


15.9.4 SPI 与 SFI 型 集群 


为 了 实现 集群 所 必须 实现 的 Single Name Space， 有 两 种 方式 ， 如 图 15-78 所 示 。 

。 。 懒 人 做 法 : 既然 每 个 节点 上 都 有 各 自 的 文件 系统 ， 我 就 把 他 们 输出 的 路 径 虚拟 化 一 下 ， 
倒 一 下 手 ， 集 中 管理 起 来 ， 然 后 再 次 向 外 输出 成 一 个 Single Path Image ( SPI) 。 我 只 管 
路 径 统 一 ， 不 管 文件 放 在 哪里 。 典 型 代表 : 微软 的 DFS。 

”勤快 人 做 法 : 每 个 节点 都 知道 所 有 文件 的 位 置 ， 在 文件 系统 底层 进行 整合 而 不 是 表层 
的 路 径 整 合 ， 即 Single Filesystem Image ( SFI ) 。 典 型 代表 : CFS 等 大 多 数 集群 FS。 


图 15-78 SFI 与 SPI 集群 文件 系统 架构 
一 分 耕耘 一 分 收获 , SFI 可 以 做 到 将 一 个 文件 切 开 分 别 存 放 到 各 个 节点 中 ; 而 SPI 无 法 做 到 。 
但 有 时 也 不 得 不 服 投 机 取 巧 的 效果 : SFI 往往 扩展 能 力 有 限 ， 而 SPI 则 可 以 整合 大 量 的 路 径 ( 节 
ls 
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因为 对 于 SFI 模式 的 集群 FS， 其 节点 之 间 需 要 时 刻 同步 各 种 复杂 的 状态 ， 每 个 节点 所 维护 
的 状态 机 非常 复杂 ,同步 这 些 状态 需要 不 少 通信 量 , 但 是 外 部 网 络 速度 永远 比 不 上 内 存 速度 , 所 
以 这 些 通信 会 增加 每 个 节点 状态 机 变化 的 延迟 , 导致 处 理 速度 有 所 降低 。 尤其 是 当 节点 数量 增多 
时 ， 比 如 几 十 个 甚至 上 百 个 ,那么 对 于 SFI 模型 的 汲取 FS 来 讲 就 是 梦 魔 了 ， 几 十 个 状态 机 之 间 
的 相互 协作 ， 加 上 外 部 网 络 带 来 的 延迟 ， 此 时 所 有 这 些 劣势 将 会 加 成 ， 可 能 导致 性 能 不 升 反 降 。 
而 SPI 模式 的 集群 FS 就 没有 这 个 问题 ， 节 点 之 间 相互 独立 ， 所 以 需要 同步 的 信息 很 少 ， 如 果 主 
机 端 不 使 用 特殊 客户 端 访问 ， 而 只 是 通过 传统 的 NFS 或 者 CIFS 等 访问 的 话 , 那么 集群 节点 间 可 
能 会 出 现实 际 数据 的 交换 ， 此 时 就 需要 一 个 高 速 的 内 部 交换 矩阵 才能 获得 较 高 的 性 能 。 


15.9.5“” 串 行 与 并 行 集群 


对 于 服务 型 集群 , 客户 端 可 以 通过 两 种 方式 来 访问 这 个 集群 所 提供 的 数据 : 第 一 种 是 捉 行 方 
式 , 即 客户 端 通过 挂 载 集群 中 某 个 节点 所 输出 的 目录 ,之 后 所 有 的 通信 过 程 都 通过 这 个 节点 执行 ; 
第 二 种 则 是 并 行 访问 方式 ， 首 先 客户 端 初始 时 也 是 通过 集群 中 的 某 个 节点 挂 载 对 应 的 输出 目录 ， 
但 是 挂 载 之 后 ， 客 户 端 只 通过 这 个 节点 来 获取 待 访问 文件 的 元 数据 信息 ( 见 图 15-76 所 示 的 过 
程 ) ,得 到 文件 对 应 的 块 地 址 等 信息 之 后 ,客户 端 可 以 直接 利用 所 获得 的 信息 访问 集群 中 的 其 他 
节点 来 访问 对 应 的 数据 , 如 果 某 两 个 文件 分 别 存放 在 集群 中 不 同 的 节点 ,或 者 某 个 文件 被 分 散 存 
放 在 多 个 节点 中 ,那么 客户 端 可 以 并 行 地 访问 这 多 个 节点 从 而 并 行 地 读 写 对 应 的 文件 。 


图 15-79 两 种 并 行 访问 模式 


图 15-79 所 示 为 对 称 / 非 对 称 式 两 种 模式 并 行 访问 文件 系统 集群 架构 示意 图 。 如 图 15-80 所 
示 为 一 个 非 对 称 式 集群 并 行 访问 过 程 中 的 示意 图 ,图 中 的 OID 表示 对 象 存储 协议 中 的 Object ID。 
对 于 并 行 访问 集群 来 讲 ， 客 户 端 一 般 是 采用 对 象 存储 协议 来 访问 集群 中 的 数据 节点 的 ( 比如 
Lustre 、Panasas 等 ) ， 当 然 ， 也 有 依然 采用 NFS 方式 来 并 行 访问 集群 中 数据 节点 的 ( 比如 Ibrix 
的 Fusion Client ) 。 
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四 客户 端 1->MDS: 我 要 查 一 下 当前 文件 系统 的 目录 结构 。 


图 客户 端 1->MDS: 我 要 读 出 /clustertest 文 件 的 前 1024 字 节 。 


图 MDS-> 客 户 端 1: A 节点 OID1 Startoffset 0 Legnth 512; C 节 
点 OID1 Startoffset 513 Legnth 512。 自 己 去 读 吧 。 


图 客户 端 1->A 节 点 : read () OID1 Startoffset 0 Legnth 512 
加 客户 端 11->C 节 点 : read () OID1 Startoffset 513 Legnth 
512 


@@ 两 步 并 行进 行 


图 15-80 并 行 访问 集群 时 的 步骤 示意 图 

并 行 访问 集群 与 串 行 访 问 集群 对 比如 下 。 

”在 单条 链 路 速率 相同 的 情况 下 ， 并 行 永远 强 于 串 行 。 

= 目前 前 端 客户 端 一 般 都 是 用 1GbE 以 太 网 来 访问 集群 , 如果 是 串 行 方式 , 客户 端 只 能 与 
一 个 节点 通过 这 条 链 路 通信 ， 如 果 这 个 节点 的 处 理 能 力 不 足 或 者 本 地 带宽 饱和 ， 那 么 
对 应 的 客户 端 所 获得 的 数据 带宽 也 就 会 受 限 ， 可 能 连 1Gb 带宽 都 远 未 达到 。 为 此 ， 让 
这 个 客户 端 并 行 地 与 多 个 节点 通信 来 访问 数据 ， 则 可 以 最 大 程度 地 饱和 链 路 带宽 。 实 
际 测试 显示 ，10GbE 的 链 路 下 ， 单 条 NEFS 流 远 远 无 法 满足 带宽 ， 最 差 时 可 能 只 有 10% 
的 带宽 能 够 利用 。 这 也 是 之 后 PNES 并 行 访 问 协议 被 引入 的 原因 。 

提供 并 行 访问 能 力 的 集群 典型 代表 : Ibrix、EMC MPFS、Lustre、Panasas。 基 本 上 所 有 的 集 

群 文件 系统 都 提供 并 行 访问 客户 端 。 


15.9.6 ”集群 /并 行 /分 布 式 /共享 文件 系统 各 论 


大 家 平时 可 能 听 到 过 多 种 叫 法 : 集群 文件 系统 、San 共享 文件 系统 、 分 布 式 文件 系统 、 并 行 

文件 系统 是 四 种 主流 的 叫 法 ， 那 么 这 些 概念 之 间 到 底 有 什么 联系 呢 ? 

" ”San 共享 式 文件 系统 : 其 实 这 种 叫 法 狭义 上 指 的 就 是 自助 型 、 共 享 存储 型 的 集群 文件 系 
统 。 广 义 上 则 也 可 以 泛 指 共享 存储 型 的 集群 文件 系统 ， 可 以 是 自助 型 ， 也 可 以 是 服务 
型 。 但 是 最 常用 的 还 是 诸如 Stomext 和 IBM SanFS 这 样 的 自助 型 共享 存储 集群 。San 共 
享 文件 系统 又 可 被 简称 为 “San 文件 系统 ”。Stornext 的 SNEFS 共享 文件 系统 最 新 版 本 
已 经 发 布 了 Distributed Lan Client (DLC ) ， 从 自助 型 转向 了 服务 型 ，DLC 可 以 让 集群 
外 的 客户 端 并 行 地 访问 集群 节点 ， 也 就 是 并 行文 件 系统 所 提供 的 并 行 访问 客户 端 代 理 
程序 。 

”分布 式 文件 系统 : 同一 个 文件 系统 下 的 文件 (或 者 同一 个 文件 的 多 个 部 分 ) 不 是 被 放 
在 单一 节点 内 ， 而 是 被 分 开 存放 在 多 个 节点 之 内 ， 这 就 是 所 谓 “ 分 布 式 ”的 意义 。 分 
布 式 与 共享 式 是 对 立 的 ， 所 以 分 布 式 文件 系统 等 价 于 非 共享 存储 型 的 集群 文件 系统 。 

”并 行文 件 系统 : 可 以 提供 并 行 访问 的 集群 文件 系统 。 客 户 端 访 问 这 些 被 分 开 存放 的 文 
件 时 ， 可 以 直接 从 多 个 节点 并 行 地 读 取 多 个 文件 ， 或 者 一 个 文件 的 多 个 部 分 ， 也 就 是 
并 发 地 直接 从 存 有 对 应 数据 的 节点 上 来 读 写 这 些 数据 ， 这 就 是 所 谓 “ 并 行 ”。 相 对 于 
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并 行 的 是 串 行 ， 串 行文 件 系统 ， 就 是 指 客户 端 只 能 从 所 有 节点 中 的 一 个 节点 来 读 写 所 
有 数据 ， 如 果 需 要 读 写 的 数据 不 在 所 连接 的 节点 上 ， 那 么 需要 由 这 个 节点 来 向 存 有 对 
应 数据 的 节点 发 起 请 求 ， 将 数据 从 对 应 的 节点 通过 内 部 交换 矩阵 传输 过 来 之 后 ， 再 传 
递 给 客户 端 。 也 就 是 说 数据 是 串 行 地 传输 的 。 分 布 不 一 定 并 行 ， 但 是 并 行 一 定 是 分 布 
的 。 并 行文 件 系统 均 需要 在 主机 客户 端 安装 一 个 代理 ， 或 者 一 个 新 的 文件 系统 挂 载 器 ， 
用 来 专门 实现 并 行 访问 。 

， ”集群 文件 系统 : 分 布 式 文件 系统 、 并 行文 件 系 统 、 共 享 式 文件 系统 ,三 者 统称 集群 文 
件 系统 。“ 分 布 式 ”和 “共享 式 ” 指 的 是 集群 中 数据 分 布 的 方式 ， 而 “并 行 ” 指 的 是 
用 户 对 这 些 数 据 的 访问 方式 。 分 布 、 访 问 ， 两 个 层面 ， 两 种 含义 。 


15.9.7 ”集群 NAS 系统 的 三 层 架构 


这 里 再 提 一 下 集群 NAS。 一 个 集群 NAS 系统 其 实 可 以 被 分 为 三 层 架 构 ， 第 一 层 是 底层 存储 
空间 层 ， 这 一 层 可 以 是 Share Everything ( 共享 型 ) 或 者 Share Nothing ( 非 共享 型 ) 两 种 模式 ; 第 
二 层 是 集群 FS 层 ， 集 群 FS 层 建 立 在 底层 任何 一 种 模式 ( 共享 或 者 非 共 享 型 ) 的 存储 空间 之 上 ， 
这 一 层 可 以 做 成 Single Path Image 和 Single Filesystem Image。 对 应 第 一 层 ， 第 一 层 模式 为 Share 
Everything 的 一 般 都 在 第 二 层 使 用 Single Filesystem Image 模式 ; 而 第 一 层 使 用 Share Nothing 模式 
的 ， 第 二 层 既 可 以 使 用 Single Path Image 模式 ， 也 可 以 使 用 Single Filesystem Image 模式 。 第 三 层 
就 是 NAS 协议 输出 层 了 ， 这 一 层 有 四 种 访问 模式 : 传统 CIFS、 传 统 NFS、pNEFS 并 行 客户 端 以 
及 私有 客户 端 。 后 两 者 可 以 并 行 访问 ， 前 两 者 只 能 串 行 访 问 。 


15.9.8 ”实际 中 的 各 种 集群 拓扑 一 览 


上 面 介绍 了 5 大 类 共 10 种 不 同 角度 的 集群 文件 系统 架构 , 利用 这 10 种 不 同 的 方式 , 可 以 两 
两 组 合成 任意 模式 的 集群 文件 系统 。 下 面 列 一 下 实际 中 主要 的 集群 FS 拓扑 。 


1. 直 连 后 端 FC/ISCSI SAN 


这 种 形式 的 集群 文件 系统 就 
是 上 文 所 述 的 SAN 共享 文件 系 
统 。 客户 端 代 理 程序 在 查询 MDC 
得 到 信息 后 直接 访问 后 端的 SAN 
磁盘 阵列 ,查询 MDC 的 时 候 走 前 
端 以 太 网 , 执行 实际 IO 请 求 的 时 
候 走 后 端 FC 网 ，IO 请 求 遵循 
SCSI3 SBC 纯 磁 盘 级 块 协议 ,如 图 
15-81 所 示 。 这 种 模式 的 集群 文件 
系统 典型 代表 有 : Stornext 
SNES、EMC MPFS 、IBM SanFS。 


2. 引入 IO 节点 
在 上 图 中 再 插入 一 层 处 理 模块 ,将 后 端的 LUN 虚拟 化 管理 起 来 ， 然 后 再 通过 另外 一 种 形式 


图 15-81 直 连 后 端 FC/ISCSI SAN 
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进行 输出 从 而 被 客户 端 以 另外 的 方式 访问 , 那 
么 系统 的 架构 如 图 15-82 所 示 。 如 果 在 LUN 加 | 
上 层 引 入 一 种 对 象 存储 网 关 设备 ,那么 客户 端 
就 需要 使 用 支持 OSD 协议 的 客户 端 代理 ， 比 
如 pNEFS 客户 端 ; 如 果 引 入 一 种 厂商 自行 开发 
的 私有 设备 , 比如 Ibrix 的 Segment Server, 那 
么 客户 端 也 需要 安装 相应 的 代理 程序 ; 如 果 被 
引入 的 是 一 个 NAS 头 ， 那 么 客户 端 只 需要 使 
用 标准 的 NFS 或 者 CIFS 客户 端 即 可 。 至 于 引 
入 IO 节点 的 原因 和 优势 ,请 参考 后 文 的 论述 。 
这 种 模式 的 典型 代表 有 : Panasas、Lustre、 Ibrix。 


其 中 Panasas 使 用 标准 的 OSD 节点 以 及 pNES 图 15-82 引入 10 节点 之 后 

协议 ; Lustre 则 也 是 用 OSD 节点 ,但 是 客户 

端 并 非 使 用 标准 PNES 协议 访问 , 而 是 一 种 私 Ea 
有 协议 ; Ibrix 则 使 用 独自 设计 的 10 节点 , 客 


户 端 代理 也 是 使 用 私有 协议 访问 IO 节点 。 
3. 用 OSD 作为 IO 节点 
同上 ， 其 结构 如 图 15-83 所 示 。 典 型 代 


表 : Panasas、Lustre。 
4. 使 用 标准 PNFS 协议 访问 IO 节点 
见 上 文 ， 其 结构 如 图 15-84 所 示 。 典 型 
代表 : Panasas。 ( Pnasas 的 IO 节点 并 非 连接 
SAN 后 端的 LUN， 而 是 使 用 自己 本 地 的 磁 ES 
盘 。) 


图 15-83 用 0SD 作为 I0 节点 


图 15-84 用 pNFS 协议 访问 I0 节点 


5. 使 用 标准 NFS/CIFS 协议 访问 IO 节点 


如 图 15-85 所 示 为 一 个 ilon 的 OneFS 架构 简 图 。 其 实 并 不 复杂 , Isilon 使 用 多 个 NAS 头 联 
合 起 来 组 成 一 个 集群 NAS 系统 ， 每 个 NAS 头 都 是 用 自己 本 地 磁盘 作为 存储 空间 ,所 有 NAS 头 
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的 角色 都 相同 。 整 个 系统 可 以 做 到 
Single Name Space， 访问 任何 一 台 NAS 
头 ， 就 可 以 访问 到 全 局 的 数据 。 如 果 
待 访问 的 目标 数据 不 在 所 连接 的 NAS 
头 管辖 范围 内 , 那么 对 应 的 NAS 头 会 
通过 后 端的 以 太 网 或 者 IB 网 络 从 管 
辖 对 应 数据 的 那个 NAS 头 上 将 数据 
取 过 来 然后 返回 给 客户 端 ， 写 也 是 类 
似 动作 。 这 种 架构 本 身 并 没有 对 单 客 
户 端 或 者 单 文件 访问 的 速度 有 任何 加 
成 作用 ， 但 是 它 却 做 到 了 所 有 节点 平 
等 化 以 及 真正 的 全 局 命名 空间 。 


6. 所 有 节点 角色 一 致 的 集群 系统 


见 图 15-61。 典 型 代表 : Ibrix、Isilon。 这 种 模式 下 ， 集 群 中 所 有 的 节点 既 充 当 IO 节点 ， 又 
充当 MDC 控制 器 ， 访 问 任何 一 个 节点 均 可 访问 到 全 局 数据 。 


7. 所 有 IO 节点 均 使 用 本 地 磁盘 的 集群 系统 


见 图 15-64。 典 型 代表 : Isilon 、Panasas。ksilon 使 用 机 架 式 服务 器 ，Panasas 使 用 刀片 服务 器 。 
这 种 模式 下 ，IO 节点 并 不 连接 后 端 第 三 方 磁盘 阵列 来 获取 存储 空间 ， 而 是 使 用 每 个 刀片 或 者 机 
架 中 本 地 的 磁盘 ， 利 用 大 量 的 节点 来 获取 高 容量 存储 空间 。 

综 上 所 述 ， 集 群 文件 系统 其 实 最 后 演化 为 了 两 大 阵营 : 一 个 是 客户 端 直接 访问 后 端 SAN 的 
模式 , 另 一 个 则 是 在 客户 端 和 后 端 FC SAN LUN 之 间 引 入 基于 以 太 网 链 路 访问 的 IO 节点 的 模式 。 
后 者 又 可 以 根据 客户 端 访 问 IO 节点 使 用 协议 的 不 同 而 分 为 更 多 的 种 类 。 

两 大 阵营 各 有 利 次 。 直 接 访 问 后 端 SAN 的 模式 下 ， 客 户 端 与 后 端的 磁盘 阵列 之 间 没有 任何 
其 他 处 理 模块 ， 所 以 其 IO 的 效率 是 最 高 的 ， 而 且 加 上 FC 网 络 的 速度 ， 整 个 系统 的 速度 和 效率 
均 较 高 。 但 是 相对 来 讲 ， 其 成 本 也 将 随 着 客户 端 数量 的 增 大 而 正比 增加 ， 因 为 目前 FC 适 配 卡 的 
价格 依然 居 高 不 下 ， 如 果 为 每 个 客户 端 安装 一 块 或 者 两 块 FC 卡 ， 也 是 一 笔 不 小 的 投资 。 此 外 ， 
由 于 后 端的 LUN 皆 由 MDC 来 挂 载 和 管理 ， 而 系统 中 的 MDC 数量 有 限 ( 目前 最 多 两 个 ) ， 所 
以 一 旦 两 个 MDC 都 出 问题 ， 那 么 整个 系统 就 瘫痪 了 。 引 入 IO 节点 之 后 ， 一 方面 客户 端 可 以 使 
用 廉价 的 以 太 网 来 访问 IO 节点 了 , 花费 降低 ; 另 一 方面 , 对 于 像 Ibrix 这 种 架构 ， 所 有 节点 都 同 
时 作为 MDC 和 IO 节点 , IO 节点 本 身 可 以 共享 访问 后 端 所 有 的 LUN, 所 以 一 旦 某 个 IO 节点 故 
障 ， 那 么 其 他 任何 一 个 IO 节点 就 可 以 接管 故障 节点 之 前 所 挂 载 的 LUN 以 及 文件 系统 ， 继 续 提 
供 服 务 ， 只 要 系统 中 还 剩 下 一 个 IO 节点 /MDC， 那 么 整个 系统 就 不 会 瘫痪 ,也 就 是 说 ， 这 种 模 
式 下 的 系统 容错 率 高 了 很 多 。 但 是 ， 随 之 而 来 的 问题 就 是 IO 效率 相对 低 了 ， 以 及 客户 端 IO 速 
度 的 限制 , 以 太 网 毕竟 只 有 1Gb/s 的 速度 ,在 单 客户 端 或 者 单 文件 访问 的 情况 下 , 集群 系统 显示 
不 出 多 少 优势 ， 但 是 直接 访问 后 端 SAN 的 模式 下 ,不 管 是 单 客户 端 还 是 单 文件 访问 ， 其 依然 能 
够 达到 较 高 的 速度 。 

提示 : 关于 单 客 户 端 和 单 文件 访问 的 问题 ， 下 文 会 有 更 详细 的 论述 。 


图 15-85 使 用 标准 NFS/CIFS 协议 访问 I0 节点 
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15.10 ” 带 外 共享 SAN 文件 系统 


在 广电 领域 经 常会 用 到 一 种 架构 , 就 是 带 外 共享 文件 系统 。 这 种 架构 允许 多 台 主 机 共享 访问 
同一 个 或 者 一 批 Lun, 但 是 必须 在 一 个 特殊 的 文件 系统 的 协调 下 进行 , 这 个 文件 系统 掌握 全 局 的 
文件 系统 元 数据 ,每 台 主机 虽然 可 以 直接 读 写 Lun, 但 是 在 读 写 之 前 必须 询问 和 经 过 这 个 文件 系 
统 的 同意 ,文件 系统 会 告诉 主机 应 该 怎么 访问 以 及 访问 哪些 地 方 。 


15.10.1 SAN 共享 文件 系统 


多 主机 能 否 同时 读 写 同一 个 LUN 中 的 文件 而 同时 保证 数据 一 致 性 , 一 直 是 很 多 人 在 反复 问 
的 问题 ， 答 案 也 是 固定 的 , 即 必须 通过 使 用 特定 的 共享 式 文件 系统 来 实现 。 即 便 所 有 客户 端 主机 
同时 使 用 DIO+WriteThrough 模式 的 IO 方式 来 访问 对 应 的 文件 ， 由 于 文件 的 Metadata 始终 是 被 
缓存 在 所 有 客户 端 节点 的 ， 而 DIO 和 WT 是 不 能 把 Metadata 也 同步 刷 入 磁盘 的 ， 所 以 这 种 做 法 
只 适用 于 Metadata 永 不 改变 的 情况 下 ,而且 性 能 也 得 不 到 保证 。 

这 个 问题 的 本 质 原因 就 是 因为 整个 系统 内 存在 多 个 独立 的 文件 系统 逻辑 , 即 每 个 客户 端 都 要 
维护 自己 的 文件 系统 缓存 ， 而 它们 之 间 又 互 不 通信 , 各 做 各 的 。 那 么 很 显然 ,解决 这 个 问题 的 根 
本 办 法 ， 就 是 让 整个 系统 内 只 存在 一 份 文件 系统 逻辑 和 缓存 。 这 种 做 法 的 一 个 例子 就 是 NFS 或 
者 CIFS 等 NAS 协议 访问 方式 ， 全 局 的 文件 都 由 一 台 单一 的 NAS 服务 器 来 处 理 ， 客 户 端 不 需要 
处 理 文件 系统 逻辑 。 这 样 的 话 , 只 要 客户 端 应 用 使 用 同步 IO 调用 , 即 可 完全 保证 数据 一 致 性 了 。 

至 此 ， 多 主机 共享 访问 同一 个 LUN 下 面 的 文件 的 问题 ， 有 了 一 种 解决 办 法 ， 即 使 用 NAS。 
然而 , 还 有 另外 一 种 办 法 , 即 保持 客户 端的 访问 协议 和 底层 链 路 速度 不 变 , 直接 把 多 余 的 文件 系 
统 实例 去 除 掉 ， 只 保留 一 份 文件 系统 逻辑 。 这 种 思想 也 就 演变 为 了 共享 式 SAN 文件 系统 了 。 

如 图 15-86 所 示 ， 左 侧 为 整个 系统 原先 的 架构 ， 多 个 主机 共同 访问 同一 个 LUN 中 的 文件 ， 
会 产生 数据 不 一 致 ， 因 为 每 台 主 机 都 各 自 为 政 ， 当 任意 一 台 客户 端 打算 访问 目标 文件 的 时 候 , 它 
们 各 自 会 向 自身 内 存 中 的 文件 系统 发 起 请 求 ， 从 而 执行 IO 操作 。 


图 15-86 传统 文件 系统 与 SAN 文件 系统 比较 
右边 所 示 的 架构 则 为 进化 之 后 的 架构 ,5 台 客 户 端 中 的 4 台 上 的 文件 系统 管理 逻辑 被 剔除 ( 所 
谓 被 剔除 ,并 不 是 说 将 操作 系统 中 的 文件 系统 去 掉 ， 而 是 引入 一 个 可 挂 载 的 新 文件 系统 ) ， 只 在 
其 中 一 个 客户 端 主机 上 保留 了 一 份 。 当 其 他 4 个 客户 端 需要 访问 文件 的 时 候 , 由 于 对 应 的 文件 系 
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统 已 经 不 在 本 地 了 , 而 位 于 第 5 个 客户 端 之 上 , 所 以 它们 需要 通过 网 络 来 向 位 于 第 5 个 客户 端 上 
的 文件 系统 发 起 请 求 ( 由 一 个 代理 程序 模块 发 起 ) ， 也 就 是 图 示 的 以 太 网 络 。5 号 客户 端 上 的 文 
件 系统 接收 到 查询 请 求 之 后 , 将 对 应 的 信息 , 比如 待 访问 部 分 所 对 应 的 LUN 以 及 LUN 中 的 LBA 
地 址 段 等 发 送 回 其 他 客户 端 , 发 起 查询 请 求 的 客户 端 收 到 这 些 数据 之 后 , 需要 自己 来 从 存储 设备 
中 读 出 或 者 写 入 对 应 的 数据 块 。 

经 过 这 样 的 改造 , 就 可 以 避免 同时 访问 时 造成 的 数据 不 一 致 状况 。 而 运行 唯一 文件 系统 管理 
模块 的 那个 客户 端的 身份 也 进化 了 ， 我们 称 它 为 “Metadata Server” 或 者 “Metadata Controller”， 
即 MDS 或 者 MDC。MDS 如 此 重要 ,所 以 一 般 都 会 使 用 两 个 或 者 多 个 MDS 组 成 一 个 HA 的 Failover 
组 以 实现 容错 ， 有 些 甚 至 可 以 实现 双 Active 负载 均衡 。 

至 此 ， 还 有 一 点 比较 重要 的 东西 需要 理解 ， 即 在 图 15-86 左 侧 所 示 的 传统 方式 下 ， 数 据 的 
查询 和 数据 的 IO 都 是 由 同一 个 客户 端 执行 的 ， 而 右 侧 的 架构 中 查询 由 MDS 上 的 中 央 文 件 系统 
来 执行 ， 而 数据 IO 则 需要 每 个 客户 端 自行 执行 ( 直接 访问 后 端 存储 设备 ,无 须 经 由 MDS ) 。 这 
一 点 与 单一 NAS 服务 器 不 同 , SAN 文件 系统 属于 一 种 带 外 架构 , 而 单一 NAS 服务 器 属于 带 内 架 
构 。 理 解 这 一 点 ， 是 理解 后 面 并 行 访 问 集群 化 进化 的 关键 。 


15.10.2 针对 NAS 和 SAN 文件 系统 的 并 行 化 改造 


由 于 传统 NAS 系统 属于 带 内 架构 ， 所 以 NAS 前 端的 有 限 以 太 网 链 路 以 及 单一 NAS 服务 器 
后 端的 带宽 限制 最 终 制约 了 单一 NAS 服务 器 的 性 能 , 为 了 解决 这 个 问题 , 集群 NAS 以 及 对 应 的 
并 行 访问 协议 比如 PNEFS 等 被 开发 了 出 来 ,NAS 领域 也 出 现 了 带 外 MDS 的 概念 ,客户 端 使 用 pNFS 
Client 向 MDS 查询 待 访问 目标 的 位 置 等 信息 , 得 到 信息 之 后 , 自行 向 目标 发 起 访问 。 与 单一 NAS 
服务 器 架构 不 同 的 是 ， 集 群 NAS 系统 中 存在 多 个 存储 节点 ， 客 户 端 可 以 同时 从 所 有 这 些 存 储 节 
点 中 读 写 数据 ,这 就 是 所 谓 的 “并 行 访问 ”了 ， 所 以 也 就 是 一 个 集群 。pNFS 使 用 了 OSD 来 作为 
客户 端 与 存储 设备 之 间 交 互 的 协议 。 

同样 ，SAN 文件 系统 本 身 就 是 一 个 带 外 架构 ， 它 实现 并 行 集群 化 访问 是 原生 就 支持 的 ， 只 
要 在 系统 内 添加 更 多 的 存储 阵列 、 更 多 的 LUN 即 可 。 如 图 15-87 所 示 为 集群 化 并 行 SAN 文件 


系统 和 集群 化 并 行 NAS 系统 的 示意 图 。 


图 15-87 集群 化 并 行 系统 示意 图 
我 们 分 析 到 这 里 就 可 以 发 现 ， 其 实 集群 NAS 和 SAN 共享 文件 系统 这 两 者 的 本 质 是 一 样 的 ， 
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殊途同归 ， 最 终 两 者 都 使 用 了 MDS 作为 中 央 单一 文件 系统 管理 者 ， 各 个 客户 端 使 用 对 应 的 代理 
程序 (比如 PNES 客户 端 、SAN 文件 系统 客户 端 ) 来 直接 并 行 地 访问 存储 设备 。 只 不 过 在 进化 的 
过 程 中 ，SAN 文件 系统 是 一 步 到 位 ， 而 NAS 则 经 历 了 比较 复杂 的 演化 。 

集群 系统 的 再 进一步 进化 的 形态 ， 就 是 类 似 Ibrix 这 样 的 ， 任 何 一 个 节点 都 可 以 充当 MDS， 
使 得 集群 中 的 每 个 节点 都 具有 相同 的 地 位 。 

经 过 集群 化 改造 之 后 ,整个 系统 变 成 了 彻底 的 Scale-Onut 架构 ， 随 着 系统 内 部 存储 节点 的 增 
加 ， 客 户 端 所 获得 的 带宽 和 IOPS 也 就 可 以 线性 上 升 。 


15.10.3 SAN FS 实例 分 析 
下 面 我 们 就 来 看 一 下 一 个 SAN 文件 系统 的 底层 架构 吧 。 
1. 核心 本 地 文件 系统 EXFS 


如 图 15-88 所 示 为 该 SAN FS 的 
底层 架构 简 图 。 其 中 MDC 上 的 核心 BWFS MDS SAN Client LAN Client 


基础 模块 为 一 个 被 命名 为 EXFS 文件 App. 
系统 , EXFS 是 一 个 Linux 上 的 纯 本 地 名 3 
文件 系统 , 由 于 EXT3 存在 诸多 限制 ， he | Be | as | egS 
所 以 这 个 厂商 自己 写 了 一 个 全 新 的 一 co, 
EXFS 文件 系统 。EXFS 不 仅 具有 文件 HBA Drivers 


TCP/IP Network 


系统 的 基本 功能 ， 而 且 还 负责 卷 的 管 


理 和 挂 载 ， 相 当 于 一 个 集成 了 卷 管 理 
模块 的 文件 系统 ， 支 持 管理 底层 最 多 
4096 个 LUN, 而 且 支 持 在 线 扩容 。 可 图 15-88 该 SAN FS 底层 架构 图 


以 在 线 向 对 应 的 文件 系统 内 添加 
LUN， 当 用 户 需要 从 某 个 文件 系统 内 剔除 某 个 LUN 的 时 候 ，EXFS 还 提供 了 对 应 的 工具 来 检测 
哪些 文件 处 于 这 个 LUN 中 ,从 而 可 以 让 用 户 手动 地 将 文件 迁移 到 别处 , 然后 再 剔除 对 应 的 LUN。 
EXEFS 将 整个 文件 系统 的 元 数据 存放 到 一 个 或 者 多 个 专属 的 后 端 卷 中 存放 ， 而 不 是 遍布 后 端 所 有 
LUN， 这 样 做 的 好 处 是 充分 保证 性 能 和 安全 性 。 

此 外 ，EXEFS 的 设计 在 文件 分 布 策略 方面 占有 考究 。 

提示 : EXFS 对 于 文件 的 分 布 给 出 了 三 种 方式 。 第 一 种 就 是 完全 条 带 化 分 布 方式 ， 相 当 于 

一 个 盲 RAID 0 模式 , 每 个 具有 一 定 尺寸 的 文件 都 被 拆 分 多 份 放 在 后 端的 多 个 LUN 中 。 这 

种 模式 对 于 单个 大 文件 的 单线 程 访问 具有 最 好 的 性 能 加 成 。 

第 二 种 则 是 纵向 分 布 模式 ,在 本 书 的 “IO 路 径 及 优化 "相关 章节 中 曾经 详细 分 析 过 盲 RAID 

0 所 存在 的 问题 , 即 多 文件 /LUN 并 发 的 时 候 , 性 能 又 降 。 而 这 对 于 数字 媒体 系统 是 致命 的 ， 

会 直接 导致 视频 播放 的 卡 壳 。 针 对 于 此 ，EXFS 可 以 实现 将 一 个 文件 存放 在 一 个 LUN 中 ， 

下 一 个 文件 存放 在 下 一 个 LUN 中 , 以 此 类 推 。 这 样 就 可 以 保证 并 发 访问 多 个 文件 的 时 候 ， 

不 会 产生 LUN 的 I0 冲突 ， 当 然 这 些 LUN 在 底层 也 最 好 要 位 于 不 同 的 磁盘 组 中 ， 最 终 IO 

冲突 的 是 磁盘 而 不 是 LUN。 
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第 三 种 则 是 为 了 配合 MAID 技术 而 生 的 ,MAID 可 以 让 长 期 没有 IO 访问 的 磁盘 的 盘 片 停止 
旋转 从 而 节 电 。EXFS 在 存储 文件 的 时 候 可 以 将 文件 先 存 满 一 个 LUN， 然 后 再 存储 到 下 一 
个 LUN， 以 此 类 推 。 这 样 ， 其 他 没有 存储 文件 的 LUN 所 对 应 的 磁盘 就 可 以 停止 旋转 了 。 
但 是 这 种 分 布 方 式 会 影响 性 能 。 

用 户 可 以 根据 自己 的 需求 来 选择 不 同 的 分 布 模式 。 


2. MDC 上 的 信息 传递 喘 一 一 NFS Daemon 和 Layout Daemon 


有 了 EXFS 这 个 核心 之 后 ， 必 须 还 要 有 一 个 负责 将 文件 系统 元 数据 信息 传递 给 客户 端 上 的 
代理 程序 的 角色 。 很 显然 , 这 种 角色 早 就 存在 了 , 比如 NEFS 网 络 文件 系统 ,客户 端 可 以 通过 一 
系列 的 RPC Call (比如 GETATTR(、FSINFOO、FSSTATO 等 ) 来 向 服务 端 查询 文件 的 各 种 属 
性 。 该 文件 系统 并 没有 沿用 传统 的 NFS 服务 端 式 的 带 内 模式 , 而 是 在 它 上 面 进行 了 改进 , 增加 
了 一 个 新 层次 来 实现 更 多 的 功能 ( 见 下 文 ) 。 从 这 个 角度 上 来 看 , MDC 相当 于 一 台 带 外 的 NFS 
服务 器 。 


提示 :Ibrix 以 及 其 他 多 个 集群 FS 厂商 的 MDC 节点 其 实 也 是 使 用 NFS Daemon 来 负责 接收 

客户 端的 查询 请 求 , 同样 , Ibrix Fusion Client 的 底层 也 必须 依靠 NFS Client。 不 同 的 是 , Ibrix 

在 Windows 上 直接 使 用 了 微软 提供 的 SFU/SUA 来 作为 NFS Client。 

这 种 特制 的 服务 端 与 传统 的 NFS 服务 器 有 一 点 最 大 不 同 ， 那 就 是 客户 端 针对 文件 的 实际 数 
据 IO 操作 (对 应 着 NFS 协议 中 的 READ0、WRITE0 等 ) 并 不 发 送 给 MDC 来 处 理 ， 因 为 如 果 
连 实际 IO 都 要 MDC 来 处 理 的话 ， 那 整个 系统 真 的 就 与 NAS 无 异 了 。 所 以 MDC 上 的 改进 后 的 
NEFS 服务 端 模块 并 不 处 理 实际 数据 IO ， 而 只 负责 应 答 文件 的 其 他 属性 信息 。 既 然 需 要 客户 端 自 
行 向 后 端的 LUN 发 起 实际 IO 操作 ， 那 么 客户 端 就 必须 知道 对 应 的 文件 段 到 底 存 放 在 哪个 LUN 
的 哪些 Block 中 。 这 些 信 息 只 有 MDC 上 的 EXFS 才 知 道 ， 需 要 将 这 些 信息 传达 给 客户 端 ， 而 传 
统 NFS 服务 端 并 不 具备 这 种 功能 ， 所 以 需要 另外 一 个 模块 专门 传达 这 种 文件 一 块 映射 信息 ， 这 
个 模块 就 是 被 新 加 入 的 层次 

比如 , 客户 端 将 某 个 SAN FS 文件 系统 挂 载 到 了 /mnt 下 , 某 时 刻 客户 端 某 应 用 程序 发 起 “ 读 
取 /mnt/a.txt 的 从 Byte1024 到 Byte2048 之 间 的 字 节 ”这 种 请 求 的 话 , 那么 客户 端 上 的 代理 首先 要 
向 MDC 上 的 Layout Daemon 查询 以 获取 到 /mnt/a.txt 的 Byte1024 到 Byte2048 这 段 字 节 对 应 在 后 
端 LUN 的 具体 Block 地 址 ( 当然 同时 也 可 能 会 向 MDC 上 的 服务 端 查询 一 些 此 文件 的 其 他 属性 
信息 ) 。 对 于 追加 写 请 求 ，MDC 首先 进行 空间 分 配 ， 然 后 将 分 配 之 后 的 存储 空间 地 址 信息 通知 
给 客户 端 ， 客 户 端 向 目标 地 址 做 写 入 动作 。 

Layout Daemon 是 MDC 上 负责 与 Client 端 通信 的 使 者 ， 它 与 Client 端 之 间 的 交互 协议 一 部 
分 是 类 似 NFS 的 协议 ， 另 一 部 分 则 是 私有 协议 。 


3. 客户 端 上 的 元 数据 信息 获取 者 一 一 eNFS 模块 


eNFS 的 取 名 意 为 Enhanced/Extended NFS。eNFS 模块 相当 于 客户 端 上 的 NFS Client, 但 是 
它 比 普通 NFS Client 多 出 一 部 分 功能 ， 也 就 是 它 除了 需要 与 MDC 上 的 改良 NFS 服务 端 通信 之 
外 ， 还 需要 与 Layout Daemon 交互 以 获取 实际 Block 地 址 段 信息 。 在 获取 到 实际 地 址 信息 之 后 ， 


Layout Daemon。 
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eNEFS 便 将 这 些 信息 传递 给 另外 一 个 下 层 模 块 一 VDMAP。 
eNFS 的 作用 方式 和 思想 与 pNFS 类 似 ， 这 也 是 其 名 日 eNFS 的 原因 。 


4. 客户 端 上 的 实际 IO 执行 者 一 一 VDMAP 模块 


VDMAP， 即 Virtual Disk MAP。 它 的 一 个 作用 是 管理 和 映射 底层 的 LUN， 作 为 一 个 简单 的 
卷 管理 器 。 另 外 ， 这 个 模块 还 负责 执行 最 终 由 eNFS 下 发 的 块 级 别 IO 信息 。 这 个 模块 有 两 种 形 
态 : 第 一 种 是 可 以 直接 访问 后 端 LUN 的 客户 端 所 具有 的 形态 ; 第 二 种 则 是 无 法 直接 访问 LUN 
的 客户 端 所 具有 的 形态 。 对 于 无 法 直接 访问 LUN 的 客户 端 ， 其 上 的 VDMAP 模块 可 以 向 前 者 的 
VDMAP 模块 发 起 IO 请 求 ， 由 前 者 代为 执行 对 相应 卷 的 IO。 

思考 : 不 知道 读者 有 没有 感觉 到 ， 其 实 文件 级 的 集群 存储 系统 的 架构 ， 不 管 是 有 IO 节点 

的 还 是 直 连 SAN 访问 的 ， 它 们 本 质 上 是 殊途同归 的 ， 不 管 使 用 什么 样 的 协议 ， 什 么 样 的 

架构 ， 什 么 样 的 硬件 ， 其 实 它们 的 本 质 思 想 就 是 MDC+ 并 行 直接 访问 。 

另外 ， 可 以 将 SAN 文件 系统 看 作 是 一 个 NAS 系统 的 改进 产品 。 这 个 结论 可 能 让 人 大 跌 眼 

镜 , 将 NAS 变 为 SAN， 然 后 还 改进 ? 可 是 事实 就 是 如 此 。 所 以 说 ， 存 储 领域 的 协议 本 来 

就 是 相通 的 ， 本 质 是 殊途同归 的 。 


15.11 集群 的 本 质 种 自 组 自控 轮回 的 Raid 


纵 观 集群 SAN 与 集群 NAS 系统 ， 是 否 可 以 提取 出 一 些 共性 的 、 最 纯粹 的 东西 来 呢 ? 如 图 
15-89 所 示 , 左边 为 一 台 传统 的 双 控制 器 的 磁盘 阵列 系统 精简 架构 图 两 个 控制 器 通过 FCAL 或 
者 SAS 网 络 共 同 控制 着 后 端的 多 块 磁盘 , 多 块 磁盘 组 成 某 种 Raid 类 型 , 比如 Raid 10、Raid 5 等 ， 
数据 被 均衡 打 散 地 分 布 到 Raid 组 中 的 所 有 磁盘 中 ; 而 右边 则 是 IBM XIV 集群 存储 系统 的 精简 架 
构图 ， 可 以 看 到 两 者 有 什么 类 似 了 么 ? 


; 电 
图 15-89 集群 存储 系统 的 本 质 (1) 

先 看 看 拓扑 图 : 前 者 是 控制 器 与 磁盘 通过 某 种 网 络 比 如 FCAL 或 者 SAS 来 连接 通信 ， 后 者 

是 前 端 节点 与 后 端 节点 也 通过 某 种 网 络 连接 通信 。 再 来 看 IO 执行 过 程 ， 前 者 的 数据 IO 过 程 是 : 


控制 器 将 IO 下 发 给 各 个 磁盘 , 磁盘 执行 IO , 将 结果 返回 给 控制 器 , 控制 器 再 将 结果 返回 给 主机 ; 
而 后 者 执行 IO 过 程 的 过 程 是 : 前 端 接口 节点 接受 主机 的 IO 请 求 , 将 IO 下 发 给 自身 磁盘 或 者 后 
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端 数 据 控制 器 节点 ， 自 身 磁盘 或 者 后 端 数 据 控制 器 节点 执行 IO, 将 结果 返回 给 前 端 接 口 控制 器 ， 
接口 控制 器 再 将 结果 返回 给 主机 。 可 以 看 到 这 两 者 执行 IO 的 过 程 是 类 似 的 。 那 么 再 来 看 看 数据 
分 布 的 方式 , XIV 在 所 有 磁盘 中 打 散 分 布 数据 , 本 质 上 是 一 种 Raid 10; 而 前 者 如 果 做 成 Raid 10， 
那么 也 是 将 数据 同样 打 散 分 布 。 两 者 的 区 别 则 是 : 前 者 是 控制 器 将 IO 下 发 给 磁盘 ， 而 后 者 则 是 
前 端 控制 器 节点 将 IO 下 发 给 后 端 控 制 器 而 不 是 直接 下 发 给 后 端 磁盘 。 

如 图 15-90 所 示 为 其 他 典型 集群 场景 是否 可 以 认为 所 有 控制 器 组 成 了 一 个 大 的 Raid 系统 
呢 ? 当 然 可 以 ! 每 个 控制 器 下 面 的 磁盘 做 成 Raid, 然后 多 个 控制 之 间 再 做 成 Raid 0, 或 者 全 局 磁 
盘 做 成 一 个 灵活 的 Raid 10。 


那么 是 不 是 可 以 抽象 成 三 个 角色 的 两 个 层次 : 第 一 层 Raid 和 第 二 层 Raid、 第 一 层 网 络 和 第 
二 层 网 络 、 第 一 层 控 制 器 和 第 二 层 控制 器 ? 所 谓 第 二 层 控制 器 是 指 集群 功能 本 身 这 个 “虚拟 控制 
屁 ”。 

提示 : 目前 有 不 少 厂商 的 宣传 用 语 中 已 经 出 现 了 “网 络 Raid” 这 个 名 词 , 其 实 就 是 指 一 种 

轮回 的 表现 。 那么 我 们 是 不 是 可 以 说 , 集群 就 是 网 络 上 的 Raid, 也 就 是 Redundant Array of 

Independent Node， Rain? 


15.11.1 三 统 理论 


如 果 说 客户 终端 访问 服务 器 的 网 络 为 传统 的 以 太 网 LAN， 是 第 一 网 ， 也 就 是 业务 网 ， 那 么 
服务 器 访问 存储 系统 所 使 用 的 网 络 就 是 第 二 网 ， 也 就 是 SAN，SAN 可 以 基于 以 太 网 或 者 FC 等 
网 ; 而 如 图 15-91 所 示 , 用 于 存储 集群 以 及 主机 集群 内 部 通信 和 数据 传输 的 网 络 , 已 经 形成 了 一 
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图 15-91 第 三 网 
这 里 有 个 观点 , 叫做 三 统 , 哪 三 统 呢 ? 首先 是 集群 的 统一 , 大 家 知道 目前 有 各 种 各 样 的 集群 ， 
比如 计算 集群 、 存 储 集群 ， 存 储 集 群 中 又 分 为 汲取 SAN、 集 群 NAS、 分 布 式 文件 系统 、 集 群 文 
件 系统 等 ， 如 此 多 样 的 集群 ， 其 本 质 无 非 就 是 一 堆 x86 的 节点 ,用 某 种 网 络 连 接 起 来 后 面 挂 了 大 
量 磁盘 的 ， 就 是 存储 集群 中 的 节点 ， 拥 有 大 量 CPU 和 内 存 的 ， 就 是 计算 节点 ， 如 果 两 者 此 有 ， 
那 就 是 统一 集群 了 ， 如 图 15-92 所 示 。 


集群 的 统一 、 网 络 的 统一 、 协 议 的 统一 


集群 的 统一 : 计算 与 存储 集群 合体 、 集 群 SAN 与 集群 NAS 的 统一 。 集 群 本 身 变 为 
一 个 平台 ， 多 协议 承载 与 其 上 。 软 件 集 群 与 硬件 集群 解 厅 
网 络 的 统一 : 三 网 合 一 为 System Area Network (SAN) 
协议 的 统一 : 文件 与 块 得 到 真正 的 统一 ， 访 问 方式 统一 〈 对 象 存储 ) 
图 15-92 三 统 理论 示意 图 
为 何 计算 与 存储 以 前 要 分 开 呢 ? 因 为 以 前 的 DAS 直 连 存储 性 能 和 容量 均 跟 不 上 ， 而 且 属 于 

孤岛 形态 , 这 限制 了 存储 的 发 展 ,必须 要 将 其 与 计算 分 开 独 立 发 展 。 所 以 存储 后 来 先 发 展 为 双 控 
制 器 传统 网 络 存储 ， 此 时 计算 与 存储 无 法 合体 ; 再 后 来 ,外 置 存储 发 展 到 集群 化 形态 之 后 ,虽然 
其 表象 仍然 是 分 的 ,但 是 其 里 面 却 是 合 的 ， 对 外 合 为 一 体 的 。 此 时 ， 计 算 与 存储 集群 经 历 了 长 久 
分 开 之 后 ,也 必 将 会 重新 合体 ， 寻 回 其 本 源 。 大 家 可 以 看 到 这 是 一 个 轮回 和 分 分 合 合 的 过 程 。 如 
今 , 存储 系统 正在 向 集群 化 发 展 ， 而 计算 也 是 集群 化 , 那么 计算 集群 与 存储 集群 就 可 以 完美 的 被 
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融合 起 来 了 ， 形 分 神 合 。 这 种 形态 也 属于 之 前 提 过 的 “自助 型 存储 集群 ”。 除 了 主机 集群 与 存储 
集群 的 合体 之 外 , 集群 SAN 与 集群 NAS 其 实 也 可 以 统一 , 目前 很 多 厂商 都 推出 了 块 虚拟 化 产品 ， 
它们 的 LUN 在 后 端 其 实 就 是 一 个 文件 , 可 以 被 打 散 存放 在 底层 磁盘 各 处 。 既 然 SAN 设备 底层 都 
使 用 类 文件 系统 来 管理 了 ,那么 SAN 与 NAS 的 后 端 其实 就 已 经 被 统一 了 , 剩 下 的 ， 就 是 前 端 访 
问 协 议 的 统一 了 ( 见 下 文 ) 。 此 外 ,集群 硬件 也 将 变 为 一 个 平台 ， 其 上 的 各 种 协议 、 应 用 ， 则 变 
成 了 一 种 服务 , 比如 SAN 服务 、NAS 服务 ; 而 分 布 式 文件 系统 则 是 集群 NAS 的 支撑 层 , 其 本 身 
与 集群 NAS 属于 一 种 本 质 上 的 东西 。 至 此 ， 集 群 硬件 形态 与 上 层 软件 充分 解 耦 。 

其 次 是 访问 协议 的 统一 。 既 然 集 群 已 经 变 为 一 个 通用 集群 , 那么 访问 这 个 集群 的 方式 也 应 该 
被 融合 。 上 文中 曾经 提 到 过 ,文件 与 块 的 本 质 其 实 是 一 样 的 ， 只 是 组 织 与 访问 方式 不 同 罢了 。 如 
今 块 虚拟 化 的 存储 系统 比比 皆 是 ， 它 们 无 一 例外 都 将 LUN 当 作 一 个 文件 一 样 来 对 待 ， 恨 不 得 直 
接 在 纯 种 文件 系统 中 用 文件 虚拟 出 一 个 LUN 来 。 既 然 这 样 ， 底 层 其 实 是 被 文件 系统 给 统一 了 ， 
那么 外 围 的 访问 方式 上 ,也 应 该 被 统一 。 本 质 上 讲 , 不 管 是 块 还 是 文件 ， 其 实 它们 都 用 同一 种 协 
议 访问 : 操作 码 、 目 标 、 起 始 偏 移 、 长 度 。 对 于 块 访问 ， 目 标 就 是 LUN ID ， 而 对 于 文件 ， 目 标 
就 是 某 路 径 ， 比 如 /a/b/c.txt， 那 么 是 否 有 一 种 东西 来 屏蔽 目标 的 不 同 呢 ? 其实 早 就 有 这 种 协议 ， 
说 到 这 里 大 家 可 能 悟 到 了 , 这 就 是 对 象 存储 系统 , 对 象 存储 协议 就 是 将 文件 与 块 访问 大 统一 的 最 
佳 修 选 协 议 了 ,只 要 时 机 成 熟 , 文件 、 块 大 统一 的 访问 方式 必 将 席卷 存储 技术 领域 。 块 与 文件 这 
两 种 访问 协议 分 开 太 久 了 ， 有 合 的 趋势 与 欲望 ， 底 层 技术 也 很 给 力 。 其 实 对 存储 协议 早 在 20 世 
纪 80 年 代 就 被 提出 了 , 时 隔 30 年 ， 如 今 终 于 有 了 用 武之 地 ， 就 是 利用 对 象 协议 ， 可 以 将 文件 与 
块 的 访问 完美 地 融合 统一 起 来 。 如 果真 的 可 以 用 对 象 存储 做 到 统一 , 那么 主机 端 会 出 现 一 种 新 的 
HBA， 即 OSD HBA， 其 将 OSD Initiator 集成 到 硬件 中 ,存储 对 象 既 可 以 表现 为 一 个 目录 ,又 可 
以 表现 为 一 个 卷 。 

最 后 ， 就 是 网 络 的 统一 。 不 管 第 一 网 、 第 二 网 还 是 第 三 网 , 如 果 有 一 种 网 络 可 以 同时 满足 需 
求 ， 那 么 为 何不 统一 呢 ? 比如 以 太 网 。 

做 到 这 三 统 , 这 才 是 真正 的 统一 存储 ,而 不 是 同一 个 机 头 同时 出 块 和 文件 协议 。 这 就 叫 统一 
存储 ? 咕 头 而 已 ， 看 似 统一 ， 实 则 意义 不 是 很 大 。 


15.11.2 ”并 行 的 不 仅 可 以 是 文件 


在 前 文 介绍 对 象 存储 系统 时 ， 有 一 个 思考 ， 里 面 提 到 了 其 实 文件 IO 与 块 IO 的 本 质 是 一 样 
的 。 既 然 本 质 相同 ， 而 分 布 式 文件 系统 可 以 实现 主机 端的 并 行 访问 以 提高 效率 ,那么 为 何 主机 不 
可 以 用 块 协议 来 并 行 访问 一 个 Scale-Out 的 SAN 存储 系统 呢 ? 当然 可 以 了 ， 没 人 规定 不 可 以 ， 
只 是 还 没有 形成 一 个 标准 而 已 。 

这 方面 ， 尖 兵 厂 商 Infortrend 的 产品 ESVA 率先 打破 了 常规 。 其 ESVA 产品 对 主机 侧 提供 了 
一 个 Load Balance Driver ( LBD ) ， 也 就 是 并 行 访问 客户 端 ， 可 以 分 别 连 接 到 ESVA 集群 中 到 每 
个 节点 来 并 行 地 访问 数据 。ESVA 集群 中 的 节点 各 自 连 接 到 FC 交换 机 上 。ESVA 集群 中 有 一 台 
Master 节点 ， 统 管 集群 中 的 卷 元 数据 ， 其 他 都 为 成 员 节点 , 这 个 思想 与 分 布 式 并 行文 件 系统 完全 
一 致 。 当 使 用 了 LBD 的 时 候 ， 主 机 客户 端 会 从 所 有 节点 中 认 到 全 局 虚拟 的 LUN, 并 可 以 直接 与 
所 有 节点 通信 读 写 数据 ; 当 不 安装 Load Balance Driver 的 时 候 ， 主 机 客户 端 只 能 通过 Master 节点 
来 挂 载 对 应 的 LUN， 当 需要 访问 的 数据 恰好 落 在 成 员 节 点 中 时 ， 则 数据 必须 经 过 Master 节点 的 
中 转 ， 会 多 耗费 一 次 经 过 FC 交换 机 的 转发 。 
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块 级 别 的 并 行 比 文件 级 并 行 来 得 更 容易 ,因为 分 布 式 文件 系统 中 的 文件 存放 位 置 与 映射 关系 
错综复杂 ， 随 时 在 变化 ， 而 块 级 存储 中 的 LUN 的 位 置 相 对 于 分 布 式 文件 系统 来 讲 并 没有 那么 多 
的 变化 , 几乎 分 配 完 之 后 就 恒定 在 对 应 的 节点 中 , 这样 ,阵列 与 主机 端 并 行 客户 端 之 间 需 要 同步 
更 新 的 LUN 数据 布局 元 数据 信息 就 很 少 ， 效 率 很 高 。 

再 分 析 下 去 ，ESVA 的 并 行 客户 端 又 似乎 像 是 一 个 分 布 式 卷 管理 系统 ， 这 里 的 卷 其实 就 是 
LUN， 只 不 过 一 个 LUN 会 被 分 布 到 多 个 集群 节点 中 存放 。 所 以 ， 其 相当 于 同时 提供 了 一 台 台 
单独 阵列 ， 而 同时 又 给 主机 上 提供 了 一 个 处 于 主机 操作 系统 内 核 卷 管理 更 下 层 位 置 的 卷 管理 层 ， 
将 识别 到 的 多 个 独立 的 LUN 虚拟 成 一 个 Raid0 的 大 空间 。 这 样 做 存在 一 个 风险 : 一 旦 这 些 独 立 
阵列 中 的 一 台 出 现 故 障 , 那么 整个 系统 的 数据 不 再 可 用 。 但 是 话 又 说 回来 ， 如 果 这 个 系统 是 一 个 
单 阵列 , 你 把 所 有 数据 都 放 到 这 人 台 阵 列 中 保存 ,那么 它 出 问题 的 几率 会 有 多 少 ? 从 这 种 角度 来 讲 ， 
不 管 系统 中 有 多 少 台 阵列 , 与 单 阵列 出 问题 的 几率 是 相同 的 ， 而 单 阵列 出 问题 导致 停机 的 几率 是 
非常 低 的 。 即 便 这 样 ， 为 了 增加 安全 系数 ， 厂 商 也 实现 了 所 谓 网 络 Raid， 即 在 集群 中 的 所 有 节 
点 之 间 青 做 一 层 Raid 5 来 防止 单个 节点 故障 ， 这 样 也 就 成 了 Raid for Rain。 这 种 Raid 的 计算 也 
有 两 种 方式 : 一 种 是 直接 在 主机 端 计算 好 之 后 ,并 行 地 写 入 每 个 节点 ,这 种 做 法 就 变 成 了 彻 头 彻 
尾 的 软 Raid 5 了， 比如 Windows 下 的 动态 磁盘 ; 另 一 种 则 是 由 集群 中 的 存储 节点 来 自行 计算 ， 
这 样 势 必要 浪费 大 量 的 集群 内 部 通信 网 络 带宽 ， 而 且 性 能 也 不 会 很 好 。 

对 象 存储 OSD 协议 或 许 有 希望 在 一 段 时 间 之 后 真正 成 为 块 级 并 行 访问 的 标准 协议 ， 因 为 它 
既 像 块 , 又 像 文件 ,而 分 布 式 文件 系统 已 经 有 了 标准 访问 协议 , 那 就 是 pNFS，pNFS 显然 不 适合 
块 级 ， 那 么 OSD 或 许 就 是 最 佳 的 候选 对 象 了 。 

另外 , 有 了 并 行 访问 客户 端 之 后 , 之 前 的 多 路 径 软 件 也 就 可 以 被 统一 了 , 因为 并 行 客户 端 自 
然 会 考虑 多 路 径 Failover 和 Failback 的 问题 ， 之 前 多 路 径 软 件 自身 所 作 的 负载 均衡 基本 上 都 没有 
太 大 的 意义 ， 因 为 对 于 传统 双 控 阵列 来 讲 ，LUN 的 工作 控制 器 只 有 一 个 ， 在 这 个 前 提 下 ， 多 路 
径 负载 均衡 是 不 具 太 大 意义 的 。 但 是 在 多 控 的 Scale-Out 分 布 式 架构 下 ， 多 路 径 软 件 对 集群 中 的 
每 个 节点 都 有 维护 一 条 路 径 ,， 那么 这 个 时 候 ， 多 路 径 软 件 已 经 不 是 传统 意义 的 多 路 径 了 , 并行 访 
问 上 升 为 关键 点 ， 而 此 时 ,多 路 径 软 件 就 彻底 成 为 一 个 并 行 访问 客户 端 了 ， 而 不 应 该 再 叫 多 路 径 
软件 。 在 所 有 路 径 工 作 正常 的 条 件 下 ,主机 可 以 直接 从 集群 中 的 每 个 节点 读 写 数据 , 集群 内 部 通 
信和 网 的 负载 是 非常 低 的 , 仅 用 于 同步 一 些 元 数据 状态 等 , 一 旦 主机 到 集群 的 某 条 或 者 某 几 条 路 径 
失效 , 那么 集群 中 对 应 的 节点 就 与 主机 失去 了 连接 , 这 些 节 点 中 的 数据 只 能 通过 集群 内 部 通信 网 
被 传输 到 与 主机 尚 有 连接 的 那些 节点 中 , 通过 这 些 节点 将 数据 转发 给 主机 , 此 时 内 部 通信 网 的 流 
量 就 会 增加 。 


15.11.3 ”集群 底层 与 上 层 解 耦 


上 文中 提 到 ， 集 群 硬件 层 可 能 会 变 为 一 个 平台 ， 承 载 各 种 集群 软件 层 。 就 像 一 个 卖 盒饭 的 ， 
为 了 盛 饭 ， 他 不 仅 要 自己 把 饭 做 好 ,还 得 把 盒子 做 好 ， 然 后 把 饭 盛 到 盒子 里 一 起 卖 。 但 是 他 可 能 
发 现 自己 做 饭盒 实在 不 在 行 ， 只 想 专 心 做 饭 。 这 时 ， 有 个 人 专门 做 饭盒 ， 他们 一 拍 即 合 ， 相互 合 
作 。 这 是 一 种 软 硬 分 开 的 表现 。 

也 就 是 说 ,比如 某 分 布 式 文件 系统 , 如 果 要 把 它 包装 为 一 款 可 交付 的 产品 当然 可 以 , 只 买 软 
件 光盘 即 可 。 但 是 用 户 的 硬件 是 各 种 各 样 的 , 兼容 性 不 一 , 软件 安装 其 上 之 后 可 能 会 出 现 各 种 问 
题 , 这 就 是 现在 的 软件 厂商 争 相 给 自己 的 软件 捆绑 到 硬件 中 打包 出 售 的 原因 之 一 。 这 就 表现 为 一 
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种 软 硬 相 合 。 

分 久 必 合 , 合 久 必 分 , 又 应 了 这 句 老 话 。 软件 和 硬件 这 两 者 总 是 在 分 分 合 合 中 螺旋 上 升 发 展 。 
两 者 也 会 出 现 相互 争 抢 的 局 面 , 比如 硬件 总 是 想 从 软件 层面 ooad 下 来 更 多 的 功能 , 比如 TCPIP 
Offload，iSCSI Offload，XOR Ofload 等 ， 而 软件 似乎 也 在 向 硬件 争 抢 ， 比 如 软 Raid， 软 卷 管理 
层 等 。 

对 于 硬件 集群 平台 与 其 上 的 软件 集群 形式 ( 比如 集群 文件 系统 、 集 群 SAN 等 ) ， 它 们 两 者 
如 果真 的 做 到 了 解 耦 ， 那 么 也 会 发 展 出 这 种 争 抢 态势 。 比 如 底层 硬件 想 去 ofhoad 上 层 软件 集群 
中 的 一 些 机 制 ， 如 消息 通信 机 制 、 错 误 监 测 与 恢复 联动 机 制 等 。 硬 件 提供 一 个 标准 集群 ,比如 基 
于 PCI-E 交换 网 络 的 集群 ， 基 于 Infiniband 的 ， 基 于 以 太 网 的 ， 等 等 ， 不 管 底层 是 Infiniband 还 
是 以 太 网 , 底层 硬件 集群 会 将 其 抽象 封装 为 标准 的 接口 ,上层 的 集群 软件 可 以 更 加 专注 于 高 层 功 
能 ,比如 数据 排 布 方式 以 及 效能 等 层面 的 研发 与 提升 ， 底层 这 些 通用 化 的 机 制 , 最终 将 被 固化 为 
标准 ， 从 而 获得 所 有 厂商 的 支持 。 


15.11.4 ” 云 基础 架构 


而 如 果 青 往 上 走 一 层 ， 那 就 是 云 了 。 整 个 集群 作为 一 个 基础 架构 服务 的 提供 者 , 其 上 覆盖 资 
源 管理 层 ， 再 覆盖 一 层 业务 展现 层 ， 就 可 以 作为 一 个 云 来 提供 各 种 各 样 的 IT 服务 ， 如 图 15-93 
所 示 。 
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图 15-93 云 基 础 架构 
世界 就 是 一 个 集群 。 任何 目前 所 理解 的 物质 , 都 是 由 更 小 的 “粒子 ”或 者 说 基石 组 成 的 集群 。 
或 者 说 , 任何 “物质 ”，, 其 实 都 是 由 世界 本 源 的 基本 公式 释 加 而 成 的 庞大 算式 。 任 何 逻 辑 ， 都 是 
这 些 “ 物 质 ” 即 算式 的 释 加 演算 过 程 。 逻 辑 是 “物质 ”变化 过 程 的 体现 。 任 何 对 逻辑 的 改变 ,最 
终 会 体现 对 “物质 ”的 改变 ， 而 “物质 ”的 改变 ， 又 体现 为 逻辑 。 万 物 皆 和 合 。 个 体 的 无 意识 
活动 组 成 了 整体 的 有 序 , 冥 冥 中 总 有 一 个 奥妙 之 物 来 指引 所 有 个 体 的 行动 , 但 是 个 体 自身 却 感觉 
不 到 ， 或 者 正 逐 渐 地 隐约 感知 到 ! 


15.12 纯 软 Scale-Out SAN 
Infortrend 的 ESVA 存储 系统 是 比较 特别 的 一 款 集群 SAN 存储 系统 。 它 的 特别 体现 在 ， 其 
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Scale-Out 扩展 方式 完全 是 利用 主机 端的 一 个 虚拟 卷 Filter Driver 实现 的 , 也 就 是 靠 这 个 卷 驱 动 来 
把 所 有 连接 到 该 主机 上 的 所 有 节点 上 的 资源 整合 起 来 ， 相 当 于 一 个 定制 化 的 LVM。 但 是 配置 依 
然 是 在 存储 端 来 配置 。ESVA 中 的 “V” 就 代表 虚拟 的 意思 ， 指 的 就 是 用 这 个 卷 驱 动 来 将 所 有 节 
点 的 空间 整合 起 来 。 节 点 可 以 随 进 随 出 , 添加 新 节点 之 后 , 原来 的 数据 会 被 自动 均衡 到 这 个 节点 
上 , 同样 ， 踢 出 节点 前 ,数据 会 先 被 迁移 到 其 他 节点 上 ， 然 后 再 踢 出 。 这 种 纯 软 Scale-Out SAN 
集群 方案 的 好 处 类 似 于 支持 并 行 访问 客户 端的 集群 文件 系统 , 客户 端 可 以 并 行 访问 集群 中 所 有 节 
点 ， 而 传统 集群 SAN 方案 下 ， 客 户 端 只 能 从 集群 中 的 某 个 节点 来 读 写 数据 ， 虽 然 可 以 使 用 多 路 
径 软件 来 变相 地 “均衡 ”， 但 是 客户 端 不 知道 要 访问 的 数据 到 底 在 哪个 节点 上 ， 如 果 将 一 个 IO 
发 送 给 一 个 并 没有 对 应 这 笔 IO 数据 的 节点 ， 那 么 这 个 节点 一 样 要 经 过 内 部 交换 网 络 从 其 他 节点 
处 取 回 数据 再 发 送 给 客户 端 ， 这 个 过 程 耗费 了 无 谓 的 资源 。 而 ESVA 纯 软 Scale- Out 方案， 客户 
端的 卷 驱 动 是 知道 每 一 笔 IO 到 底 要 发 给 哪个 节点 的 ， 直 接 有 的 放 矢 地 从 对 应 节点 取 数 据 ， 提 高 
了 性 能 。 

如 图 15-94 所 示 。ESVA 将 整个 系统 分 为 多 个 Pool， 每 个 Pool 可 以 由 位 于 不 同 节点 的 不 同 
磁盘 组 合 而 成 ， 可 以 向 任何 Pool 中 添加 任何 节点 的 任何 磁盘 。 
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图 15-94 设置 一 个 池 
如 图 15-95 及 图 15-96 所 示 , 可 以 向 Pool 中 添加 新 的 节点 及 磁盘 , 也 可 以 从 Pool 中 删除 节 
点 或 者 磁盘 。 如 果 将 前 者 称 为 Scale-Out， 后 者 则 可 以 称 为 Scale-Back。 
如 图 15-97 所 示 ， 选 择 将 新 加 入 的 磁盘 做 成 何 种 类 型 的 Raid 组 ， 并 选择 数据 重新 均衡 时 候 
耗费 的 系统 资源 优先 级 。 然 后 系统 会 自动 完成 重新 均衡 。 


i Name | ID [IPAddress| J60DID Model | Name | ID [IPAddress [ JBoom | 
| ESVAF60- Sys-1 。 681FA 19216819. NA 


ESVAF60.. Sys_2 G81FB 192.168.19.. NA 


图 15-95 添加 或 者 删除 节点 


Select | Siot [ Sze Spare | ProductiD 
| 
B11 9312508 ATA Hitachi 
PF 12 9312568 ATA Hitachi PoolSize 1182TB 
区 13 932508 ATA Hitachi 

图 15-96 添加 或 者 删除 磁盘 图 15-97 重新 均衡 


15.13 互联 网 运营 商 的 特殊 集群 一 一 NoSQL 


数据 海量 集中 的 地 方 ， 无 疑 是 互联 网 运营 商 (或 称 网 络 服务 提供 商 ，NSP ) 的 数据 中 心 了 。 
这 里 代表 了 存储 技术 发 展 的 最 前 沿 。 也 正 是 因为 海量 数据 存储 与 访问 ,使 得 传统 存储 架构 、 成 本 
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已 经 无 法 满足 需求 了 。 比 如 ， 每 秒 几 十 万 次 的 随机 IOPS， 每 秒 10GB 的 流量 ， 如 果 使 用 传统 高 
端 存储 ， 那 成 本 将 是 高 不 可 攀 的 ， 而 且 很 多 时 候 需 要 多 台 存 储 才 可 以 满足 ， 而 且 后 期 的 扩展 性 以 
及 扩容 成 本 都 是 不 可 接受 的 ，NSP 当然 不 愿意 骑 虎 难 下 。 正 因 有 如 此 强烈 的 业务 驱动 ， 导 致 各 
NSP 逐步 采用 分 布 式 系统 来 构建 其 底层 文件 系统 及 数据 库 。 比 如 先驱 Google 的 GFS+Bigtable， 
以 及 后 续 追 随 者 Amazon 的 Dynamo\Facebook 的 Cassandra 、Microsoft 的 Azure 、Yahoo 的 PNUTS、 
淘宝 的 TFS+Tair 等 。 这 些 系统 都 是 动 辑 数 百 甚至 数 干 个 节点 组 成 的 分 布 式 集群 。 


1. 弱 环 境 


这 些 系 统 无 疑 都 是 使 用 廉价 定制 化 的 PC 来 搭建 的 ， 单 个 节点 各 自 有 各 自 的 计算 资源 和 存 
储 资 源 ， 互 不 共享 ， 也 就 是 Share-Nothing。 而 且 单 节点 的 可 靠 性 不 高 。 所 以 NSP 分 布 式 系统 
的 硬件 环境 为 一 种 “ 弱 环 境 ”， 为 了 保证 最 终 的 可 靠 性 ， 那 么 就 必须 在 软件 层面 实现 强 环境 ， 
比如 将 数据 块 保存 3 个 副本 在 三 台独 立 的 机 器 上 。 为何 要 是 3 而 不 是 2 呢 ? 因为 如 果 只 有 两 份 
副本 的 话 ， 发 生 数据 丢失 的 可 能 性 依然 很 大 ， 比 如 一 旦 某 个 节点 故障 或 者 某 个 磁盘 故障 ， 此 时 
对 应 的 数据 就 处 于 危险 边缘 。 对 于 一 个 1000 节点 的 集群 ,每 周 大 概 有 20 块 硬盘 损坏 ， 保 存 同 
一 个 数据 的 2 份 副本 的 两 个 硬盘 同时 失效 的 可 能 性 也 是 有 的 。 所 以 如 果 保留 3 份 副本 的 话 ， 危 
险 程度 会 大 大 降低 。 


2. CAP 理论 


传统 的 关系 型 数据 库 已 经 无 法 在 保证 性 能 的 前 提 下 达到 如 此 高 的 扩展 性 , 因为 传统 关系 型 数 
据 库 是 要 保证 强 一 致 性 的 (比如 用 户 A 写 入 的 数据 ,用 户 B 立即 就 能 看 到 等 等 ) 。 所 以 , 一 致 
性 、 性 能 、 扩 展 性 , 这 三 者 是 不 能 够 同时 兼顾 的 , 只 能 任 选 其 中 两 者 ( 这 便 是 著名 的 CAP 理论 ) 。 
而 NSP 的 某 些 对 外 业务 所 需要 的 就 是 超 高 性 能 和 扩展 性 ， 那 么 其 只 好 适当 牺牲 一 致 性 了 ， 因 为 
就 大 部 分 互联 网 服务 而 言 ， 数 据 短暂 的 不 一 致 是 可 以 接受 的 ， 比 如 DNS 解析 ， 更 换 主 机 之 后 可 
能 并 不 能 实时 刷新 到 全 网 范围 。 同 样 ， 由 于 数据 块 保留 3 个 副本 , 那么 是 当 所 有 副本 都 同步 写 入 
对 应 节点 之 后 再 向 客户 端 返回 成 功 信息 , 还 是 只 写 一 份 就 返回 成 功 信息 呢 ? 后 者 肯定 是 有 利于 性 
能 , 但 是 却 笨 和 性 了 一 致 性 , 比如 当 某 份 副本 还 没有 更 新 到 对 应 节点 时 ， 有 另 一 个 客户 端 从 这 个 尚 
未 被 同步 的 节点 发 起 对 这 份 数据 的 读 , 那么 这 个 客户 端 将 读 到 过 期 的 数据 , 这 就 发 生 了 数据 不 一 
致 。CAP 理论 是 指 Consistency、Availability 以 及 Partition Tolerance, 分 别 指数 据 访问 时 的 一 致 性 、 
可 用 性 (请求 总 是 可 以 被 执行 和 返回 , 不 超时 。 可 视 为 性 能 ) 以 及 分 区 容忍 性 。 前 两 者 大 家 都 理 
解 ,最 后 一 个 “分 区 容忍 性 ”是 指 大 规模 集群 一 旦 遇 到 网 络 或 者 其 他 类 型 故障 导致 整个 集群 被 裂 
为 多 个 孤岛 ， 此 时 集群 是 否 依然 正常 提供 服务 ， 这 一 点 可 以 视 为 扩展 性 中 的 一 个 子 需求 。 


3. NWR 模型 


有 什么 办 法 可 以 保证 一 致 性 呢 ? 办 法 当然 有 ， 有 一 个 著名 的 模型 叫做 NWR 模型 ， 可 以 在 
一 致 性 与 性 能 之 间 实 现 巧妙 的 均衡 。N 表示 对 应 数据 块 要 保存 的 副本 数 ，W 表示 成 功 了 写 入 几 
份 就 可 以 向 客户 端 返 回 成 功 信息 , R 表示 为 了 保证 读 时 候 的 一 致 性 , 客户 端 必须 从 保存 这 份 副本 
的 N 个 节点 中 的 几 个 同时 读 出 数据 。 比 如 N=3，W=1， 也 就 是 刚才 那个 场景 ， 那 么 此 时 如 果 
R=1， 则 不 能 保证 一 致 性 ， 因 为 此 时 RR 可 能 从 另外 两 个 保存 这 份 副本 的 节点 读 取 ， 但 是 也 有 可 
能 从 当初 Ww 的 那个 节点 读 取 , 那么 就 是 一 致 的 , 但 是 不 能 保证 每 次 都 从 当初 W 的 节点 读 取 ; 而 
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如 果 有 2， 同样 不 能 保证 ; 但 是 R 如 果 =3， 那么 就 可 以 保证 ， 读 出 的 这 3 份 数 据 ， 至 少 有 一 份 是 
最 新 的 ， 那 么 通过 判断 数据 块 的 timestamp 时 间 戳 就 可 以 判断 这 3 份 中 哪 一 份 (或 几 份 ) 是 最 新 
的 ， 从 而 丢弃 剩余 的 不 一 致 的 副本 。 而 如 果 W=2， 也 就 是 必须 同步 的 写成 功 2 个 副本 才 返 回 成 
功 信号 ， 那 么 读 的 时 候 就 可 以 读 出 2 份 就 能 保证 至 少 有 一 份 是 最 新 的 了 。 所 以 ， 只 要 W+R>N， 
即 可 保证 读 一 致 性 。 有 人 问 说 , 如 果 读 的 时 候 只 从 当初 写 入 的 那个 节点 读 不 就 都 一 致 了 么 ? 是 的 ， 
但 是 这 样 做 就 无 法 保证 性 能 了 , 所 有 节点 均 可 同时 写 入 同时 读 取 同 一 份 副 本 , 这 样 性 能 是 最 高 的 ， 
只 不 过 牺 性 了 一 致 性 ; 如 果 要 保证 一 致 性 , 那么 就 采取 NWR 模型 来 调和 到 底 是 要 读 性 能 高 ( 增 
加 WwW 的 值 ) 还 是 要 写 性 能 高 ( 降低 W 的 值 ) ， 读 写 性 能 都 高 的 话 就 得 完全 牺牲 一 致 性 ， 这 就 是 
NWR 模型 的 魅力 所 在 。 


4. 水 平 切 分 与 垂直 切 分 


数据 在 集群 中 的 分 布 有 两 种 方式 , 第 一 种 是 水 平 切 分 方式 , 比如 一 张 表 , 可 以 水 平 被 裂 开 为 
多 张 表 , 每 张 表 都 保存 有 原来 的 列 , 每 张 表 被 分 别 存储 到 集群 中 的 一 个 节点 中 (并 保留 其 他 两 个 
副本 ) ;而 垂直 切 分 相当 于 把 一 张 表 竖 直 裂 开 为 多 张 表 ,原来 的 多 个 列 被 拆 开 ,分 别 存储 在 集群 
中 的 一 个 节点 中 (并 保留 其 他 两 个 副本 ) 。 这 样 做 相当 于 把 数据 打 散 ， 从 而 获得 超 高 的 随机 查询 
性 能 。 垂直 切 分 相当 于 是 基于 业务 层面 的 切 分 具有 一 定 的 人 为 介入 度 ; 而 水 平 切 分 则 相当 于 全 
局 层面 的 数据 宦 切 分 。 


5. NosQL 


此 外 , 这 种 弱 一 致 性 的 数据 库 集 群 一 般 都 不 支持 事务 。 同 时 , 也 不 支持 传统 关系 型 数据 库 的 
关联 查询 动作 , 也 就 是 说 , 由 于 完全 分 布 式 , 所 以 多 个 节点 之 间 的 数据 如 果 想 要 进行 关联 查询 是 
很 不 经 济 的 ,会 导致 整个 系统 慢 的 不 可 想象 ， 这 就 是 上 文中 曾经 提 到 的 ,MPP 有 MPP 的 适用 场 
合 ， 如 果 每 笔 查 询 或 者 IO (比如 MPP 架构 商用 存储 系统 中 的 大 块 连续 IO ) 都 需要 所 有 节点 提 
供 数 据 分 片 ， 那么 此 时 并 发 性 能 将 会 非常 差 。 所以, 这 类 去 关联 性 的 、 弱 一 致 性 的 轻 量 级 的 分 布 
式 数 据 库 系统 ， 就 属于 NoSQL 系统 ， 即 “抛弃 传统 SQL” 或 者 “Not Only SQL” 的 意思 。 
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第 本 0 音 


未 雨 绸 缪 一 一 数据 保护 和 备份 技术 


" ”数据 保护 
"快照 
" CDP 
， ”数据 备份 
， ”备份 通路 


数据 是 表示 信息 的 信息 。 数据 丢失 或 者 损坏 , 信息 也 
就 丢失 或 者 被 扭曲 了 。 为 了 防止 数据 意外 丢失 或 者 损毁 ， 
人 们 想 出 了 一 系列 的 方法 来 保护 当前 的 数据 。 此 外 , 为 了 
最 大 程度 地 保护 数据 , 人 们 还 在 其 他 地 方 保存 数据 的 一 份 
或 者 多 份 副 本 

数据 保护 和 数据 备份 看 似 简单 , 实则 很 复杂 。 数据 保 
护 和 备份 已 经 成 为 存储 领域 的 一 门 分 支 学 科 。 本 音 就 这 个 
分 支 作 简要 介绍 ， 并 给 出 几 个 案例 。 
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16.1 数据 保护 


数据 保护 ， 就 是 对 当前 位 置 上 的 数据 进行 备份 ， 以 防 突如其来 的 磁盘 损坏 ， 或 者 其 他 各 种 原 
因 导 致 的 数据 不 可 被 访问 ， 或 者 部 分 数据 损坏 ， 影 响 到 业务 层 。 备 份 后 的 数据 ， 可 以 在 数据 损毁 
之 后 恢复 到 生产 磁盘 上 ， 从 而 最 大 程度 地 降低 损失 。 

从 底层 来 分 ， 数 据 保护 备份 可 以 分 为 文件 级 的 保护 和 块 级 的 保护 。 


16.1.1 文件 级 备份 


文件 级 的 备份 ， 即 备份 软件 只 能 感知 到 文件 这 一 层 ， 将 磁盘 上 所 有 的 文件 ， 通 过 调用 文件 系 
统 接口 备份 到 另 一 个 介质 上 。 所 以 文件 级 备份 软件 ， 要 么 依靠 操作 系统 提供 的 API 来 备份 文件 ， 
要 么 本 身 具 有 文件 系统 的 功能 ， 可 以 识别 文件 系统 元 数据 。 

文件 级 备份 软件 的 基本 机 制 ， 就 是 将 数据 以 文件 的 形式 读 出 ， 然 后 再 将 读 出 的 文件 存储 在 另 
外 一 个 介质 上 。 这 些 文件 在 原来 的 介质 上 ， 存 放 可 以 是 不 连续 的 ， 各 个 不 连续 的 块 之 间 的 链 关系 
由 文件 系统 来 管理 。 而 如 果 备 份 软件 将 这 些 文件 备份 到 新 的 空白 介质 上 ， 那 么 这 些 文件 很 大 程度 
上 是 连续 存放 的 ， 不 管 是 备份 到 磁带 还 是 磁盘 上 。 

磁带 不 是 块 设备 ， 由 于 机 械 的 限制 ， 在 记录 数据 时 ， 是 流 式 连续 的 。 磁 带 上 的 数据 也 需要 组 
织 ， 相 对 于 磁盘 文件 系统 ， 也 有 磁带 文件 系统 ， 准 确 来 说 应 该 叫做 磁带 数据 管理 系统 。 因 为 对 于 
磁带 来 说 ， 它 所 记录 的 数据 都 是 流 式 的 、 连 续 的 。 每 个 文件 被 看 作 一 个 流 ， 流 与 流 之 间 用 一 些 特 
殊 的 数据 间隔 来 分 割 ， 从 而 可 以 区 分 一 个 个 的 “文件 ”， 其 实 就 是 一 段 段 的 二 进 制 数 据 流 。 磁 带 
备份 文件 的 时 候 ， 会 将 磁盘 上 每 个 文件 的 属性 信息 和 实体 文件 数据 一 同 备份 下 来 ， 但 是 不 会 备份 
磁盘 文件 系统 的 描述 信息 ， 比 如 一 个 文件 所 占用 的 磁盘 簇 号 链表 等 。 因 为 利用 磁带 恢复 数据 的 时 
候 ， 软 件 会 重 构 磁盘 文件 系统 ， 并 从 磁带 读 出 数据 ， 向 磁盘 写 入 数据 。 

在 2000 年 之 前 ， 很 多 人 都 用 磁带 随身 听 来 欣赏 音乐 。 而 2005 年 之 后 ， 就 很 少 看 到 带 随 身 听 
的 人 了 ， 大 都 换 成 了 MP3 或 MP4 或 者 手机 等 设备 。 随 身 听 用 的 是 模拟 磁带 ， 也 就 是 说 它 记 录 的 
是 模拟 信号 。 电 流 强 ， 磁 化 的 就 强 ; 电流 弱 ， 磁 化 的 就 弱 。 磁 转 成 电 的 时 候 也 一 样 ， 用 这 种 磁 信 
号 强 弱 信息 来 表达 声音 振动 的 强 弱 信 息 ， 从 而 形成 音乐 。MP3 则 是 利用 数字 信息 来 编码 声音 振动 
强 弱 和 频率 信息 。 虽 然 由 模拟 转向 数字 ， 需 要 数字 采样 转换 ， 音 乐 的 质量 相对 模拟 信号 来 的 差 ， 
算法 也 复杂 ， 但 是 它 具 有 极 大 的 抗 干扰 能 力 ， 而 且 可 以 无 颖 地 与 计算 机 结合 ， 形 成 能 发 声 的 计算 
机 (多 媒体 计算 机 ) 。 

录音 带 、 录 像 带 ， 都 是 模拟 信号 磁带 。 用 于 文件 备份 的 磁带 ， 当 然 是 数字 磁带 ， 它 记录 的 是 
磁性 的 极 性 ， 而 不 是 被 磁化 的 强 弱 ， 比 如 用 N 极 来 代表 1， 用 S 极 来 代表 0。 

如 果 备 份 软件 将 文件 备份 到 磁盘 介质 或 者 任何 其 他 的 块 介质 上 , 那么 这 些 文件 就 可 以 是 不 连 
续 的 。 块 设备 可 以 跳跃 式 地 记录 数据 ， 而 一 个 完整 数据 链 信息 ， 由 管理 这 种 介质 的 文件 系统 来 记 
录 。 磁 盘 读 写 速度 比 磁带 要 高 得 多 。 

近年 来 出 现 了 VTL， 即 Virtual Tape Library ( 虚拟 磁带 库 ) ， 用 磁盘 来 模拟 磁带 。 这 个 概念 
看 似 复 杂 ， 其 实 实现 起 来 无 非 就 是 一 个 协议 转换 器 ， 将 磁盘 逻辑 与 磁带 逻辑 相互 映射 融合 ， 欺 骗 
上 位 程序 让 其 认为 底层 物理 介质 是 磁带 ， 然 后 再 按照 磁盘 的 记录 方式 读 写 数 据 ， 这 就 是 虚拟 化 的 
表现 。 这 种 方法 ， 提 高 了 备份 速度 和 灵活 性 ， 用 处 很 大 。 
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16.1.2 ” 块 级 备份 


所 谓 块 级 的 备份 ， 就 是 备份 块 设备 上 的 每 个 块 ,不管 这 个 块 上 有 没有 数据 ， 或 是 这 个 块 上 的 
数据 属于 哪个 文件 。 块 级 别 的 备份 ， 不 考虑 也 不 用 考虑 文件 系统 层次 的 逻辑 ， 原 块 设 备 有 多 少 容 
量 ， 就 备份 多 少 容量 。 在 这 里 “ 块 ”的 概念 ， 对 于 磁盘 来 说 就 是 扇 区 Sector。 块 级 的 备份 ， 是 最 
底层 的 备份 ， 它 抛 开 了 文件 系统 ， 直 接 对 磁盘 扇 区 进行 读 取 ， 并 将 读 取 到 的 扇 区 写 入 新 的 磁盘 对 
应 的 扇 区 。 

这 种 方式 的 一 个 典型 实例 ， 就 是 磁盘 镜像 。 而 磁盘 镜像 最 简单 的 实现 方式 就 是 RAID 1。 
RAID 1 系统 将 对 一 块 (或 多 块 ) 磁盘 的 写 入 ， 完 全 复制 到 另 一 块 (或 多 块 ) 磁盘 ， 两 块 磁盘 内 
容 完全 相同 。 有 些 数据 恢复 公司 的 一 些 专用 设备 “磁盘 复制 机 ”也 是 直接 读 取 磁 盘 扇 区 ， 然 后 复 
制 到 新 的 磁盘 。 

基于 块 的 备份 软件 ， 不 经 过 操作 系统 的 文件 系统 接口 ， 而 通过 磁盘 控制 器 驱动 接口 ， 直 接 读 
取 磁 盘 ， 所 以 相对 文件 级 的 备份 来 说 ， 速 度 加 快 很 多 。 但 是 基于 块 的 备份 软件 备份 的 数量 相对 文 
件 级 备份 要 多 , 会 备份 许多 僵尸 扇 区 ,而 且 备 份 之 后 , 原来 不 连续 的 文件 , 备份 之 后 还 是 不 连续 ， 
有 很 多 碎片 。 文 件 级 的 备份 , 会 将 原来 不 连续 存放 的 文件 , 备份 成 连续 存放 的 文件 , 恢复 的 时 候 ， 
也 会 在 原来 的 磁盘 上 连续 写 入 ， 所 以 很 少 造成 碎片 。 有 很 多 系统 管理 员 ， 都 会 定时 将 系统 备份 并 
重新 导入 一 次 ， 就 是 为 了 吻 除 磁盘 碎片 ， 其 实 这 么 做 的 效果 和 磁盘 碎片 整理 程序 效果 一 样 ， 但 是 
速度 却 比 后 者 快 得 多 。 


16.2 ”高 级 数据 保护 方法 


16.2.1 ”远程 文件 复制 


远程 文件 复制 方案 ,是 把 需要 备份 的 文件 ,通过 网 络 传输 到 异地 容 灾 站 点 。 典 型 的 代表 是 sync 
异步 远程 文件 同步 软件 。 这 是 一 个 运行 在 Linux 下 的 文件 远程 同步 软件 。 它 可 以 监视 文件 系统 的 
动作 ， 将 文件 的 变化 通过 网 络 同步 到 异地 的 站 点 。 它 可 以 只 复制 一 个 文件 中 变化 过 的 内 容 ， 而 不 
必 整 个 文件 都 复制 ， 这 在 同步 大 文件 的 时 候 非 常 管用 。 

其 实 FTP 工具 也 是 一 个 很 好 的 远程 文件 复制 工具 ， 只 不 过 不 能 做 到 更 加 灵活 和 强大 而 已 。 


16.2.2 ”远程 磁盘 ( 卷 ) 镜像 


这 是 基于 块 的 远程 备份 ， 即 通过 网 络 将 备份 的 块 数据 传输 到 异地 站 点 。 远 程 镜像 ( 远程 实时 
复制 ) 又 可 以 分 为 同步 复制 和 异步 复制 。 同 步 复制 ， 即 主 站 点 接受 的 上 层 IO 写 入 数据 ， 必 须 等 
这 份 数据 成 功 地 复制 传输 到 异地 站 点 ， 并 写 入 成 功 之 后 ， 才 通报 上 层 IO 成 功 消息 。 异 步 复制 ， 
就 是 上 层 IO 主 站 点 写 入 成 功 ， 即 向 上 层 通报 成 功 ， 然 后 在 后 台 将 数据 通过 网 络 传输 到 异地 。 前 
者 能 保证 两 地 数据 的 一 致 性 ， 但 是 对 上 层 响 应 较 慢 ;而 后 者 不 能 实时 保证 两 地 数据 的 一 致 性 ， 但 
是 对 上 层 响应 很 快 。 

所 有 基于 块 的 备份 措施 ， 一 般 都 是 在 底层 设备 上 进行 ， 而 不 耗费 主机 资源 。 

现在 几乎 各 个 盘 阵 三 家 的 中 高 端 产品 ， 都 提供 远程 镜像 服务 ， 比 如 IBM 的 PPRC、EMC 的 
SRDF、HDS 的 Truecopy、Netapp 的 SnapMirror 等 。 
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16.2.3 快 ( 块 ) 照 数据 保护 


远程 镜像 ， 或 者 本 地 镜像 ， 确 实 是 对 生产 卷 数据 的 一 种 很 好 的 保护 ， 一 旦 生产 卷 故障 ， 可 以 
立即 切换 到 镜像 卷 。 但 是 这 个 镜像 卷 ， 一 定 要 保持 一 直 在 线 状态 ， 主 卷 有 写 IO 操作 ， 那 么 镜像 
卷 也 有 写 IO 操作 。 如 果 革 时 刻 想 对 整个 镜像 卷 进行 备份 ， 需 要 停止 读 写 主 卷 的 应 用 ， 使 应 用 不 
再 对 卷 产生 IO 操作 ， 然 后 将 两 个 卷 的 镜像 关系 分 离 ， 这 就 是 拆 分 镜像 。 切 分 过 程 是 很 快 的 ， 所 
以 短暂 的 IO 暂 不 会 对 应 用 产生 太 大 的 影像 。 

拆 分 之 后 ， 可 以 恢复 上 层 的 IO。 由 于 拆 分 之 后 已 经 切 离 的 镜像 关系 ， 所 以 镜像 卷 不 会 有 IO 
操作 。 此 时 的 镜像 卷 ， 就 是 主机 停止 IO 那 一 刻 的 原 卷 数 据 的 完整 镜像 ， 此 时 可 以 用 备份 软件 将 
镜像 卷 上 的 数据 备份 到 其 他 介质 。 

拆 分 镜像 ， 是 为 了 让 镜像 卷 保持 拆 分 一 瞬间 的 状态 ， 而 不 再 继续 被 写 入 数据 。 而 拆 分 之 后 ， 
主 卷 所 做 的 所 有 写 IO 动作 ， 会 以 bitmap 的 方式 记录 下 来 。bitmap 就 是 一 份 位 图 文件 ， 文 件 中 每 
个 位 都 表示 卷 上 的 一 个 块 ( 肩 区 , 或 者 由 多 个 扇 区 组 成 的 逻辑 块 ) ， 如 果 这 个 块 在 拆 分 镜像 之 后 ， 
被 写 入 了 数据 ， 则 程序 就 将 bitmap 文件 中 对 应 的 位 从 0 变 成 1。 待 备份 完成 之 后 ， 可 以 将 镜像 关 
系 恢复 ， 此 时 主 卷 和 镜像 卷 上 的 数据 是 不 一 致 的 , 需要 重新 做 同步 。 程 序 会 搜索 bitmap 中 所 有 为 
1 的 位 ， 对 应 到 卷 上 的 块 ， 然 后 将 这 些 块 上 的 数据 同步 到 镜像 卷 ， 从 而 恢复 实时 镜像 关系 。 

可 以 看 到 ， 以 上 的 过 程 是 十 分 复杂 烦琐 的 ， 而 且 需 要 占用 一 块 和 主 卷 相同 容量 大 小 的 卷 作为 
镜像 卷 。 最 为 关键 的 是 ， 这 种 备份 方式 需要 停 掉 主机 IO， 这 对 应 用 会 产生 影响 。 而 “快照 技术 ” 
解决 了 这 个 难题 。 快 照 的 基本 思想 是 ， 抓 取 某 一 时 间 点 磁盘 ( 卷 ) 上 的 所 有 数据 ， 而 且 完 成 速度 
非常 快 ， 就 像 照 相机 快门 一 样 。 

下 面 介 绍 快照 的 底层 原理 。 


1. 基于 文件 系统 的 快照 


自然 界 是 不 断 变化 的 。 可 以 用 照相 机 抓拍 到 某 个 时 间 点 的 瞬间 影像 。 为 什么 要 对 自然 界 照 
相 ? 为 了 留 下 美好 的 记忆 。 计 算 机 存储 的 电子 数据 也 是 在 不 断 变化 的 ， 为 了 抓拍 下 某 一 时 间 点 基 
份 数据 集 的 内 容 , 需要 一 种 “数据 照相 机 ”。 为 什么 要 对 电子 数据 进行 抓拍 ? 为 了 预防 数据 被 “ 污 
桨 ”， 或 者 逻辑 上 被 损 豚 ， 比 如 病毒 大 范围 感染 、 配 置信 息 崩 溃 、 系 统 骨 溃 等 。 拍 下 一 些 历史 时 
刻 的 数据 内 容留 底 。 自 然 界 照 片 至 少 现在 还 不 可 以 回 滚 ， 但 是 电子 数据 的 照片 确 是 可 以 回 滚 的 ， 
并 且 可 以 从 这 个 时 间 点 为 起 点 重头 来 过 ， 或 者 从 这 个 时 间 点 的 数据 影像 创建 出 多 份 平行 的 存储 空 
间 (克隆 ) 。 

A 兄 提出 的 办 法 : “快速 将 菜 文件 系统 内 的 文件 全 部 复制 到 另外 一 个 地 方 存放 ， 这 份 复制 出 
来 的 文件 集 就 是 源 文件 系统 在 复制 开始 那 一 时 刻 的 快照 ”这 种 做 法 有 什么 问题 ? 如 果 文 件 容量 
很 大 ,复制 需要 很 长 时 间 ,而 这 段 时 间 内 源 文件 系统 内 有 数据 发 生 更 改 怎么 办 ?抓拍 移动 的 景物 ， 
曝光 时 间 越 长 ， 得 到 的 照片 就 会 重 影 、 模 糊 甚至 花脸 ! 对 于 电子 数据 也 一 样 ， 如 果 曝 光复 制 ) 
时 间 过 长 ， 上 曝光 (复制 ) 的 过 程 中 被 拍摄 的 对 象 有 移动 (数据 被 更 改 ) ， 那 么 所 得 到 的 照片 ( 数 
据 快照 ) 就 是 一 份 花脸 照片 (得 到 的 数据 集 前 后 不 一 致 ) 。 

B 兄 提出 了 改进 方法 :在 复制 时 禁止 一 切 针对 源 文件 系统 的 更 改 操作 ， 即 禁止 一 切 写 10。 等 
复制 完成 时 再 恢复 .看 来 B 兄 是 个 不 合格 的 摄影 师 ， 自 己 摄影 技术 太 差 ， 倒 者 的 是 来 拍照 的 人 ， 
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强行 让 客户 静止 不 动 长 达 几 分 钟 ， 霸 王 条 款 ! 

C 兄 出 马 了 : “从 本 质 上 解决 这 个 问题 ， 必 须 降低 曝光 (数据 复制 ) 时 间 ! 同时 只 需 被 拍照 
者 (应 用 程序 ) 只 静止 一 瞬间 就 可 以 了 ! ” 

D 兄 出 面 了 : “C 兄 说 得 很 对 ! 我 有 个 办 法 可 以 一 举 两 得 地 保证 这 两 个 苛刻 需求 的 落地 ! ”D 
兄 有 何 秘籍 ? 万 变 不 离 其 宗 ! ”其 “ 宗 ” 为 文件 系统 元 数据 链 。 牵 一 发 而 动 全 身 ， 只 要 抓 住 了 文件 
系统 元 数据 链 ， 就 等 于 掌握 了 目前 这 个 文件 系统 内 的 所 有 信息 。 而 对 于 一 个 文件 系统 来 讲 ， 其 元 
数据 量 相对 整体 数据 量 是 很 少 的 。 如 果 在 复制 的 时 候 只 复制 元 数据 链 ， 也 就 是 整个 文件 系统 的 总 
图 纸 ， 那 么 就 变相 地 拥有 了 一 份 在 复制 一 刹那 这 个 文件 系统 中 的 所 有 内 容 的 组 织 结构 树 。 

顿时 ，A、B、C 三 位 老兄 开始 狂 素 滥 炸 : “只 复制 元 数据 链 ， 那 么 复制 过 程 是 可 以 大 大 降低 
了 ， 但 是 如 何 解决 在 复制 完成 之 后 仍然 允许 用 户 程序 更 改 源 数据 呢 ? 一 旦 有 数据 被 更 改 ， 那 么 复 
制 出 来 的 图 纸 就 相当 于 作废 了 ， 因 为 图 纸 与 实际 内 容 已 经 对 不 上 号 了 ! ” 

D 兄 从 容 应 对 : “我 自 有 办 法 。 源 文件 数据 当然 不 能 让 它 就 这 么 被 覆盖 掉 。 有 以 下 两 种 办 法 
来 保证 。” 

办 法 一 : 元 数据 复制 完成 之 后 所 有 针对 源 文件 系统 的 更 改 文件 块 均 将 其 重 定向 到 一 块 空余 的 
空间 内 存放 ， 并 且 在 源 文件 系统 的 元 数据 更 新 对 应 的 指针 条 目 来 告诉 系统 说 源 文件 系统 内 某 文件 
的 某 些 块 的 最 新 内 容 其 实 被 重 定向 存储 到 了 新 的 空间 内 的 某 某 地 址 。 这 样 就 可 以 永久 地 将 快照 创 
建 瞬 间 的 数据 全 部 冻 住 ， 之 后 所 有 更 改 都 被 重 定向 到 剩余 空间 存放 。 此 时 系统 内 保存 着 两 套 元 数 
据 链 ， 一 套 是 源 文件 系统 的 ， 会 被 不 断 地 更 新 ; 另 一 套 则 是 快照 时 保存 下 来 的 ， 永 不 更 新 ， 而 且 
其 指向 的 实际 存储 位 置 上 的 数据 也 不 会 被 覆盖 。 随 着 源 数据 被 不 断 覆 盖 而 产生 的 重 定向 写 动 作 ， 
空闲 空间 内 会 逐渐 产生 一 个 当前 时 间 点 文件 系统 全 部 数据 的 影像 ， 而 拍照 那 一 刻 的 历史 时 间 点 的 
源 文件 系统 影像 则 永久 被 冻 住 为 快照 生成 豚 间 的 历史 时 间 点 影像 。 这 种 思路 叫 : Redirect on First 
Write (RoFW ) 。 之 所 以 只 在 首次 覆盖 写 时 重 定向 ， 是 因为 只 要 重 定向 出 去 之 后 ， 源 数据 块 后 续 
的 覆盖 就 会 直接 在 重 定向 之 后 的 块 地 址 上 直接 覆盖 之 前 被 重 定向 出 来 的 块 了 。 

办 法 二 : 元 数据 复制 完成 之 后 ， 所 有 针对 源 文件 系统 中 文件 的 覆盖 写 操作 均 照 常 执行 ,但 是 
在 覆盖 对 应 的 数据 块 之 前 ， 需 要 将 被 覆盖 的 数据 块 内 容 复制 出 来 ， 存 放 到 一 个 额外 的 空闲 空间 内 
存放 ， 并 且 在 之 前 被 复制 出 来 的 元 数据 链 中 更 新 这 个 新 指向 记录 ， 将 历史 的 一 部 分 指向 被 复制 出 
来 的 数据 块 ， 历 史 的 另 一 部 分 则 与 现在 是 重 释 存 在 的 。 系 统 中 依然 有 两 套 元 数据 链 ， 一 套 指向 当 
前 ， 另 一 套 指 向 历史 。 这 样 处 理 之 后 ， 源 文件 系统 存储 空间 中 永远 都 是 最 新 的 数据 ， 而 历史 数据 
会 随 着 覆盖 写 入 操作 的 不 断 进 行 而 被 逐渐 搬出 原 存储 空间 ， 存 入 空闲 空间 ， 最 后 在 空闲 空间 内 生 
成 为 一 个 快照 生成 那个 瞬间 的 历史 影像 。 这 种 思路 叫 : Copy on First Write ( CoFW ) 。 之 所 以 只 
在 首次 覆盖 写 时 复制 ， 是 因为 只 要 首次 复制 出 去 之 后 ， 源 数据 块 后 续 的 覆盖 写 动作 就 会 直接 在 源 
数据 集中 对 应 地 址 上 直接 覆盖 了 ， 因 为 历史 版 本 已 经 被 保留 了 。 

我 们 知道 ,文件 系统 管理 思想 的 精髓 就 在 于 它 的 链表 、B 树 和 位 图 等 结构 ， 也 就 是 元 数据 
( Metadata ) ， 以 及 对 这 些 元 数据 的 管理 方式 。 文 件 系统 其 实 对 底层 磁盘 是 有 点 “ 恺 惧 ” 的 , 我们 
可 以 计算 一 下 ,一 个 100GB 的 磁盘 上 ， 有 超过 2 亿 个 扇 区 。 文 件 系统 是 如 何 管理 这 2 亿 个 扇 区 ， 
又 如 何 知道 某 个 扇 区 正在 使 用 呢 ? 如 果 使 用 的 话 ， 是 分 配给 哪个 文件 或 者 文件 的 一 部 分 呢 ? 

文件 系统 首先 将 扇 区 组 合成 更 大 的 逻辑 块 来 降低 管理 规模 。NTEFS 最 大 每 个 块 可 以 到 4KB， 
也 就 是 8 个 扇 区 一 组 形成 一 个 徐 ( 块 , Block ) 。 这样 , 2 亿 的 管理 规模 便 会 除 8, 缩小 到 1.2 干 万 
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的 管理 规模 ， 虽 然 存储 空间 可 能 有 所 浪费 ， 但 是 切实 降低 了 管理 成 本 。 

其 次 , 文件 系统 会 创建 所 管理 存储 空间 上 所 有 簇 ( 块 ) 的 位 图 文件 , 这 个 文件 有 固定 的 入 口 ， 
文件 系统 能 在 1.2 干 万 个 块 中 快速 定位 到 这 个 文件 入 口 并 读 写 。 位 图 文件 中 每 个 位 代表 卷 上 的 一 
个 复 (或 者 物理 扇 区 ， 视 设计 不 同 而 决定 ) ， 如 果 簇 正在 被 某 个 文件 使 用 ， 这 个 簇 在 位 图 中 对 应 
的 位 的 值 就 为 1; 否则 为 0。 

再 次 , 文件 系统 还 保存 一 份 文 件 和 其 所 对 应 簇 号 的 映射 链 ， 这 个 映射 链 本 身 以 及 簇 位 图 本 身 
也 是 文件 ， 也 要 有 自己 的 映射 链 ， 所 以 针对 这 些 重要 的 元 数据 ， 必 须 有 一 个 固定 的 入 口 ， 用 来 让 
文件 系统 程序 读 入 并 且 遍 历 所 有 文件 系统 元 数据 。 通 常 将 这 个 初始 固定 地 址 入 口 称 为 root inode， 
不 同 操作 系统 具体 实现 方式 不 同 。 

当 向 卷 中 写 入 一 个 新 文件 ,文件 系统 首先 会 查找 簇 位 图 ， 找 到 位 值 为 0 所 对 应 的 簇 号 , 并 计 
算 所 需 的 空间 ， 然 后 分 配 这 些 簇 号 给 这 个 文件 。 它 首先 将 文件 实体 数据 写 入 对 应 的 徐 ， 然后 再 去 
文件 一 复 号 映射 图 中 更 新 ， 将 新 文件 与 其 对 应 的 纂 映射 关系 记录 下 来 ， 最 后 到 签 位 图 中 将 这 些 复 
对 应 的 位 的 值 从 0 改 为 1。 如 果 要 删除 这 个 文件 , 则 直接 在 inode 链 中 将 这 个 文件 的 inode 抹 掉 即 
可 ， 然 后 在 复位 图 中 将 对 应 纂 的 位 值 从 1 改 为 0。 

文件 系统 并 不 会 抹 掉 这 个 被 删除 文件 所 对 应 卷 上 的 往 中 的 实际 数据 , 如果 用 扇 区 读 写 软件 来 
提取 这 个 簇 , 就 会 得 到 这 个 文件 的 部 分 内 容 。 虽然 这 些 簇 中 依然 有 内 容 , 但 是 对 于 文件 系统 来 说 ， 
这 些 簇 是 可 重用 的 ， 一 旦 有 新 文件 写 入 ， 新 文件 的 数据 便 会 覆盖 原来 徐 中 的 数据 。 

所 以 , 对 于 一 个 文件 系统 来 说 ,最 重要 的 不 是 卷 簇 中 的 数据 ， 而 是 文件 一 簇 号 映射 链 和 位 图 
等 这 些 元 数据 。 比 如 ， 想 要 破坏 某 个 文件 系统 中 的 某 个 文件 ， 我 们 不 必 费 劲 地 修改 某 个 文件 对 应 
簇 中 的 实际 内 容 , 只 需 修改 一 下 文件 一 簇 号 映射 链 中 关于 这 个 文件 所 对 应 的 实际 簇 号 的 记录 即 可 ， 
让 它 指向 其 他 簇 号 。 

这 样 ， 文 件 读 出 来 的 内 容 就 不 是 原 有 内 容 。 此 外 ， 如 果 修改 了 文件 系统 中 对 应 簇 中 的 数据 ， 
文件 系统 也 根本 感知 不 到 这 些 动 作 ， 因 为 它 所 查询 的 是 文件 - 签 号 映射 链 ， 它 只 知道 基 个 文件 对 
应 着 哪些 徐 ， 而 不 关心 这 些 往 是 否 被 改过 ， 它 想 关 心 也 无 法 关心 。 

正 因为 文件 系统 只 是 根据 它 所 记录 的 这 些 映射 图 表 来 管理 文件 ， 所 以 才 使 得 快照 成 为 可 能 。 
为 什么 呢 ? 
思考 : 如 果 我 们 想 抓 取 某 个 卷 在 某 一 时 刻下 的 全 部 数据 ， 就 可 以 像 照相 机 一 样 ， 对 一 个 正 
在 移动 的 物体 实施 拍照 ， 某 一 时 刻 ， 快 门 打开 ， 曝 光 后 关闭 。 照 相机 可 以 保存 在 底片 上 ， 


如 果 一 个 卷 上 有 100GB 容量 的 文件 , 照 下 来 之 后 , 用 另 一 块 磁盘 将 数据 全 部 复制 出 来 , 至 少 
需要 20 分 钟 的 时 间 , 且 在 这 段 时 间 内 , 不 允许 再 有 任何 数据 被 写 入 这 个 卷 , 因为 我 们 要 抓 取 的 是 
这 个 卷 在 这 个 时 刻 瞬 间 的 数据 。 

对 于 拍照 移动 中 的 物体 ， 要 想 保 证 照片 清晰 没有 重 影 ， 就 要 降低 曝光 时 间 ， 但 是 曝光 时 间 越 
短 ， 照 片 感光 度 就 会 越 低 ， 也 会 影响 质量 。 同 样 ， 对 于 一 个 正在 进行 频繁 IO 写 入 的 数据 卷 ， 要 
照 下 它 某 时 刻 的 样子 ， 也 需要 减少 “曝光 ”时 间 。 但 是 刚才 已 经 说 过 ，100GB 的 数据 ， 复 制 出 来 
需要 20 分 钟 时 间 ， 这 个 “曝光 ”时 间 太 长 了 。 要 么 物体 在 拍摄 的 时 候 保持 静止 ( 复制 卷 的 时 候 停 
止 IO ) ， 要 么 就 减少 曝光 时 间 ( 加 快 复制 速度 ) ， 这 两 样 ， 我 们 一 样 也 保证 不 了 ， 因 为 停止 IO 
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会 直接 影响 上 层 应 用 ， 而 且 也 无 法 在 几 秒 钟 (应 用 停止 IO 可 接受 的 时 间 内 ) 之 内 将 100GB 的 数 
据 复制 出 来 。 难 道 就 真 的 没有 办 法 了 么 ? 非 也 。 


思考 : 如 果 我 们 只 花 几 秒 甚至 1 秒 钟 的 时 间 ， 把 某 时 刻 的 文件 系统 中 的 映射 图 表 ， 以 及 下 
级 链表 等 元 数据 复制 出 来 并 保存 ， 那 么 是 不 是 就 可 以 说 ,我 们 照 下 了 这 个 时 间 点 处 卷 上 的 
所 有 数据 呢 ? 


绝对 是 的 。 因 为 文件 系统 只 根据 这 些 映射 图 来 对 应 卷 上 的 实际 数据 ， 所 以 只 要 有 了 映射 图 ， 
就 可 以 按 图 索 驶 ， 找 到 并 拥有 实际 的 数据 。 但 是 ， 将 此 时 刻 的 映射 图 复制 出 来 ， 我们 也 只 得 到 了 
一 个 图 纸 而 已 ， 因 为 实际 数据 在 卷 上 ， 是 实 实在 在 的 物理 卷 ， 而 不 是 在 图 纸 上 ， 所 以 我 们 必须 保 
证 卷 上 的 数据 不 被 IO 写 入 ， 而 同时 又 不 能 影响 应 用 ， 既 然 不 能 影响 应 用 ， 就 要 让 IO 继续 执行 ， 
这 简直 是 个 大 大 的 矛盾 啊 ! 

思考 : 源 块 不 能 被 写 人 新 数据 ， 这 个 绝对 要 保证 ， 否 则 这 张 “照片 ”就 花脸 了 ， 而 同时 应 

用 的 I0 也 必须 持续 不 断 地 执行 ( 写 人 ) ,既然 源 块 不 让 写 人 了 , 那 能 不 能 写 入 到 其 他 空闲 

的 地 方 呢 ? 


当然 可 以 ! 每 当 遇 到 需要 向 原 卷 写 入 新 文件 或 者 更 新 旧 文 件 ， 文 件 系统 便 将 这 些 更 新 数据 写 
入 一 个 新 的 空闲 的 地 方 去 ， 然 后 在 它 的 映射 图 中 加 入 对 应 的 条 目 。 由 于 我 们 已 经 保存 了 原来 的 映 
射 图 ， 而 且 也 拥有 一 份 不 让 写 入 的 原 卷 实 体 数据 ， 所 以 不 怕 它 修改 。 文 件 系统 当前 的 映射 图 (元 
数据 ) 始终 描述 的 是 当前 的 映射 关系 。 这 样 , 应 用 继续 执行 IO, 同时, 我们 也 可 以 将 照 下 来 的 原 
卷 数据 复制 出 去 ， 从 而 得 到 一 份 某 
时 刻 的 瞬间 的 卷 数据 。 我 们 完全 可 
以 选择 不 复制 这 份 快照 ， 就 让 它 留 
在 那 ， 因 为 快照 根本 不 占用 额外 的 
空间 , 除非 针对 这 个 卷 有 新 的 IO 写 
入 ， 则 新 簇 会 写 向 其 他 地 方 ， 从 而 
占用 相应 大 小 的 空间 ,一旦 原 卷 所 
有 徐 都 被 更 新 了 ， 那 么 也 就 意味 着 
在 空闲 空间 内 逐渐 生成 了 一 个 完 


的 新 卷 了 ， 其 占用 与 原 卷 相同 大 小 国 rd 类 

的 空间 。 国 Rr 
图 16-1 所 示 为 CoFW 模式 下 图 16-1 CoFW 快照 示意 图 

的 几 个 典型 流程 。 


(1 ) 源 文件 系统 ( 当前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 生产 文件 系统 ) 初始 状态 : 数 
据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数据 块 (文件 块 , 如 A、B、C、D ) 以 及 元 数据 链 也 在 不 
断 变化 。 

(2 ) 之 后 某 时 刻 ， 系 统 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 挂 ， 然 后 立即 开始 将 整个 文 
件 系统 的 元 数据 链 复制 一 份 存放 ， 复 制 完成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 
链 是 与 当前 活动 元 数据 链 完全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 元 数 
据 链 也 是 相同 的 。 
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(3 ) 之 后 某 时 刻 应 用 程序 要 更 改 当前 活动 文件 系统 中 的 C 数据 块 为 C， ， 属 于 首次 覆盖 写 ， 
根据 CoFw 规则 ， 需 要 先 将 原来 的 C 数据 块 复制 出 来 ， 然 后 再 写 入 C， 数 据 块 。 之 后 ， 
在 快照 元 数据 链 中 将 原本 指向 C 块 地 址 (现在 的 C， 块 的 地 址 ) 的 指针 改 为 指向 被 复制 

出 来 的 C 块 的 新 地 址 上 。 

(4 ) 同 理 , 之 后 某 时 刻 A 被 覆盖 更 改 为 A，， 那么 系统 同样 也 将 A 复制 出 来 并 且 修改 快照 元 

数据 链 中 的 指针 。 

(5 ) 在 这 一 步 中 ，B 被 更 改 为 B，，B 同样 被 拷 出 。 同 时 ， 应 用 程序 对 当前 活动 文件 系统 做 了 
一 个 追加 写 动作 ， 比 如 扩大 了 某 文件 之 类 ,产生 了 一 个 新 分 配 的 文件 数据 块 E， 由 于 这 个 
文件 系统 在 快照 那 一 刻 的 历史 版 本 中 并 没有 这 个 数据 , 所 以 系统 并 不 会 作 任何 后 台 复 制 动 
作 。 对 于 追加 写 的 数据 块 ， 快照 系 统 不 做 任何 处 理 。 应 注意 ,追加 写 是 文件 系统 中 经 常 发 
生 的 事情 , 追加 写 会 伴随 着 元 数据 的 数量 和 容量 的 变化 而 不 仅 是 指针 指向 的 改变 , 也 就 相 
当 于 图 纸 扩大 幅面 了 。 但 是 对 于 LUN 或 者 卷 来 讲 ， 并 没有 追加 写 这 一 说 ， 卷 的 容量 和 位 
置 是 固定 的 ， 除 非 某 些 场景 下 将 基 个 LUN 扩容 ， 而 这 个 动作 也 不 需要 后 台 的 快照 处 理 进 
程 做 什么 事情 ， 因 为 历史 时 刻 这 个 LUN 并 没有 扩容 ,所 以 当前 活动 LUN 怎么 折腾 者 行 ， 
只 要 不 发 生 需 要 首次 覆盖 源 数据 块 的 情况 ,快照 无 须 做 任何 处 理 ， 拿 好 手中 的 图 纸 , 监控 
好 首次 覆盖 动作 即 可 。 另 外 ， 这 一 步 中 还 有 一个 动作 ， 即 C 被 覆盖 写 为 C" ， 由 于 C 块 
之 前 已 经 被 覆盖 过 一 次 ， 所 以 这 次 系统 直接 用 C” 覆盖 之 前 的 C” ， 无 须 任何 处 理 过 程 。 

(6 ) 当 源 文件 系统 内 所 有 数据 块 都 被 覆盖 写 了 一 遍 之 后 ， 系 统 内 将 有 两 套 完整 的 文件 系统 数 
据 集 : 一 套 是 当前 活动 文件 系统 ， 另 一 套 则 是 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数 
据 版 本 。 

图 16-2 所 示 为 RoFW 模式 下 的 系统 快照 处 理 流程 。 


| | 共享 数据 块 
图 活动 FS 数据 块 
| | 快照 Fs 数据 块 


图 16-2 ”RoFW 快照 示意 图 
(1 ) 源 文件 系统 ( 当前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 生产 文件 系统 ) 初始 状态 : 
数据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数 据 块 ( 文件 块 ， A、B、C、D ) 以 及 元 数据 链 也 在 
不 断 变化 。 
(2 ) 之 后 某 时 刻 ， 系 统 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 挂 ， 然 后 立即 开始 将 整个 文 
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件 系 统 的 元 数据 链 复制 一 份 存放 ， 复 制 完成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 
链 是 与 当前 活动 元 数据 链 完 全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 元 数 
据 链 也 是 相同 的 。 

(3 ) 之 后 某 时 刻 应 用 程序 要 更 改 当前 活动 文件 系统 中 的 C 数据 块 为 C” ， 属 于 首次 覆盖 写 ， 
根据 RoFW 规则 , 直接 将 C， 数 据 块 重 定向 写 入 到 某 剩 余 空 间 内 。 之 后 , 将 当前 活动 文 
件 系统 元 数据 链 中 原本 指向 C 块 地 址 ( 现在 依然 是 C 块 的 地 址 ) 的 指针 改 为 指向 被 重 
定向 写 出 去 的 C， 块 的 新 地 址 上 。 

(4) 同 理 ,之 后 某 时 刻 A 被 覆盖 更 改 为 A' ， 那 么 系统 同样 也 将 A′， 重 定向 写 出 ,并 且 修 改 
当前 活动 文件 系统 元 数据 链 中 的 指针 。 

(5 ) 在 这 一 步 中 ，B 被 更 改 为 B”，B” 同 样 被 重 定向 。 同 时 ， 应 用 程序 对 当前 活动 文件 系统 
做 了 一 个 追加 写 动 作 ， 比 如 扩大 了 某 文件 之 类 ， 产 生 了 一 个 新 分 配 的 文件 数据 块 E， 由 
于 这 个 文件 系统 在 快照 那 一 刻 的 历史 版 本 中 并 没有 这 个 数据 ， 所 以 系统 并 不 会 作 任 何 后 
台 重 定向 动作 。 对 于 追加 写 的 数据 块 ， 快 照 系统 不 作 任 何 处 理 。 另 外 ， 这 一 步 中 还 有 一 
个 动作 ， 即 C 被 覆盖 写 为 C” ， 由 于 C 块 之 前 已 经 被 重 定向 过 一 次 ， 所 以 这 次 系统 直 
接 用 C” 和 覆盖 之 前 的 C，， 无 须 任何 处 理 过 程 。 

(6 ) 当 源 文件 系统 内 所 有 数据 块 都 被 覆盖 写 了 一 遍 之 后 ， 系 统 内 将 有 两 套 完整 的 文件 系统 数 
据 集 : 一 套 是 当前 活动 文件 系统 ， 另 一 套 则 是 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数 
据 版 本 。 

图 16-3 所 示 为 在 RoFW 模式 下 生成 两 个 快照 之 后 系统 的 处 理 流程 示意 图 。 


图 16-3 RoFW 模式 生成 两 份 快照 后 处 理 流程 示意 图 
(1 ) 某 时 刻 的 状态 如 图 中 1 号 框 所 示 , 已 经 生成 了 一 份 快照 ， 并 目 重 定向 写 出 了 A' 和 C 
这 两 个 数据 块 。 
(2 ) 之 后 某 时 刻 ， 当 前 活动 文件 系统 的 B 被 更 新 为 B' ， 则 系统 直接 将 B′ 重 定向 写 出 去 。 
然后 ， 系 统 又 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 挂 ， 然 后 立即 开始 将 整个 当前 活 
动 文件 系统 的 元 数据 链 复制 一 份 存放 ， 复 制 完成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 
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数据 链 是 与 当前 活动 元 数据 链 完全 相同 的 ,所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 

元 数据 链 也 是 相同 的 。 可 以 看 到 数据 块 D 是 被 三 套 元 数据 链 共享 指向 的 。 

(3 ) 之 后 某 时 刻 应 用 程序 要 更 改 当前 活动 文件 系统 中 的 A 数据 块 为 A ， 此 时 是 否 需要 做 

一 些 动作 ? 我 们 来 看 一 下 ， 对 于 快照 1 来 讲 ，A” 已 经 是 被 重 定向 复制 出 去 的 块 了 ， 那 

么 对 于 快照 1 来 讲 是 不 需要 重 定向 写 , 但 是 对 于 快照 2 呢 ? 就 不 同 了 , 对 于 快照 2 来 讲 ， 

用 A"” 覆盖 A'” 就 属于 首次 覆盖 了 ， 所 以 需要 将 A” 重 定向 写 出 去 。 同 时 可 以 看 到 A' 

对 于 当前 活动 文件 系统 和 快照 1 来 讲 已 经 没有 用 了 ( 不 指向 它 了 ) ,但 是 对 于 快照 2 来 

讲 却 是 必须 的 ，A′ 是 快照 2 时 刻 这 个 块 所 对 应 的 历史 版 本 。 

(4) 同 理 ,之 后 某 时 刻 D 被 覆盖 更 改 为 D' ,那么 系统 同样 也 将 D′ 重 定向 写 出 ,并 且 修改 
当前 活动 文件 系统 元 数据 链 中 的 指针 。D 这 个 数据 块 依然 保留 ， 因 为 快照 1 与 快照 2 共 
同 指向 它 。 
(5 ) 在 这 一 步 中 ，B'′ 被 更 改 为 B” ，C' 被 更 改 为 C”，B” 与 C” 同样 被 重 定 向 写 出 去 并 

更 改 当前 活动 文件 系统 元 数据 链 指向 。 可 以 看 到 D 数据 块 仍然 被 两 个 快照 共享 。 而 当前 

活动 文件 系统 的 实际 数据 块 已 经 全 部 被 重 定向 写 出 去 了 。 

还 没 结束 。 到 这 一 步 看 似 很 完美 了 , 给 文件 系统 拍照 的 全 流程 已 经 梳理 完毕 ， 但 是 要 考虑 精 
益 求 精 。 在 面 对 一 个 海量 庞大 文件 系统 的 时 候 , 其 元 数据 量 可 能 会 达到 上 GB 甚至 上 百 GB, 这 都 
是 有 可 能 的 。 而 此 时 如 果 对 这 个 文件 系统 做 快照 ， 首 次 的 元 数据 复制 所 耗费 的 时 间 将 是 不 可 接受 
的 。 有 没有 办 法 再 降低 复制 量 ? 

我 们 还 是 用 万 变 不 离 其 宗 、 牵 一 发 动 全身 这 两 个 思想 来 作为 解决 这 个 问题 的 入 口 。 整 个 文件 
系统 的 “ 宗 ” 就 是 其 元 数据 链 , 那么 元 数据 链 本 身 有 没有 一 个 “ 宗 ” 呢 ? 对 了 , 确实 有 。 这 个 “ 宗 ” 
就 是 其 根 入 口 块 , 或 者 称 Super Block。 这 个 块 的 地 址 在 底层 空间 上 是 绝对 恒定 的 ， 这 个 块 内 存放 
有 指向 下 一 级 元 数据 链 块 的 指针 ， 操 作 系统 每 次 载 入 元 数据 都 要 从 这 个 地 址 读 入 Super Block， 从 
而 根据 其 中 的 指针 一 层 层 地 向 下 遍历 。 那 么 我 们 如 果 在 每 次 快照 的 时 候 只 将 Super Block 复制 保 
存 ， 是 否 可 以 呢 ? 

当然 可 以 。 如 果 只 复 
制 Super Block, 那么 其 下 
级 的 所 有 元 数据 链 自身 
的 变更 , 也 要 进入 CoFW 
或 者 RoFW 流程 了 。 图 
16-4 所 示 为 只 复制 根 节 
和 Super Block 并 且 使 用 
RoFW 模式 下 的 文件 系 
统 快照 流程 示意 图 。 

(1 ) 源 文件 系统 ( 当 

前 活动 文件 系 
统 , 即 正在 被 应 
用 程序 读 写 的 
生产 文件 系统 ) 


| | 活动 FS 数据 块 
国 快照 Fs 数据 块 


图 16-4 只 复制 Super Block 的 RoFW 模式 示意 图 
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初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 。 Super Block 指向 了 两 个 一 级 间接 inode(il 与 2 )。 
计 与 记 又 分 别 指 向 了 两 个 实际 数据 块 A、B 与 C、D。 当 然 ， 实 际 情况 下 不 可 能 只 有 这 么 
少 的 间接 块 以 及 这 么 浅 的 数据 链 级 数 ， 这 里 只 是 一 个 示意 图 。 此 时 此 刻 , A、B、C、DD 四 
个 块 的 内 容 不 断 变化 , 但 是 i1 与 这 间接 块 的 内 容 却 不 变 , 因为 让 块 的 内 容 是 A 与 B 块 所 
在 的 地 址 , 同样, 这 块 中 的 内 容 其 实 是 C 与 DD 块 所 在 的 地 址 ， 也 就 是 说 让 与 记 块 其 实 是 
个 指针 块 ，ABCD 的 内 容 不 断 在 变 , 但 是 它们 在 底层 存储 空间 上 的 地 址 偏 移 是 不 变 的 , 所 
以 让 与 记 块 内 容 也 不 会 变 。 当 i 或 者 i2 间接 块 对 应 的 文件 发 生长 度 变 化 时 , il 或 者 记 
可 能 会 变化 , 比如 新 指向 一 个 E 块 , i1 或 者 2 中 就 需要 新 添加 一 个 地 址 指针 来 指向 E 块 。 

(2 ) 某 时 刻 ， 系 统 触发 了 一 份 快照 ， 此 时 只 需要 将 Super Block 复制 保存 即 可 。 

(3 ) 随后 ， 数 据 块 A 发 生 内 容 变 更 ， 由 于 RoFW 模式 的 作用 ， 新 数据 块 A” 需要 重 定向 到 
一 个 新 位 置 上 ， 并 且 修 改 指针 指向 ， 也 就 是 修改 让 块 中 的 指针 将 其 指向 A′ 块 的 位 置 ， 
那么 也 就 意味 着 ，il 块 的 内 容 也 发 生 了 改变 ， 变 为 11 ,那么 同样 也 需要 将 i1′ 重 定向 
写 入 新 位 置 , 牵 一 发 而 动 全 身 , il 的 指针 变 了 ,Super Block 中 针对 原本 il 的 指针 现在 也 
需要 指向 i1′ 的 新 地 址 。i1′ 中 针对 B 数 据 块 的 指针 不 变 ， 仍 然 指 向 原 B 块 地 址 。 

(4) 随后 ， 数 据 块 B 发 生 了 变更 , 变 为 B”，B' 当然 要 被 CoFW，B 的 上 一 级 间接 块 为 i1 
的 指针 也 要 改 ， 由 于 之 前 i1 已 经 被 做 了 RoW， 所 以 本 次 只 要 在 il' 中 将 B 的 指针 指向 
B'′ 新 地 址 即 可 。 这 一 步 之 后 ,il 块 及 其 下 挂 的 数据 块 AB 只 被 快照 所 使 用 ,而 i2 及 其 
下 挂 的 数据 块 CD 仍 为 活动 文件 系统 以 及 快照 所 共享 。 

(5 ) 随后 ，C 发 生变 更 ， 执 行 与 之 前 相同 的 动作 ， 这 里 不 再 叙述 。 

(6) 当 A、B、C、D 都 发 生变 更 之 后 ,其 对 应 的 上 一 级 间接 块 也 随 之 都 发 生 了 变更 ， 也 都 被 
CoFW 了 出 去 ， 最 后 系统 形成 了 两 份 独立 的 文件 系统 元 数据 链 及 其 指向 的 实际 数据 块 。 

首次 只 复制 Super Block 的 做 法 加 快 了 复制 速度 , 使 得 快照 真 的 可 以 被 瞬间 执行 , 但 是 后 续 依 

然 需要 将 完整 的 元 数据 进行 CoFW 或 者 RoFW, 相 比 于 首次 复制 全 部 元 数据 链 的 模式 , 其实 需要 
复制 的 数据 量 长 期 来 看 是 一 样 的 ， 但 是 前 者 却 可 以 更 加 迅速 地 完成 快照 拍摄 过 程 。 


inode 复制 并 保存 ， 而 不 保存 下 级 链表 inode。 之 所 以 敢 这 么 做 的 原因 ,是 因为 WAFL 从 来 不 
会 覆盖 写 人 某 个 文件 对 应 的 旧 块 。 不 论 是 元 数据 还 是 实体 数据 ，WAFL 统统 写 人 到 卷 的 空闲 
块 上 ( 根 节点 inode 映射 图 位 置 恒定 ， 每 次 更 新 会 覆盖 写 ) 。 这 样 ， 在 只 复制 了 根 节点 inode 
之 后 , 由 于 下 级 链表 inode 均 不 会 被 覆 写 ， 所 以 同样 可 以 保存 瞬间 的 snapshot。 其 他 的 快照 实 
现 方式 , 一 般 都 将 所 有 inode 复制 并 保存 , 因为 它们 的 inode 都 是 恒定 位 置 的 , 只 能 全 部 覆 写 。 
WAFL 的 这 种 模式 相当 于 是 只 复制 根 入 口 的 ReW ( 注意 不 是 RoFW ) 模式 的 快照 。 


2. 基于 物理 卷 的 快照 


对 于 基于 物理 卷 的 快照 ， 其 比 文件 系统 快照 实现 起 来 要 简单 。 因 为 LUN 或 者 卷 一 般 在 底层 
磁盘 上 的 物理 位 置 是 恒定 的 ,而 不 像 文件 系统 那样 可 以 随意 细 粒 度 地 分 布 。 正 因 如 此 ,LUN 的 映 
射 元 数据 链 并 不 像 文件 系统 那样 复杂 ， 可 以 认为 LUN 的 元 数据 就 是 其 在 底层 磁盘 上 的 起 始 和 结 
束 地 址 。 

这 样 , 在 拍照 时 ,需要 复制 的 元 数据 链 就 更 小 , 是 真正 的 瞬间 完成 。 但 是 完成 之 后 就 难受 了 ， 
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需要 按照 一 定 的 粒度 来 做 CoFW 或 者 RoFW, 而 且 还 需要 记录 更 改 的 数据 映射 指针 , 细 粒 度 的 元 
数据 指针 是 文件 系统 的 特长 ， 现 在 就 需要 将 它 搬 到 LUN 卷 这 一 层 来 实现 了 。 对 于 某 些 实现 了 块 
级 虚拟 化 的 系统 如 NetApp、XIV、3PAR 等， 它们 的 LUN 在 底层 的 位 置 都 不 是 固定 的 ， 此 时 ， 
LUN 相当 于 一 个 文件 , 有 一 串 类 文件 系统 的 元 数据 链 来 维护 这 些 映 射 关系 。 所 以 ,这些 系统 实现 
快照 的 原理 与 文件 系统 级 快照 类 似 。 

基于 物理 卷 的 快照 ， 相 当 于 给 物理 卷 增 加 了 一 个 “ 卷 扇 区 映射 管理 系统 ”。 我 们 知道 ， 卷 扇 
区 应 当 是 由 文件 系统 来 组 织 和 管理 的 ， 但 是 为 了 减轻 文件 系统 负担 ， 人 们 在 底层 卷 这 个 层次 实现 
快照 。 卷 扇 区 都 是 用 LBA 来 编号 的 ， 实 现 快照 的 时 候 ， 程 序 首先 保留 一 张 初始 LBA 表 ， 每 当 有 
新 的 写 入 请 求 的 时 候 ， 程 序 将 这 些 请 求 的 数据 写 入 另 一 个 地 方 (一 般 是 一 个 新 卷 ， 专 为 快照 保留 
的 ) ， 并 在 初始 LBA 表 中 做 好 记录 ， 比 如 : 

原始 LBA: 卷 A 的 10000 号 , 映射 到 LBA: 卷 B 的 100 号 

以 上 映射 条 目的 产生 ， 是 由 于 有 IO 请 求 写 入 数据 到 卷 A 的 10000 号 LBA， 由 于 做 了 快照 ， 
卷 A 在 这 个 快照 被 删除 之 前 不 允许 写 入 , 所 以 将 这 个 写 入 请 求 的 数据 , 重 定向 写 到 卷 B 的 100 号 
LBA 扇 区 上 。 值得 说 明 的 是 , 文件 系统 不 会 感知 到 这 个 重 定向 动作 ,FS 在 它 的 映射 图 中 依然 记录 
了 卷 A 的 10000 号 LBA 地 址 而 根本 不 知道 还 有 个 卷 B。 

此 时 ， 如 果 文 件 系统 生成 了 一 个 IO 请 求 读 取 , 或 者 写 入 卷 A 的 10000 号 LBA 扇 区 , 那么 运 
行 在 卷 层 的 快照 程序 便 会 查找 快照 重 定向 映射 表 , 发 现 卷 A 的 10000 号 LBA 其 实 已 经 被 重 定向 到 
了 卷 B 的 100 号 ， 然 后 读 取 或 者 写 入 卷 B 的 100 号 扇 区 。 由 于 每 次 IO， 程 序 均 会 查找 这 份 快照 
映射 表 , 所 以 增加 了 处 理 时 间 , 降低 了 一 些 性 能 。 这 种 方式 称 为 Redirect on First Write ( RoFW ) ， 
意思 是 重 定向 写 ， 也 就 是 将 更 新 的 数据 写 入 另 一 个 地 方 ， 原 卷 数据 丝毫 不 动 ， 用 指针 来 记录 这 些 
重 定向 的 地 址 。 在 利用 RoFW 方式 做 了 快照 之 后 ， 针 对 随后 的 每 个 针对 这 个 卷 的 上 层 IO， 程 序 
都 需要 查 表 确 认 是 否 需要 重 定向 到 新 卷 (或 者 本 卷 为 快照 所 保留 的 空间 ) ， 这 种 做 法 对 性 能 是 有 
较 大 影响 的 ， 为 此 ， 有 人 发 明了 另 一 种 方式 来 保存 快照 数据 。 

快照 生成 之 后 ,如 果 上 层 有 针对 原 卷 某 个 或 者 某 些 自从 快照 之 后 从 来 未 被 更 新 过 的 LBA 块 的 
写 IO 请 求 ， 则 在 更 新 这 些 LBA 扇 区 之 前 ， 先 将 原来 扇 区 的 内 容 复 制 出 来 ， 放 入 一 个 空闲 卷 ， 然 
后 再 将 新 数据 写 入 原 卷 。 也 就 是 说 ， 旧 数据 先 占 着 位 置 , 等 什么 时 候 新 数据 来 了 , 旧 数 据 再 让 位 ， 
一 旦 原 卷 某 个 LBA 的 块 在 快照 之 后 被 更 新 过 了 ， 则 以 后 再 针对 这 个 LBA 块 的 写 IO ， 可 以 直接 覆 
盖 ， 不 需要 提前 复制 ， 因 为 第 一 次 更 新 此 块 的 时 候 已 经 将 原 块 数据 复制 保留 了 。 这 样 ， 原 卷 上 的 
数据 随时 都 是 当前 最 新 的 状态 , 所 以 针对 快照 之 后 的 每 个 上 层 IO, 不 必 再 遍历 映射 表 , 直接 写 向 
原 卷 对 应 的 地 址 ， 如 果 是 写 入 一 个 快照 之 后 从 未 被 更 新 过 的 块 ， 则 需 提 前 将 原 块 复制 保留 ， 这 种 
方式 称 为 CoFW ( 其 实 应 当 叫 做 Copy on First Write， 见 下 文 ) ， 写 前 复制 。 

在 “ 照 ” 下 了 这 一 时 刻 卷 上 的 数据 之 后 ， 为 了 保险 起 见 ， 最 好 对 那个 时 刻 的 数据 做 一 个 备份 ， 
也 就 是 将 快照 对 应 的 数据 复制 到 另外 的 磁盘 或 者 磁带 中 。 如 果 不 备 份 快照 ,那么 一 旦 卷 数据 有 所 损 
毁 , 快 照 的 数据 也 不 复 存 在 ,因为 快照 与 当前 数据 是 共享 LBA 扇 区 的 ( 如 果 没 有 更 新 原 卷 扇 区 的 话 )。 


3. RoFW 方式 与 CoFW 方式 比较 


不 管 是 CoFW 还 是 RoFW， 只 要 上 层 向 一 个 在 快照 之 后 从 来 没 被 更 新 过 的 数据 块 进行 写 IO 
更 新 ， 这 个 IO 块 就 要 占用 新 卷 上 的 一 个 块 〈 因为 要 保留 原 块 的 内 容 ， 不 能 被 覆盖 ) ， 如 果 上 层 
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将 原 卷 上 的 所 有 扇 区 块 都 更 新 了 ， 那 么 新 卷 的 容量 就 需要 和 原 卷 的 数据 量 同样 大 才 可 以 。 但 是 通 
常 应 用 不 会 写 履 盖 面 百分之百 ， 做 快照 的 时 候 ， 新 卷 的 容量 一 般 设 置 成 原 卷 容量 的 30% 就 可 以 。 
它 是 一 个 经 验 值 ， 当 然 要 根据 具体 业务 场景 来 判断 具体 值 。 

CoFW 方式 下 ,快照 生成 之 后 ， 如 果 上 层 需要 更 新 一 个 从 来 没有 被 更 新 过 的 块 ， 则 系统 首先 
将 这 个 源 块 读 出 ， 再 将 其 写 入 到 新 卷 ， 然 后 将 更 新 的 数据 块 内 容 覆 盖 写 入 到 原 卷 对 应 的 块 ， 需 要 
三 步 动作 : 一 次 读 和 两 次 写 。RoFW 方式 下 ， 同 样 的 过 程 只 需要 一 次 写 入 即 可 ， 也 就 是 将 更 新 数 
据 直 接 写 入 到 新 卷 ， 同 时 更 新 映射 图 中 的 指针 ( 内 存 中 进行 ) 。 所 以 RoFW 相对 CoFW 方式 在 
IO 资源 消耗 与 IO 延迟 上 有 优势 。 

由 于 只 是 在 首次 覆盖 写 的 时 候 才 会 发 生 Copy 或 者 Redirect, 那么 如 何 区 分 某 个 写 IO 针对 的 
块 是 首次 被 覆盖 还 是 之 前 已 经 被 覆盖 过 ? 这 需要 有 一 个 记录 表 (文件 级 快照 ) 或 者 位 图 ( 卷 级 快 
照 ) 来 记录 每 个 块 是 否 被 覆盖 过 。 

提示 : 对 于 卷 级 快照 ， 可 以 使 用 位 图 来 充当 这 个 角色 ， 因 为 源 卷 块 地 址 是 连续 固定 的 , 已 

经 被 覆盖 过 或 者 重 定向 写 过 的 可 以 对 应 1; 未 被 覆盖 则 对 应 0。 针 对 每 个 写 I0 可 以 先 查 询 

这 个 I0 的 目标 地 址 对 应 的 位 , 如 果 为 1 则 表示 已 处 理 过 , 则 直接 写 和 信 ; 如 果 为 0 则 表示 尚 

未 被 处 理 ， 需 要 先 执行 CoFW 或 者 RoFW。 

不 管 是 CoFW 还 是 RoFW 模式 下 , 对 于 每 个 上 层 写 IO, 由 于 都 必须 遍历 一 下 这 个 映射 表 ( 位 
图 ) ， 以 便 确 定 此 IO 请 求 的 LBA 或 者 文件 地 址 是 否 已 被 CoFW 或 者 RoFW 处 理 过 ， 从 而 做 出 
相应 动作 。 而 对 于 读 IO, CoFW 模式 下 由 于 源 卷 或 者 源 文件 系统 总 是 代表 当前 最 新 的 状态 , 所 以 
任何 读 IO 都 会 直接 被 下 发 到 源 来 执行 ， 也 就 是 直接 从 源 读 出 ， 而 对 于 RoFW 模式 ， 则 必须 也 查 
询 这 个 映射 表 或 者 位 图 来 查看 读 IO 目标 地 址 是 否 被 处 理 过 ， 如 果 是 ， 则 转向 重 定向 之 后 的 地 址 
读 ; 如 果 没 有 ， 则 直接 下 发 到 源 中 来 读 出 数据 块 。 

RoFW 会 影响 读 性 能 。 RoFW 模式 的 快照 生成 之 后 , 甚至 将 全 部 快照 删除 之 后 , 不 好 清理 战 
场 ， 都 会 影响 后 续 的 所 有 读 和 写 的 性 能 ， 后遗症 明显 。 因 为 重 定向 写 出 去 之 后 ,数据 块 的 排 布 都 
是 乱 的 ， 这 样 的 话 ， 就 会 严重 影响 后 续 读 写 性 能 。 而 CoFW 模式 下 ， 源 卷 总 是 最 新 时 刻 的 影像 ， 
删除 快照 之 后 战场 自动 清理 ， 没 有 任何 后 遗 症 。 

所 以 综合 来 讲 ，RoFW 比较 吃 计算 资源 ( 后 续 的 读 操作 由 于 连续 变 随 机 ， 也 会 很 吃 资源 ， 有 
永久 性 后 遗 症 ) ， 而 CoFW 比较 吃 IO 资源 。 此 外 ， 还 必须 考虑 一 点 ,就 是 CoFW 动作 一 般 并 不 
会 永远 都 高 频率 地 发 生 ， 对 于 一 个 特定 文件 系统 或 者 卷 ， 总 有 一 些 区 域 是 热点 ， 也 就 是 应 用 程序 
总 有 趋势 只 频繁 访问 和 更 新 某 些 地 址 ， 这 与 应 用 程序 业务 逻辑 有 关 。 

这 样 的 话 ， 当 被 覆盖 第 二 次 以 及 之 后 ,CoFW 模式 就 不 会 再 发 生 IO 惩罚 ,而 读 IO 一 直 都 没 
有 惩罚 ， 此 时 只 剩 下 每 次 写 IO 时 的 映射 表 / 位 图 遍历 过 程 ， 会 消耗 一 定 的 计算 资源 ;那么 对 于 
RoFW 模式 ， 就 算 全 部 源 文 件 系统 或 者 源 卷 的 数据 块 都 被 Redirect 过 了 ， 那 么 虽然 整个 过 程 中 不 
产生 任何 惩罚 IO ， 但 是 针对 每 个 读 或 者 写 IO ， 也 就 是 每 个 IO ， 不 管 读 写 ， 均 需要 遍历 映射 表 / 
位 图 ， 永 远 无 法 摆脱 对 计算 资源 的 消耗 。 

尤其 是 对 LUN 卷 级 的 快照 下 ,原本 卷 在 底层 磁盘 上 的 分 布 是 很 简单 且 定 死 的 ， 所 以 寻 址 就 
非常 迅速 , 但 是 RoFW 模式 的 快照 引入 之 后 , LUN 中 的 块 会 被 随机 的 重 定向 写 出 到 另外 的 空间 ， 
这 样 一 方面 需要 记录 比 原本 复杂 得 多 的 元 数据 指针 链 ， 降 低 了 寻 址 速度 ( 这 一 点 对 于 文件 系统 级 
快照 表现 的 还 不 是 很 明显 ， 因 为 文件 系统 元 数据 链 本 来 就 很 复杂 ) ; 另 一 方面 这 些 被 写 出 的 块 不 
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一 定 是 按照 与 源 LUN 相同 的 物理 上 连续 排列 的 ,这 样 在 连续 IO 情况 下 便 会 产生 严重 性 能 下 降 ( 这 
一 点 不 管 是 对 文件 级 还 是 LUN 卷 级 快照 影响 都 是 很 明显 的 ， 因 为 文件 系统 内 的 文件 一 般 也 是 
尽量 物理 上 连续 存放 的 ) 。 

这 一 点 相对 于 CoFW 模式 就 逊色 很 多 了 。 所 以 ， 绝 大 多 数 厂 商 还 是 使 用 CoFw 方式 来 做 快 
照 。 但 是 对 于 一 些 本 来 就 使 用 LUN 随机 分 块 分 布 模式 的 存储 系统 比如 NetApp 和 IBM 的 XIV， 
它们 使 用 的 就 都 是 RoFW 模式 。 显 然 ， 原 本 其 LUN 的 元 数据 链 就 很 复杂 ， 再 加 上 原本 就 是 一 种 
随机 分 布 ， 所 以 RoFw 的 后 遗 症 对 于 它们 来 讲 反而 是 正常 现象 了 。 

此 外 ,不 管 是 CoFW 还 是 RoFW 模式 ,比如 某 个 1O 是 64KB 大 小 , 那么 此 时 你 就 要 重 定向 
这 64KB 或 者 CoFW 出 原来 的 64KB 到 另外 空间 ， 如 果 某 时 刻 某 1O 是 4KB 大 小 ， 那 么 你 就 要 去 
重 定向 这 4KB 或 者 CoFW 出 原来 的 4KB 数据 到 额外 空间 ， 粒 度 不 同 ， 占 据 空间 不 同 ， 元 数据 指 
针 长 度 也 就 不 同 ， 这 会 导致 算法 更 加 复杂 。 

解决 的 办 法 是 固定 一 个 粒度 ， 比 如 就 用 64KB， 如 果 某 个 IO 写 为 区 B， 在 RoFW 模式 下 ， 
则 可 以 将 这 4KB 目标 地 址 所 落 入 的 那 64KB 的 数据 块 读 出 ,然后 将 4KB 的 新 内 容 在 内 存 中 覆盖 到 
这 64KB 中 对 应 的 地 址 上 ,然后 再 将 更 新 后 的 这 64KB 重 定向 到 另外 的 空间 ,以 后 再 有 针对 这 64KB 
目标 块 的 写 入 ， 则 直接 覆盖 写 到 重 定向 之 后 的 空间 ;在 CoFW 模式 下 ， 则 直接 读 出 原来 的 64KB 
写 到 额外 空间 后 ， 直 接 将 新 的 4KB 覆盖 到 源 卷 对 应 地 址 ， 之 后 再 有 针对 源 卷 的 这 64KB 地 址 范围 
内 的 写 操作 时 ， 就 无 须 再 CoFW 了 ( 当然 如 果 又 做 了 一 次 快照 ， 那 就 另 当 别论 了 ) 。 

这 么 做 的 优势 是 , 剩余 空间 内 可 以 以 一 个 固定 粒度 来 占据 空间 , 而 不 是 一 会 4KB, 一 会 32KB 
无 序 地 乱 放 , 这 样 就 可 以 降低 元 数据 指针 的 复杂 度 和 无 序 度 , 提高 查询 效率 。 相 对 没有 什么 劣势 ， 
虽然 首次 复制 数据 量 增 加 ， 但 是 却 可 以 简化 后 续 的 每 个 IO 都 要 复制 所 引发 的 持续 性 延迟 升 高 ， 
一 次 做 完 还 是 不 紧 不 慢 地 做 ， 这 种 情况 下 还 是 选择 前 者 比较 好 。 后 文中 会 有 详细 的 设计 例子 来 论 
述 这 两 种 方式 的 区 别 。 

卷 级 的 快照 仿佛 就 是 增加 了 一 个 “ 卷 块 映射 系统 ”， 其 作用 与 文件 系统 大 同 小 异 ， 只 不 过 
文件 系统 处 理 的 是 文件 名 和 块 的 映射 关系 ， 而 “ 卷 块 映射 系统 ”处 理 的 是 块 与 块 的 映射 关系 。 后 
者 的 元 数据 比 前 者 简单 得 多 ， 也 好 处 理 得 多 ， 粒 度 也 大 很 多 。 


4. 快照 的 意义 和 作用 


提示 : 快照 所 冻结 下 来 的 卷 数据 ， 无 异 于 一 次 意外 掉 电 之 后 卷 上 的 数据 。 为 什么 这 么 说 

呢 ? 

我 们 可 以 比较 一 下 ,意外 上 断 电 同样 是 保持 了 断 电 所 处 时 间 点 上 的 卷 数据 状态 。 我 们 知道 ,不 
管 是 上 层 应 用 ， 还 是 文件 系统 ， 都 有 自己 的 缓存 ， 文 件 系统 缓存 的 是 文件 系统 元 数据 和 文件 实体 
数据 。 并 不 是 每 次 数据 的 交互 ， 都 同步 保存 在 磁盘 上 ， 它 们 可 以 暂时 保存 在 内 存 中 ， 然 后 每 隔 一 
段 时 间 (比如 某 些 版 本 的 Linux 系统 默认 为 30 秒 ) ， 批 量 Flush 到 磁盘 上 。 当 然 编程 的 时 候 也 可 
以 将 每 次 对 内 存 的 写 ,都 Flush 到 磁盘 ,但 是 这 样 做 效率 和 速度 打 了 折扣 。 而 且 当 Flush 到 磁盘 的 
时 候 ， 并 不 是 只 做 一 次 IO， 在 数据 量 大 时 会 对 磁盘 做 多 次 IO。 如 果 快照 生成 的 时 间 恰 恰 在 这 连 
续 的 IO 之 间 生成 ， 那 么 此 时 卷 上 的 数据 ， 实 际 上 有 可 能 不 一 致 

磁盘 IO 是 原子 操作 ( Atomic Operation ) ， 而 上 层 的 一 次 事务 性 操作 ， 可 以 对 应 底层 的 多 次 
原子 操作 。 这 其 中 的 一 次 原子 操作 没有 业务 意义 ， 只 有 上 层 的 一 次 完整 的 事务 操作 ， 才 有 意义 。 
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所 以 如 果 恰好 在 一 个 事务 操作 对 应 的 多 个 原子 操作 的 中 间 生 成 快照 ， 那 么 此 时 的 快照 数据 ， 就 是 
不 完整 的 ， 不 一 致 的 。 

文件 系统 的 机 制 总 是 先 写 入 文件 的 实体 数据 到 磁盘 , 文件 的 元 数据 暂 不 写 到 磁盘 ， 而 是 先 保 
存 于 缓存 中 。 这 种 机 制 是 考虑 到 一 些 意外 事件 , 如 果 FS 先 把 元 数据 写 入 磁盘 , 而 在 准备 写 入 文件 
实体 数据 的 时 候 , 突然 断 电 了 ， 那么 此 时 磁盘 上 的 数据 是 这 么 一 个 状态 : FS 元 数据 中 有 这 个 文件 
的 信息 ， 但 是 实体 数据 并 没有 被 写 入 对 应 的 扇 区 ， 那 么 这 些 对 应 的 僵尸 扇 区 上 原来 的 数据 便 会 被 
认为 就 是 这 个 文件 的 数据 ， 显 然后 果 不 堪 设 想 。 

所 以 FS 一 定 是 先 写 入 文件 实体 数据 ,完成 之 后 再 批量 将 元 数据 从 缓存 中 Flush 到 磁盘 。 如 果 
在 实体 数据 写 入 磁盘 , 而 元 数据 还 没有 写 入 磁盘 之 前 断 电 , 那么 虽然 此 时 文件 实体 数据 在 磁盘 上 ， 
但 是 元 数据 没有 在 磁盘 上 ， 也 就 是 说 虽然 有 你 这 个 人 存在 ， 但 是 你 没有 身份 证 ， 那 么 你 就 不 能 公 
开 地 进行 社会 活动 ， 因 为 你 不 是 这 个 国家 的 公民 。 虽 然 文 件 系统 这 么 做 ， 会 丢失 数据 ， 但 是 总 比 
向 应 用 提交 一 份 驴 唇 不 对 马 嘴 的 数据 强 ! 


实验 : 就 拿 Windows 来 说 ,首先 创建 一 个 文件 , 并 在 创建 好 的 瞬间 , 立即 断 电 , 重启 之 后 ， 
会 发 现 刚才 创建 的 文件 没 了 ， 或 者 复制 一 个 文件 ， 完 成 后 立即 断 电 ， 重 启 之 后 也 会 发 现 ， 
复制 的 文件 不 见 了 ， 为 什么 ?明明 创建 好 的 文件 ， 复 制 好 的 文件 ， 为 什么 断 电 重启 就 没 了 
呢 ? 原因 很 简单 ， 因 为 断 电 的 时 候 ，FS 还 没有 把 元 数据 Flush 到 磁盘 上 ， 此 时 文件 实体 收 
据 虽 然 还 在 ,但 是 元 数据 中 没有 有， 那么 当然 看 不 到 它 了 。 


总 之 , 快照 极 有 可 能 生成 一 份 存在 不 一 致 的 卷 数据 。 既 然 这 样 为 何 还 要 使 用 快照 呢 ” 因 为 相 
对 于 停机 备份 ， 人 们 更 接受 使 用 快照 来 备份 数据 ， 即 使 快照 可 能 带 来 数据 不 一 致 。 但 停机 备份 所 
带 来 的 损失 ， 对 于 某 些 关 键 应 用 来 说 是 不 可 估量 的 ， 而 快照 只 需要 几 秒 钟 即 可 完成 ， 应 用 只 需 静 
黑 几 秒 钟 的 时 间 。 文 件 系统 或 者 卷 擅自 将 IO 先 存放 到 队列 中 ,等待 快照 完成 后 ， 再 继续 执行 。 
然后 可 以 随时 将 这 份 快照 对 应 的 数据 复制 出 来 ， 形 成 备份 。 

使 用 快照 必须 承担 数据 不 一 致 的 风险 。 也 可 以 这 么 形容 :快照 可 以 让 你 不 用 “意外 磁盘 掉 电 ”， 
就 能 获得 一 个 时 间 点 瞬间 磁盘 备份 ， 虽 然 数据 此 时 是 不 一 致 的 。 快 照 可 以 任意 生成 ， 而 占用 的 空 
间 又 不 会 很 大 ( 随 原 卷 数据 改动 多 少 而 定 ) ， 最 重要 的 是 ， 利 用 快照 可 以 做 在 线 快速 恢复 ， 只 要 
快照 没有 删除 ， 恢 复 也 同样 仅仅 需要 几 秒 钟 时 间 ， 与 快照 生成 的 道理 一 样 ， 不 用 停机 。 因 为 利用 
快照 恢复 数据 的 时 候 ， 只 要 在 内 存 中 做 一 下 IO 重 定向 , 那么 上 层 IO 访问 的 ， 就 立即 变 成 了 以 前 
寺 间 点 的 数据 了 。 这 是 快照 的 作用 之 一 ， 即 快速 恢复 ,不管 源 卷 数据 量 有 多 大 ， 即 便 是 几 TB， 
恢复 到 指定 时 间 点 状态 也 只 需要 数秒 钟 ， 因 为 无 须 复制 过 程 ， 只 需 重 定向 MetaData。 
快照 可 能 不 一 致 这 个 问题 ， 也 不 是 不 能 解决 。 既 然 快 昭 无 异 于 一 次 磁盘 掉 电 ， 那 么 ， 利 用 全 
照 恢 复数 据 之 后 ,文件 系统 可 以 进行 一 致 性 检查 从 而 纠正 错误 。 数 据 库 管 理 系统 也 同样 会 利用 其 
日 志 来 使 得 数据 文件 最 终 处 于 一 致 状态 。 

另外 ,现在 几乎 所 有 的 快照 的 解决 方案 ， 都 是 在 主机 上 安装 一 个 代理 软件 ， 当 在 存储 设备 上 
执行 快照 之 前 ， 代 理 软件 会 通知 应 用 或 者 文件 系统 将 缓存 中 的 数据 全 部 Flush 到 磁盘 ， 然 后 立即 
生成 快照 ， 这 样 快照 的 一 致 性 就 得 到 了 保护 。 快 照 的 管理 和 创建 也 都 是 使 用 这 个 代理 程序 界面 完 
成 ， 代 理 程序 会 与 存储 设备 进行 通信 以 便 传 输 指令 和 查询 信息 。 除 了 文件 系统 代理 之 外 ,还 有 各 
种 应 用 系统 代理 ， 比 如 Oracle、SQL Server 等 ， 这 些 代理 在 存储 层 触 发 Snapshot 之 前 会 与 对 应 的 
应 用 程序 通信 通知 应 用 程序 将 缓存 中 的 内 容 写 到 磁盘 ， 从 而 达到 底层 数据 的 一 致 性 。 如 图 16-5 
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所 示 ， 左 右 侧 分 别 为 一 个 Oracle 和 SQL Server 的 代理 程序 配置 界面 。 


Conputor Seeurity Oracle 10| Coaputer seerity et 


Pesse eater aeeaity infomution raated te de 


Cs =w | 有 CE ww | 
图 16-5 Agent 配置 界面 
对 于 文件 系统 级 的 快照 ， 应 用 程序 可 以 直接 在 操作 系统 中 看 到 快照 ， 可 以 直接 读 取 这 份 快照 


中 的 文件 。 而 对 于 卷 级 的 快照 ， 只 有 存储 设备 自己 可 以 管理 ， 操 作 系统 对 此 一 无 所 知 。 

对 卷 做 快照 之 后 ， 一 旦 原先 的 数据 块 被 更 改 / 覆 盖 ， 则 这 些 块 要 么 在 写 入 前 0 要 
么 原 地 锁 住 不 动 ， 新 数据 重 定向 写 到 空闲 区 域 。 总 之 ， 这 两 种 情况 下 ， 系 统 内 整体 空余 空间 都 要 
被 额外 数据 占用 而 减 小 。 

然而 ， 如 果 对 某 个 块 进行 二 次 更 改 /覆盖 ， 则 可 以 直接 在 这 些 新 块 之 上 进行 操作 而 不 需要 写 
前 复制 或 者 再 次 重 定向 写 入 ,除非 在 第 一 次 更 改 /覆盖 和 第 二 次 之 间 又 创建 了 一 个 或 者 多 个 快照 。 
所 以 CoFW 其 实 应 当 叫 做 Copy On First Write 更 加 准确 一 些 。 


提示 : 如 果 将 原来 的 数据 块 删除 了 ， 在 已 经 做 了 快照 的 情况 下 ， 系 统 将 做 出 什么 行为 ? 删 
除 原 块 对 应 的 行为 其 实 是 在 文件 系统 的 inode tree 中 将 对 应 的 指针 消除 ， 表 现 为 更 改 /覆盖 
对 应 inode 所 在 的 块 , 所 以 不 管 删 除 多 大 的 文件 , 也 只 有 对 应 的 inode 块 被 更 改 /覆盖 , 被 删 
除数 据 依然 存在 于 磁盘 上 。 然 而 这 些 数据 对 应 的 块 在 当前 活动 文件 系统 下 的 簇 位 图 中 已 经 
被 标记 为 空闲 块 了 ， 此 时 一 旦 又 有 新 数据 被 追加 写 人 到 这 些 空闲 块 ， 那 么 依然 会 被 重 定向 
或 者 写 前 复制 。 


使 用 快照 功能 之 前 必须 首先 评估 数据 源 IO 行为 ， 随 着 覆盖 写 入 几率 的 增加 ， 系 统 中 可 使 用 

的 空闲 空间 的 数量 也 将 随 之 增加 。 实 际 情况 中 ,文件 被 覆盖 写 入 的 几率 一 般 不 高 ， 比 较 高 的 是 

Create+ Write、 Delete、Rename、Open、 Read、Truncate、Append 等 操作 ， 其 中 Delete、Rename 、 

Truncate 操作 会 导致 Snapshot 占用 额外 空间 ， 而 这 其 中 Delete 和 Truncate 会 导致 被 删除 文件 本 身 

与 其 inode 的 block 都 占用 额外 空间 ,Rename 只 会 导致 对 应 inode block 占 用 额外 空间 。Create+Write 
操作 如 果 一 旦 覆盖 了 旧 块 ， 那 么 同样 也 会 占用 人 额外 空间 。 


快照 的 另外 一 个 非常 重要 的 意义 和 作用 , 就 是 预防 数据 的 各 辑 上 的 损坏 。 所 谓 逻 辑 上 的 损坏 ， 
比如 T1 时 刻 对 某 卷 做 了 Snapshot，T2 时 刻 ， 管 理 员 操作 不 当 ， 误 删除 了 此 卷 上 的 某 个 非常 重要 
的 文件 ,但 是 自己 没有 察觉 。T3 时 刻 , 备份 管理 员 对 这 个 卷 进行 了 全 备份 操作 ,并 且 之 前 的 备份 
已 经 被 抹 掉 。 此 时 ， 这 个 非常 重要 的 文件 ,看 似 是 永 久 丢失 了 。 其 实 不 然 ，T1 时 刻 ， 也 就 是 这 个 
文件 尚 存在 于 此 卷 的 时 刻 ,管理 员 做 了 一 次 Snapshot, 则 可 以 从 这 份 snapshot 中 将 这 个 文件 恢复 。 
同 理 ， 如 果 T2 时 刻 ， 此 卷 被 大 量 病毒 感染 , 中毒 已 深 无 可 救 药 ，Snapsho 此 时 便 是 救命 稻草 ,用 
Snapshot 将 这 个 卷 恢复 到 T1 时 刻 ， 几 秒 钟 后 ， 病 毒 全 部 消失 。 

另外 , 快照 可 以 降低 一 致 性 备份 的 窗口 假如 没有 快照 技术 ， 如 果 想 对 某 个 卷 进行 一致 性 备 
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份 ， 则 需要 暂停 上 层 应 用 程序 的 写 IO 操作 ,等待 备 份 程序 将 这 个 卷 的 所 有 数据 块 全 部 复制 完成 
之 后 ， 应 用 程序 方 可 对 此 卷 进 行 写 操作 。 这 显然 是 不 可 接受 的 ， 所 以 如 果 没有 快照 技术 ， 单 纯 对 
卷 进行 一 致 性 备份 的 话 ， 备 份 窗口 将 会 非常 长 。 而 如 果 对 这 个 卷 触发 一 份 一 致 性 快照 ( 引入 应 用 
程序 快照 代理 ) ， 然 后 立即 允许 上 层 写 IO, 之 后 在 后 台 备 份 这 份 快照 对 应 的 所 有 卷 数据 ， 这 样 就 
会 大 大 降低 对 应 用 程序 的 影像 ， 而 且 由 于 无 须 考虑 对 当前 系统 IO 的 影像 ， 还 可 以 提高 备份 速度 
从 而 降低 备份 窗口 。 

其 次 , 在 备份 完 数据 之 后 ， 如 何 检测 这 份 数 据 是 否 真 的 是 一 致 的 ? 是 否 用 其 恢复 之 后 ,应 用 
程序 可 以 正常 启动 并 且 处 理 它们 呢 ? 如 果 没有 快照 技术 ， 则 要 实现 这 个 目的 ， 我 们 需要 先 将 备份 
的 数据 恢复 到 一 个 独立 的 物理 空间 上 ， 然 后 将 其 挂 载 到 另外 一 台 机 器 ， 在 这 台 机 器 上 启动 对 应 的 
应 用 程序 对 数据 进行 检测 ， 费 时 费力 。 有 了 快照 就 不 同 了 , 快照 生成 之 后 ， 在 备份 这 份 快照 数据 
的 同时 ， 还 可 以 将 快照 直接 挂 载 到 另外 的 主机 ， 避 免 了 最 慢 的 一 步 ， 也 就 是 数据 物理 恢复 导入 的 
过 程 ， 大 大 节约 了 时 间 和 成 本 。 


不 能 实现 快照 的 产品 无 法 在 市 场 上 生存 。 目 前 市 场 上 也 有 很 多 基于 NTFS 文件 系统 的 第 三 
方 独立 快照 管理 软件 ， 例 如 “还 原 精灵 ”等 ， 它 们 都 是 非常 优秀 的 基于 NTFS 文件 系统 的 
快照 管理 软件 。 这 些 软件 的 作用 方式 一 般 是 将 自己 的 程序 人 口 写 人 MBR， 系统 引导 初期 会 
首先 加 载 这 些 程序 ， 开 机 之 后 始终 在 操作 系统 下 层 运行 ， 这 样 就 可 以 肆 无 忌 刁 地 接管 操作 
系统 对 NTFS 文件 系统 的 所 有 操作 。 在 这 个 基础 上 ， 程 序 可 以 实现 文件 系统 的 快照 以 及 管 
理 这 些 快照 。 


5. 如 何 管理 和 使 用 快照 


以 上 论述 了 Snapshot 的 原理 和 作用 ,本 节 我 们 将 阐述 一 份 Snapshot 是 如 何 具体 被 使 用 的 ， 即 
生成 了 Snapshot 之 后 ， 系 统 如 何 管理 和 使 用 它们 。 

我 们 知道 ，Snapshot 是 文件 系统 或 者 卷 管理 系统 的 映射 指针 链 在 某 时 刻 的 存根 。 现 在 的 存储 
系统 一 般 都 支持 对 某 个 卷 做 多 份 Snapshot, 比如 16 份 、256 份 ,IBM 公司 的 XIV 产品 甚至 可 以 超 
过 60000 份 。 每 个 厂家 实现 Snapshot 的 方式 都 不 尽 相同 ， 底 层 对 应 的 数据 结构 也 不 同 ， 但 均 需 要 
维护 指针 映射 关系 。 

比如 ， 有 的 厂家 在 文件 系统 总 入 口 处 设立 多 个 Slot 用 以 存放 二 级 指针 以 使 指向 所 有 Snapshot 
的 一 级 入 口 ，Slot 的 数量 决定 了 可 以 保存 Snapshot 的 数量 ， 顺 着 每 个 Snapshot 的 入 口 遍历 下 去 就 
会 得 到 整个 文件 系统 的 MetaData。 有 的 厂家 则 在 每 个 inode 中 增加 了 Slot 来 表明 这 个 inode 属于 
哪些 Snapshot， 整 个 文件 系统 只 有 一 个 入 口 , 通过 inode 中 的 这 些 Slot 来 遍历 所 有 Snapshot。 有 的 
三 家 则 尽量 简化 结构 ， 用 带 外 的 方式 创建 一 个 独立 的 映射 关系 表 ， 一 旦 某 个 Block 将 被 覆盖 ， 则 
将 对 应 的 inode 等 MetaData 信息 复制 到 这 张 表 中 随时 备查 。 各 家 的 实现 和 管理 Snapshot 的 方式 ， 
见仁见智 。 
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Snapshot 对 外 表现 为 一 个 虚拟 的 卷 , 一般 可 以 
在 存储 系统 的 管理 界面 中 看 到 , 比如 物理 卷 图 标 下 
面 列 出 所 有 Snapshot 卷 , 或 者 用 命令 行 方式 来 列 出 
Snapshot， 比 如 ，“snaplist volume1”， 当 然 命令 只 
是 乱 猜 一 个 罢了 。 每 当 点 开 图 形 界面 或 者 用 命令 行 
来 查看 Snapshot 列表 的 时 候 , 命令 的 执行 会 触发 存 
储 系 统 检索 整个 文件 系统 的 Snapshot 链 来 查询 当前 
Snapshot 的 情况 ， 并 将 结果 向 外 输出 。 所 以 每 次 查 
看 Snapshot 列表 ,是 需要 耗费 一 点 时 间 的 ,通常 不 
会 很 慢 ， 延 迟 在 几 秒 钟 之 内 。 图 16-6 所 示 为 通过 
运行 在 主机 上 的 代理 程序 所 列 出 的 Snapshot 列表 。 

生成 的 Snapshot 有 两 种 使 用 方式 , 各 个 厂家 在 
使 用 方法 上 大 同 小 异 。 一 种 是 直接 在 存储 设备 上 利 
用 某 卷 基 时 刻 的 Snapshot 恢复 该 卷 (比如 命令 


16-6 快照 列表 


“Snaprestore snapl volumel” ) 。 当 然 ， 恢 复 的 时 候 一 定 要 将 这 个 卷 unmap， 或 者 在 主机 端 将 其 
unmount、varyo 任 或 offine。 否 则 主机 端正 在 使 用 的 情况 下 ， 存 储 端 “擅自 ”做 Restore 之 后 , 主 


机 端 文件 系统 缓存 内 的 数据 会 覆盖 掉 restore 之 后 的 数据 ， 导 致 FS 不 一 致 。Restore 之 后 ， 主 机 重 


新 挂 载 这 个 卷 ， 看 到 的 就 会 是 以 前 的 Snapshot 对 应 的 内 容 了 。 整 卷 Restore 目前 来 讲 用 的 不 太 普 
遍 ， 毕 竞 发 生 整 卷 级 别 数据 丢失 或 者 逻辑 错误 的 情况 还 是 少数 。 用 的 最 多 的 是 第 二 种 方式 ， 即 主 
机 单独 挂 载 某 卷 某 时 刻 的 Snapshot， 恢 复 其 中 某 个 或 者 某 些 文件 。 


如 图 16-7 所 示 ， 在 代理 程序 界面 中 有 Disk1 的 30 个 Snapshot， 右 击 25， 从 弹出 的 快捷 菜单 


中 单 击 Mount Snapshot 命令 ， 之 后 Mounted 状态 栏 显 示 “Yes”， 表 明 这 个 Snapshot 已 经 被 成 功 


地 Mount 到 了 主机 端 。 


Praleaed oro0e | ms 
Snapshots 


图 16-7 挂 载 快 昭 
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如 图 16-8 所 示 , 此 时 , 打开 “我 的 电脑 ”, 会 出 现 一 个 新 挂 载 的 盘 符 , 其 中 的 内 容 便 是 Disk1 
在 对 应 时 刻 的 快照 中 的 内 容 。 找 到 需要 恢复 的 文件 ， 将 其 复制 到 源 卷 即 可 。 完 成 之 后 ， 在 代理 界 
面 中 将 其 Umount 即 可 。 被 挂 载 的 快照 卷 , 只 BO 外 
是 一 份 幻像 , 因为 Snapshot 中 的 内 容 与 源 卷 是 ”局 宇 “器 | ws Pow |S XIE 
息息相关 的 , 一 旦 源 卷发 生 底层 错误 , 则 其 上 。 有 Eco 
的 Snapshot 也 保 不 住 , 所 以 , 将 Snapshot 挂 载 Mo Ohh Orees 


之 后 , 可 以 用 备份 软件 备份 下 来 用 以 保存 实体 。 S56》 LedDst RE 
数据 到 另外 的 介质 ,比如 其 他 磁盘 ,或 者 磁带 。 一 me 哩 只 on 


Devices with Removable storage 


同 理 ， 可 以 挂 载 所 有 的 快照 到 主机 , 而 。 ro 
不 会 影响 源 卷 的 读 写 访问 。 当然, 这些 快 照 此 ”号 图 16-8 新 盘 符 
时 都 是 只 读 的 。 要 想得到 一 份 可 读 并 且 也 可 写 
的 Snapshot， 由 另 一 种 技术 来 实现 ， 叫 做 “ 卷 Clone”。 

6. 一 些 针对 快照 的 高 级 优化 技术 

快照 技术 已 经 并 不 是 多 么 高 端的 技术 了 。 近 年 来 , 国内 多 家 科研 院 所 或 者 企业 都 在 着 力 研究 
如 何 提高 快照 效率 ， 降 低 快照 生成 之 后 源 卷 的 写 惩罚 ， 也 已 经 有 多 项 专利 登记 在 案 。 

比如 某 专利 ， 其 提供 了 一 种 快照 空间 的 动态 扩容 方法 ,首先 在 逻辑 卷 的 卷 组 空间 中 分 配 一 快 


当前 保存 数据 量 ， 以 得 到 表示 快照 空间 的 剩余 容量 大 小 的 差 值 ， 检 查 差 值 是 否 小 于 一 默认 值 ; 当 
差 值 小 于 默认 值 时 ， 从 卷 组 空间 中 划分 一 容量 空间 ， 以 通过 由 标准 扩容 算法 对 快照 空间 进行 容量 
扩展 。 
比如 某 专利 ， 其 提供 了 一 种 缩短 写 时 复制 快照 写 响应 时 间 的 方法 ， 预 先 将 存储 系统 的 整个 存 
储 空间 分 为 源 数据 区 和 快照 区 ， 源 数据 区 存放 主机 访问 请 求 的 数据 ， 快 照 区 存放 需 快 照 保 存 的 数 
据 ;， 设 定 快照 块 大 小 ， 构 造 快 照 链表 头 和 快照 索引 结构 根 节 点 ， 快 照 链表 保存 所 有 快照 元 数据 ， 
快照 索引 结构 用 于 判断 相应 数据 块 是 否 已 保存 在 快照 区 ;， 当 接收 到 主机 发 送 过 来 的 写 请 求 时 ， 顺 
序 进 行 下 述 步 又 。 
(1) 根据 设 定 的 快照 块 大 小 ， 将 写 请 求 数据 依据 其 起 始 地 址 和 长 度 进行 分 块 ; 
(2 ) 以 每 个 分 块 号 为 关键 字 在 快照 索引 结构 中 进行 查找 ， 若 已 存在 ， 转 步骤 ( 8 ) ， 否 则 顺 
序 进行 ; 
(3 ) 判断 快照 区 是 否 有 足够 的 剩余 空间 ， 是 则 转 步 又 ( 5 ) ， 否 则 顺序 进行 ; 
(4 ) 自动 删除 快照 区 中 存在 时 间 最 久 的 一 个 快照 ， 并 更 新 快照 区 大 小 ， 转 步骤 ( 3 ) ; 
(5 ) 启动 快照 数据 读 进程 ， 将 需 快照 保存 的 数据 块 从 源 数据 区 中 读 出 ， 并 加 入 到 快照 数据 写 
入 队列 尾 ; 
(6 ) 更 新 快照 区 内 可 用 快照 区 大 小 和 下 一 个 可 用 扇 区 的 位 置 ; 
(7) 判断 所 有 分 块 是 否 都 已 处 理 完毕 ， 是 则 顺序 执行 ， 否 则 转 步 又 ( 2 ) ; 
(8 ) 将 主机 发 送 的 写 请 求 数据 写 入 源 数 据 区 ; 
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(9 ) 判断 是 否 满足 预先 设 定 的 快照 数据 写 进程 启动 条 件 ， 是 则 启动 快照 数据 写 进 程 ， 将 内 存 
中 积 捣 的 快照 数据 写 入 队列 中 的 数据 写 至 快照 区， 否则 顺序 执行 ; 
(10) 结束 。 


7. 快照 的 底层 架构 设计 实现 详 述 


为 了 让 读者 尽 可 能 深入 地 理解 Snapshot 的 底层 工作 原理 ， 作 者 在 此 自我 演绎 了 一 种 Snapshot 
的 实现 方式 ， 下 面 就 给 出 架构 设计 思想 说 明 ， 也 欢迎 广大 读者 与 我 交流 探讨 。 以 下 所 有 设计 概要 
均 为 作者 个 人 演绎 ， 如 与 某 专 利 或 者 某 厂 商 设计 雷同 ， 则 纯 属 巧合 ， 请 勿 对 号 入 座 。 

1) 基于 Copy On First Write 的 架构 设计 

本 设计 包含 4 个 实体 数据 结构 。 第 一 个 是 用 于 存放 变化 IO 块 的 IO 仓库 , 可 以 是 任何 形式 的 
高 性 能 永久 存储 空间 ， 再 加 上 一 份 IO 仓库 的 bitmap 用 来 标记 仓库 中 空闲 与 非 空闲 块 。 第 二 个 是 
地 址 映射 表 ， 用 于 保存 指针 ， 地 址 映射 表 也 存放 于 IO 仓库 的 特定 位 置 ， 并 且 每 个 快照 各 保存 一 
份 。 由 于 考虑 到 内 存 占用 和 处 理 效率 问题 , 地 址 映射 表 中 不 可 能 为 每 个 针对 源 卷 的 LBA 地 址 都 有 
一 个 Slot， 而 只 能 是 系统 生成 条 目的 时 候 ， 利 用 二 分 查找 方式 将 新 条 目 插入 表格 中 并 且 保证 所 有 
条 目 按照 LBA 地 址 大 小 的 顺序 排列 ,从 而 方便 后 续 的 步骤 中 对 表 中 地 址 的 查找 , 不 需要 做 索引 等 
其 他 结构 ， 以 降低 系统 资源 耗费 。 第 三 个 结构 是 RoFW 数据 映射 表 ,， 这 个 表 保存 所 有 针对 虚拟 快 
照 影像 卷 的 写 IO ( 可 以 参考 卷 Clone 一 节 )， 同样 是 每 个 快照 一 份 ， 只 读 挂 载 的 快照 则 不 需要 这 
个 数据 结构 。Bitmap 中 每 一 位 可 以 表示 一 个 LBA 地 址 ， 也 可 以 表示 一 大 段 LBA 地 址 ， 比 如 
4KB/16KB 甚至 128KB 的 Block， 加 大 表示 粒度 可 以 大 大 提高 处 理 效率 和 降低 内 存 占 用 ,但 是 在 
CoFW 操作 时 就 会 浪费 存储 空间 。 比 如, 某 个 写 IO 只 有 4KB 大 小 , 但 是 也 必须 CoFW 出 这 个 IO 
目标 地 址 段 所 落 在 的 整个 Block， 但 是 后 续 写 IO 如 果 再 落 在 这 个 Block， 则 无 须 CoFW 操作 了 。 
粒度 大 小 需要 根据 情况 综合 选择 。 

下 面 给 出 具体 步骤 演绎 。 

快照 生成 及 生成 之 后 的 系统 动作 流程 

(1) TO 时刻， 有 卷 V1，IO 仓库 V2。 此 时 系统 触发 一 份 Snapshot。 进 入 触发 流程 之 后 ， 系 

统 创建 一 份 针 对 T0 时 刻 的 快照 50 的 地 址 映射 表 F0, 这 份 表 在 T0 时 刻 为 空 , 如 图 16-9 
所 示 。 


T0 时 刻 状 态 


St 地 址 映射 表 Fo 


图 16-9 T0 时 刻 
(2) T1 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 A0 更 新 为 A1， 系 统 首 先 检查 所 有 已 存在 的 地 
址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA0 地 址 的 映射 条 目 ， 发 现 没有 ， 所 以 CoFW 

出 A0, 将 A0 写 入 IO 仓库 的 LBA0,， 然后 在 地 址 映射 表 FO 中 更 新 地 址 映射 条 目 : 
LBA0=LBA0， 意 思 是 源 卷 在 T0 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 
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的 LBA0 地 址 上 。 最 后 系统 将 Al 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-10 所 示 。 


LEA0 LBA1 


上 


源 卷 V IO 仓库 VS 地 址 号 射 表 Fo 
图 16-10 Tl 时刻 

(3 ) T2 时 刻 ， 有 写 IO 将 源 卷 LBA30 地 址 上 的 C0 更 新 为 C2， 系 统 首先 检查 所 有 已 存在 的 
地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA30 地 址 的 映射 条 目 ， 发 现 没 有 ， 所 以 
CoFW 出 C0, 将 C0 写 入 IO 仓库 的 LBA1, 然后 在 地 址 映射 表 FO 中 更 新 地 址 映射 条 目 : 
LBA30=LBA1, 意思 是 源 卷 在 TO 时刻 ( T0 时 刻 与 T2 时 刻 源 卷 LBA30 地 址 上 的 数据 相 
同 ) 的 LBA30 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 LBA1 地 址 上 。 最 后 系统 将 
C2 正常 写 入 源 卷 对 应 地 址 。 同 时 ， 系 统 再 次 触发 一 份 快照 S2, 并 为 52 创建 一 份 空 的 地 
址 映射 表 F2。 如 图 16-11 所 示 。 


BAT LEA0 LBA1 


二 捍 上 三 三 
源 卷 V LN。 IO 仓库 V。 Su 地 址 映射 表 F。 Sz 地 址 映射 表 Fa 
图 16-11 T2 时 刻 


(4) T3 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 Al 更 新 为 A3， 系 统 首先 检查 所 有 已 存在 的 地 
址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBAO 地 址 的 映射 条 目 ， 发 现在 针对 快照 S2 的 
地 址 映射 表 F2 中 没有 对 应 的 条 目 , 所 以 CoFW 出 Al, 将 Al 写 入 IO 仓库 的 LBA2, 然 
后 在 所 有 不 存在 LBA0 映射 条 目的 映射 表 中 加 入 新 地 址 映射 条 目 : LBA0=LBA2, 意思 是 
源 卷 在 T2 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 LBA2 地 址 上 。 最 后 
系统 将 A3 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-12 所 示 。 


LEA7 LBA0 LEA1 


HE 下 司 司 
源 卷 Vi IE。 IO 仓库 V。 So 地址 映射 表 F。 S 地 址 映射 表 F2 
图 16-12 T3 时 刻 


(5) T4 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B0 更 新 为 B4， 系 统 首先 检查 所 有 已 存在 的 
地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA11 地 址 的 映射 条 目 ， 发 现 F0 和 F2 都 没 
有 ， 所 以 CoFW 出 B0, 将 B0 写 入 IO 仓库 的 LBA3， 然 后 在 地 址 映射 表 F0 和 F2 中 同 
时 更 新 地 址 映射 条 目 : LBA11=LBA3， 意 思 是 源 卷 在 T0 或 T2 时刻 (TO0、T2 和 T3 时 
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刻 LBA11 地 址 的 数据 是 相同 的 ) 的 LBA11 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 
LBA3 地 址 上 。 最 后 系统 将 B4 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-13 所 示 。 


LBA0 LBAT LBAD LBA1 
LBA31 


源 卷 V IO 仓库 Vz ”So 地 址 映射 表 F。 Sz 地 址 映射 表 F> 
图 16-13 T4 时 刻 
(6) T5 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B4 更 新 为 B5， 系 统 首先 检查 所 有 已 存在 的 
地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA11 地 址 的 映射 条 目 ， 发 现 F0 和 F2 都 有 ， 
所 以 系统 不 进行 CoFW 过程， 直接 将 B5 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-14 所 示 。 


LBA0 LBAT 
一 一 下 三 三 


源 卷 V， MA |Q 合 库 V。 So 地 址 映射 表 F。 S, 地 址 映射 表 F; 
图 16-14 T5 时 刻 

(7) 任何 时 刻 ， 有 读 IO 针对 源 卷 任何 地 址 ， 系 统 将 直接 从 源 卷 读 取 对 应 地 址 的 数据 返回 给 
请 求 者 。 

客户 端 挂 载 某 份 快照 进行 IO 读 写 时 的 系统 动作 流程 

(1) T6 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 So 对 应 的 T0 时 刻 的 源 卷 的 虚拟 影像 映射 给 客 
户 端 。 系 统 接收 到 请 求 之 后 ,立即 根据 源 卷 的 大 小 等 属性 ,通过 底层 传输 通道 报告 给 客 
户 端 主机 一 个 虚拟 卷 。 

(2) T7 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影像 ( 此 时 主机 对 源 物理 卷 依然 在 进行 读 写 IO, 无 
影响 ) ， 并 且 将 其 挂 载 到 某 个 盘 符 下 。 此 时 有 某 个 程序 (比如 文件 系统 ) 尝试 读 取 这 个 
卷 的 LBA11 地 址 对 应 的 数据 。 

(3) T8 时刻， 系统 收 到 这 个 读 IO 请 求 之 后 ， 立 即 扫描 针对 快照 So 的 地 址 映射 表 F0， 判 断 
对 应 LBA11 的 Slot 是 否 被 记录 了 对 应 的 IO 仓库 存储 空间 的 映射 LBA 地址。 发现 LBA11 
对 应 的 Slot 存在 地 址 映射 ， 所 以 立即 将 映射 条 目 中 右 侧 也 就 是 IO 仓库 的 对 应 地 址 提取 
并 且 读 出 IO 仓库 中 对 应 这 个 地 址 ( 本 例 中 为 LBA3 ) 的 数据 ， 这 个 被 读 出 的 块 就 是 TO 
时 刻 快照 So 所 对 应 的 实际 数据 块 了 。 

(4) T9 时 刻 ， 系 统 将 读 出 的 数据 块 返回 给 客户 端 主机 。 

(5) T10 时 刻 ， 系 统 接收 到 来 自 客户 端的 针对 源 虚 拟 影像 卷 LBA5 的 读 请 求 ， 立 即 扫描 映射 
表 F0 发 现 源 卷 LBA5 的 Slot 中 并 没有 映射 条 目 ,所 以 系统 立即 从 源 卷 中 读 取 LBA5 地 址 
对 应 的 内 容 并 返回 给 客户 端 主机 。 

说 明 : 有 一 点 必须 说 明 ， 查 询 线程 在 查找 映射 表 之 前 ， 必 须 先 向 CoF W 线程 查询 当前 时 刻 


T4 时 刻 状 态 


LBA0 LBA1 
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是 否 存 在 任何 针对 源 物 理 卷 的 写 I0 正在 被 执行 ， 如果 有 ，IO 的 地 址 是 多 少 ， 如 果 地 址 恰 
好 就 是 需要 查询 的 地 址 ， 则 查询 线程 必须 先 等 待 CoFW 线程 完成 CoFW 操作 之 后 ( 此 时 
CoFW 会 向 映射 表 中 更 新 刚才 这 个 CoFW 的 数据 在 IO 仓库 中 的 地 址 ) ,再 去 查询 映射 表 中 
对 应 的 条 目 ， 此 时 就 可 以 查 到 最 新 的 结果 了 。 并 且 ， 如 果 查 询 线程 查询 的 结果 是 直接 从 源 
物理 卷 中 读 取 内 容 ， 则 在 查询 线程 完成 读 取 之 前 ，CoFW 线程 不 能 进行 针对 这 个 地 址 的 
CoFW 操作 。 如 果 系 统 不 这 样 做 ， 也 就 是 不 与 CoFW 线程 交互 ， 那 么 查询 线程 很 有 可 能 从 
源 卷 中 读 取 的 是 最 新 刚 被 写 人 的 数据 而 不 是 对 应 以 前 快照 时 刻 的 数据 。 


(6) T11 时 刻 ， 系 统 接收 到 主机 客户 端 针对 虚拟 影像 卷 任何 一 个 地 址 的 写 IO 操作 ， 则 系统 
立即 将 这 个 写 IO 和 其 对 应 的 LBA 地 址 一 同 存放 在 另外 一 个 单独 的 数据 映射 表 中 , 与 地 
址 映射 表 一 样 ， 每 个 条 目 Slot 中 的 LBA 地 址 按照 大 小 顺序 排列 ， 只 不 过 这 个 Slot 中 存 
放 的 是 虚拟 影像 卷 的 LBA 地 址 和 对 应 的 主机 写 IO 实体 数据 ( 当然 也 可 以 将 实体 数据 放 
到 公用 IO 仓库 中 然后 在 这 个 表 中 存放 数据 在 仓库 中 的 LBA 地 址 指针 ， 视 设计 不 同 而 
定 ) 。 一 旦 第 一 个 写 IO 被 系统 接收 之 后 ， 针 对 随后 的 任何 一 个 客户 端 发 送 的 读 或 者 是 
写 IO， 系 统 都 要 首先 查询 这 个 RoFW 数据 映射 表 ， 如 果 找 到 对 应 的 映射 ， 则 直接 将 表 
中 对 应 的 数据 返回 给 客户 端 ; 如 果 没 找到 对 应 条 目 ， 则 再 执行 与 上 几 步 中 同样 的 动作 。 
上 一 步 中 的 线程 依赖 关系 同样 要 考虑 。 

(7) T12 时 刻 ， 客 户 端 要 求 挂 载 快照 S2 对 应 的 虚拟 影像 卷 。 系 统 接收 到 请 求 之 后 ， 做 与 第 
(1 水 相 同 的 工作 。 如 果 接 收 到 客户 端 主机 针对 S2 影像 卷 的 任何 IO 请 求 , 则 做 与 第 (2 )~ 
第 (5 ) 步 相同 的 动作 ， 只 不 过 系统 要 去 扫描 S2 的 映射 表 F2 了 。 两 个 虚拟 卷 可 以 同时 
接收 IO。 

客户 端 决定 将 快照 s0 进行 Rollback (Restore ) 时 系统 的 动作 流程 

(1) T13 时 刻 ， 客 户 端 要 求 将 快照 So 直接 回 滚 覆 盖 到 源 物 理 卷 。 系 统 接收 到 请 求 之 后 , 直 
接 向 客户 端 返回 已 经 成 功 Rollback ( 与 直接 挂 载 虚拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 
以 选择 前 台 Rollback， 即 Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S0 快照 点 卷 的 
任何 IO 操作 。 但 是 为 了 保证 操作 友好 性 ,在 此 设计 为 后 台 操 作 。 后 台 操 作 的 结果 是 ， 

主机 直接 认为 Rollback 成 功 ， 则 可 能 立即 向 源 卷发 起 读 写 IO。 还 需要 注意 的 一 点 是 ， 
在 Rollback 之 前 ， 主 机 客户 端 一 定 要 将 其 Buffer 中 的 内 容 Flush 到 源 卷 ， 否 则 源 卷 一 下 
子 被 Rollback， 但 是 主机 中 却 保存 着 Rollback 之 前 的 缓存 ， 随 后 又 将 这 些 缓存 Flush 到 
Rollback 之 后 的 源 卷 , 那么 数据 就 不 一 致 了 。 不一致 的 后 果 是 可 怕 的 。 所 以 , 在 Rollback 
之 前 , 干脆 在 主机 端 Unmount 源 卷 ，Rollback 完成 后 再 Mount 回来 即 可 。 

(2) T14 时 刻 ， 系 统 开始 执行 与 挂 载 虚拟 影像 读 写 时 相同 的 动作 ， 但 是 在 后 台 ， 系 统 会 将 原 
先 CoFW 出 来 的 数据 块 以 及 刚刚 被 oFW( 如 果 后 台 操 作 未 完成 时 客户 端 有 写 IO 进入 ) 
的 数据 统统 覆盖 到 源 物 理 卷 对 应 地 址 上 ， 在 读 取 IO 仓库 中 的 CoFW 块 时 要 首先 查询 
RoFW 数据 映射 表 中 是 否 已 经 针对 当前 操作 的 地 址 有 被 写 入 的 数据 ; 如 果 有 , 抛弃 原来 
被 CoFW 的 数据 转 而 将 刚 被 更 新 过 的 数据 写 入 源 卷 ( 在 处 理 客户 端 写 IO 请 求 时 , 也 可 
以 直接 将 写 IO 数据 覆盖 到 源 物理 卷 对 应 地 址 ， 无 须 RoFW， 节 约 一 轮 IO 操作 ,但 必 
须 记录 每 个 在 Rollback 开始 与 完成 之 间 发 生 的 写 IO 地 址 以 便 在 Rollback 时 跳 过 这 些 地 
址 ， 可 以 用 Bitmap 来 记录 ) 。 同 样 ， 线 程 依赖 关系 必须 考虑 。 处 理 完 的 CoFW 块 将 在 


507 


昌 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


IO 仓库 的 Bitmap 中 被 标记 为 空 闻 以 便 腾 出 空间 。 


说 明 : 整个 步骤 中 需要 着 重 注意 的 是 ， 比 如 TS 时 刻 系统 状态 图 所 示 ， 当 系统 要 将 C0 覆盖 
C2 的 时 候 ， 此 时 由 于 C2 为 快照 52 的 基准 块 ， 所 以 ， 如 果 选 择 保存 S2 快照 ， 那 么 依然 需 
要 将 C2 先 CoFW 之 后 放 入 I0 仓库 ,然后 更 新 F2 映射 表 中 对 应 的 条 目 。 即 ， 在 做 覆盖 操 
作 之 前 ， 必 须 参考 恢复 快照 点 之 后 所 有 快照 点 的 地 址 映射 表 ， 一 旦 任何 一 份 表 中 对 应 的 地 
址 没有 映射 条 目 ， 则 依然 需要 CoF W 过 程 。 


然而 ， 目 前 市 面 上 的 产品 几乎 都 严格 遵照 历史 规则 ， 即 ， 既 然 选 择 了 回 滚 到 TO 时 刻 的 SO 
快照 点 ， 那么 TO 时刻 之 后 所 发 生 的 所 有 事件 就 不 应 该 存在 ， 所 以 S2 也 不 能 存在 ， 所 以 大 
部 分 实现 案例 中 ， 在 选择 恢复 到 某 个 快照 点 的 时 候 ， 都 会 同时 将 这 个 快照 点 时 间 之 后 的 所 
有 快照 删除 。 但 是 我 们 这 种 设计 是 可 以 选择 保存 后 面 的 快照 点 的 。 同 理 , 恢复 到 S2 快照 点 
与 恢复 到 S0 快照 点 的 具体 动作 流程 相同 。 


(3) T15 时 刻 ， 当 地 址 映射 表 与 RoFW 数据 映射 表 中 的 所 有 条 目 都 被 处 理 完成 之 后 ， 系 统 立 
即将 这 两 份 表 彻底 删 掉 。 此 刻 之 后 ， 就 相当 于 S0 快照 没有 被 创建 过 ， 而 系统 只 剩 下 了 
S2 快照 。 随 后 的 动作 流程 与 生成 S2 快照 之 后 的 动作 相同 。 

最 后 还 需要 明确 一 点 ， 如 果 在 整个 后 台 过 程 完成 之 前 ， 再 有 新 的 Snapshot 被 创建 ， 则 新 
Snapshot 创建 之 后 的 CoFW 过程 将 会 与 后 台 Rollback 操作 过 程 相 冲 突 ,除非 引入 额外 的 CoFW 操 
作 才 能 保证 数据 一 致 性 ， 所 耗费 的 开销 和 动作 流程 与 上 文中 的 保存 S2 快照 的 开销 和 动作 流程 相 
同 。 当 然 ， 如 果 一 开始 就 选择 使 用 前 台 方式 Rollback， 则 Rollback 的 时 间 和 效率 都 会 增加 ， 只 不 
过 需要 用 户 等 待 一 段 时 间 。 

客户 端 决定 删除 快照 So 时 系统 的 动作 流程 〈S0 尚未 被 删除 时 ， 从 T13 时 刻 开始 ) 

(1) T13 时 刻 ， 客 户 端 卸 载 了 S0 快照 虚拟 影像 卷 ， 系 统 收 到 卸载 请 求 之 后 ， 将 RoFW 数据 

映射 表 全 部 删除 ， 其 他 不 做 更 改 。 如 果 客 户 端 再 次 挂 载 该 快照 ， 则 会 重新 得 到 一 份 干净 
的 TO 时 刻 的 卷 影像 ， 之 前 的 写 IO 数据 由 于 被 系统 删 掉 ， 所 以 全 部 丢失 。 如 果 客 户 端 
希望 在 卸载 虚拟 卷 之 后 系统 能 够 依然 保持 所 做 的 更 改 , 则 需要 通知 系统 创建 一 份 针对 快 
照 S0 的 Clone 卷 ， 即 针对 S0 的 二 次 虚拟 影像 卷 。 所 谓 Clone 卷 也 只 不 过 就 是 系统 会 永 
久保 存 RoFW 数据 映射 表 ， 除 非 显 式 地 收 到 删除 请 求 。Clone 卷 下 文 也 会 有 所 介绍 。 

(2) T14 时 刻 ， 客 户 端 请 求 系统 删除 快照 S0。 系 统 接收 到 请 求 之 后 ， 首 先 扫 描 对 应 S0 快照 

的 F0 地 址 映射 表 并 扫描 其 他 所 有 快照 的 地 址 映射 表 ， 找 出 只 有 S0 映射 表 Fo 中 存在 而 
其 他 快照 映射 表 中 都 不 存在 的 对 应 条 目 ， 比 如 T5 时 刻 的 LBA30 映射 条 目 ， 从 IO 仓库 
bitmap 中 标记 对 应 的 CoFW 块 为 空闲 。 当 S0 映射 表 中 所 有 条 目 都 扫描 并 处 理 完成 之 后 ， 
删除 整个 S0 映射 表 F0， 此 时 S0 快照 便 删 除 完毕 。 这 个 过 程 中 依然 涉及 线程 依赖 关系 ， 
需要 考虑 。 另 外 ， 这 个 过 程 可 以 前 台 操作 ,也 可 以 后 台 操 作 ， 但 推荐 后 台 操 作 ， 这 样 对 
系统 和 随后 的 IO 无 影响 。 

(3 ) 删除 任何 一 个 快照 ， 流 程 皆 相 同 。 

如 何 计算 CoFW 模式 下 两 份 快照 影像 之 间 所 更 改过 的 数据 地 址 


有 时 候 系统 需要 得 知 前 后 两 份 快照 之 间 所 变化 的 数据 地 址 ， 这 种 情况 在 实现 增 量 备份 的 时 候 
很 需要 。 比 如 A 时 刻 做 了 一 份 快照 并 将 其 做 了 备份 ，B 时 刻 又 做 了 一 次 快照 ， 此 时 没有 必要 将 B 
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时 刻 的 快照 也 完整 地 备份 下 来 , 如 果 只 备份 B 时 刻 快 照相 对 于 A 时 刻 快 照 之 间 变 化 过 的 数据 ， 则 
可 以 大 量 节省 备份 时 间 和 空间 。 待 恢复 时 刻 A 快照 的 时 候 , 正常 恢复 , 待 恢复 时 刻 B 快照 的 时 候 ， 
当 恢 复 程序 读 取 到 更 改过 内 容 的 地 址 时 直接 读 取 时 刻 B 的 增 量 备份 中 对 应 地 址 的 数据 即 可 。 还 有 
一 种 情况 需要 使 用 快照 比 对 ， 那 就 是 远程 数据 容 灾 系统 的 底层 设计 ， 诸 如 EMC/Mirrorview、 
3PAR/RemoteCopy、NetApp/SnapMirror 等 远程 数据 复制 软件 均 使 用 快照 比 对 技术 来 向 远程 批量 
传送 变化 的 数据 ， 下 一 章 将 详细 描述 这 些 技术 的 底层 实现 方式 。 
对 于 CoFW 模式 的 快照 ， 比 较 任意 两 份 快照 之 间 所 不 同 的 数据 只 需 按照 下 面 步 又 操作 即 可 
(1 ) 某 系 统 先后 生成 了 3 份 快照 ，S0、S1、S2。 现 需要 比较 以 得 知 快照 50 与 S2 之 间 的 变化 
数据 。 系 统 首先 对 比 S0 和 S1， 找 出 在 S0 地 址 映射 表 中 存在 但 是 在 S1 地 址 映射 表 中 不 
存在 的 地 址 映射 条 目 ( 先 忽略 映射 结果 的 异同 ， 即 条 目 右 侧 的 地 址 。 只 要 某 个 地 址 存在 
条 目 就 是 存在 ,不 存在 条 目 ， 就 是 不 存在 ) ， 以 及 S0 中 和 S1 中 都 存在 但 是 映射 结果 不 
同 的 地 址 映射 条 目 。 将 所 有 条 目 收集 到 一 份 新 列表 中 。 
(2) 之 后 ， 系 统 再 按照 相同 的 规则 比 对 S1 和 S2 的 地 址 映射 表 ， 将 收集 到 的 地 址 追加 到 刚才 
的 新 列表 之 后 。 
(3 ) 对 新 列表 中 的 地 址 条 目 按照 源 卷 地 址 进行 排序 。 
2 ) 基于 RoFW 模式 的 快照 设计 
RoFW 模式 一 般 没 人 用 在 原生 快照 设计 中 ,除非 是 架构 过 异 的 快照 实现 方式 比 ， 如 NetApp 
WAEFL 快照 (我 们 将 在 后 文中 简要 介绍 WAFL 快照 的 实现 原理 ) 。 究 其 原因 是 因为 RoFW 模式 
实现 起 来 相对 CoFW 方式 复杂 。 但 是 由 于 其 对 写 性 能 的 影响 显著 低 于 CoFW 方式 ， 在 这 里 也 简 
要 地 演绎 一 下 这 种 模式 。 
快照 生成 及 生成 之 后 的 系统 动作 流程 
(1) T0 时刻， 有 卷 V1，IO 仓库 V2。 此 时 系统 触发 一 份 Snapshot。 进 入 触发 流程 之 后 ， 系 
统 创建 一 份 针对 T0 时刻 的 快照 S0 的 地 址 映射 表 F0, 这 份 表 在 TO 时 刻 为 空 ,如 图 16-15 
所 示 。 


LBA0 LBA7 LBA0 LBA1 
Es 三 
源 卷 V “人 0 人 印 库 V。 Ss 地 址 映射 表 F。 


图 16-15 T0 时 刻 
(2) T1 时 刻 ， 有 针对 源 卷 LBA0 地 址 的 写 IO 数据 Al 进入 ， 此 时 系统 直接 将 Al 写 入 IO 仓 
库 中 的 LBA0 存放 。 并 在 S0 对 应 的 地 址 映射 表 F0 中 的 LBAO 的 Slot 中 加 入 映射 关系 
“LBA0=LBA0” 如 图 16-16 所 示 。 左边 是 源 卷 中 的 地 址 , 右边 是 IO 仓库 中 的 对 应 数据 
存放 的 地 址 。 这 里 的 意义 与 CoFW 方式 不 同 了 , 这 里 的 意思 是 , 源 物理 卷 地 址 LBA0 的 
最 新 数据 内 容 在 IO 仓库 中 的 LBA0 地 址 存放 而 不 是 源 卷 自身 , 源 卷 自身 永远 都 是 S0 时 
刻 的 影像 ， 永 久 冻 结 ， 拒 绝 写 入 ， 除 非 所 有 快照 都 被 删除 。 
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LBA0 LBA1 


HE 


源 卷 V; 9 10 仓库 V。 So 地 址 映射 表 F。 
图 16-16 Tl 时 刻 
(3 ) T2 时 刻 , 有 针对 源 卷 LBA30 的 数据 C2 进入 , 系统 依然 直接 将 C2 写 入 IO 仓库 的 LBA1 
地 址 存放 ， 并 在 映射 表 F0 中 对 应 LBA30 的 Slot 中 增加 映射 条 目 。 最 后 ， 系 统 收 到 命令 
触发 一 份 新 快照 S2， 系 统 会 为 S2 也 生成 一 份 映射 表 P2， 如 图 16-17 所 示 。 


LBA0 LBA1 


和 由 上 


中信 | 1 仓库 V。 So 地 址 映射 表 F。 S-: 地 址 映射 表 F。 
图 16-17 T2 时 刻 
(4) T3 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A3 进入 。 此 时 ， 由 于 第 二 份 快照 S2 已 经 
生成 ， 而 S2 的 生成 会 引发 系统 动作 的 很 大 变化 。 此 时 ， 源 物理 卷 、F0 映射 表 以 及 表 中 
的 指针 所 指向 的 IO 仓库 中 的 数据 , 共同 组 成 了 快照 S2 的 基准 卷 , 这 三 者 的 共同 体 也 就 
是 源 卷 在 T2 时 刻 的 影像 , 即 快照 S2, 也 将 会 被 永久 冻结 , 拒绝 写 入 , 如 图 16-18 所 示 。 


LBA0 LBA1 


HH 


源 卷 V， SS 10 他 库 V。 So 地 址 映射 表 F。 S; 地 址 映射 表 F。 
图 16-18 T3 时 刻 
系统 就 像 上 几 步 一 样 ， 直 接 将 A3 写 入 IO 仓库 中 的 新 地 址 LBA2 中 (LBA0 和 LBAI1 被 冻结 
但 是 其 他 地 址 未 被 冻结 ) ， 并且 在 F2 映射 表 中 将 LBAO 的 Slot 写 入 映射 指针 。 

(5 ) T4 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A4 进入 。 此 时 ， 系 统 检查 最 晚 也 就 是 最 后 
一 份 快照 映射 表 中 是 否 有 对 应 这 个 地 址 的 映射 条 目 ， 如 果 有 ， 则 提取 出 映射 的 IO 仓库 
地 址 同时 将 数据 写 入 IO 仓库 中 对 应 的 地 址 ,也 就 是 覆盖 了 IO 仓库 中 原来 这 个 地 址 上 的 
数据 。 本 例 中 , 系统 发 现存 在 LBA0 的 条 目 , 所 以 直接 用 A4 覆盖 了 IO 仓库 中 原来 的 数 
据 A3。 映 射 表 中 不 做 任何 更 改 。 如 图 16-19 所 示 。 
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LBAD LBA1 


10 仓 库 V。 i S:; 地 址 映射 表 F2 
图 16-19 T4 时 刻 
(6) T5 时 刻 ， 有 针对 源 卷 地 址 LBA11 的 IO 写 入 数据 B5 进入 。 此 时 系统 依然 首先 检查 最 晚 
也 就 是 最 后 一 份 快照 映射 表 中 是 否 有 对 应 这 个 地 址 的 映射 条 目 ， 如 果 没 有 , 则 将 数据 写 
入 到 IO 仓库 中 的 一 个 新 地 址 中 。 本 例 中 , F2 表 中 没有 LBA11 的 映射 条 目 , 所 以 系统 直 
接 将 B5 写 入 了 IO 仓库 中 的 LBA3 中 , 并 在 F2 表 中 更 新 了 条 目 ， 如 图 16-20 所 示 。 


LBA0 LBA1 


贡生 和 


源 卷 V) 加 | IO 仓库 V。 So 地 址 映射 素 F。 S: 地 址 映射 表 F。 
图 16-20 T5 时 刻 

(7) T6 时 刻 , 有 针对 源 卷 LBA0 地 址 的 读 操作 进入 。 此 时 系统 检查 最 晚 的 一 份 快照 中 是 否 有 
LBA0 地 址 的 映射 条 目 , 如 果 没 有 , 则 继续 查找 前 一 份 快照 是 否 有 对 应 地 址 的 映射 条 目 ， 
如 果 都 没 找到 映射 条 目 ， 则 直接 从 源 物理 卷 中 对 应 地 址 读 出 数据 并 返回 给 客户 端 。 如 果 
按时 间 倒 序 的 顺序 查询 之 后 最 终 在 某 份 快照 映射 表 中 查 到 了 对 应 地 址 的 条 目 , 则 提取 映 
射 的 IO 仓库 地 址 ,并 从 IO 仓库 中 将 这 个 地 址 对 应 的 数据 读 出 并 返回 给 客户 端 ,本 例 中 ， 
系统 在 最 晚 的 快照 映射 表 F2 中 找到 了 LBA0 的 映射 条 目 ， 立即 从 IO 仓库 中 将 LBA2 处 
的 数据 读 出 ， 返 回 给 客户 端 。 经 过 上 述 的 算法 ， 才 能 保证 传 给 客户 端的 数据 是 最 新 的 ， 
而 不 是 某 份 快照 时 间 点 对 应 的 之 前 的 数据 。 

(8) T7 时 刻 ， 系 统 再 次 触发 一 份 快照 S7， 创 建 了 对 应 的 F7 映射 表 。 此 时 ，F0 和 F2 均 都 处 

于 冻结 状态 ， 如 图 16-21 所 示 。 


工时 刻 状 态 
14 


LBA31 


源 卷 V1 


T7 时 刻 状态 


源 卷 V 5 IO 仓库 V。 ”Su 地 址 映射 表 F。 S: 地 址 映射 表 F。 S) 地 址 映射 表 F 
图 16-21 T7 时 刻 
(9 ) T8 时 刻 ， 有 针对 源 卷 的 LBA0 和 LBA17 以 及 LBAS5 的 三 个 写 IO 先后 同时 进入 。 系 统 按 
照 规则 , 查询 最 后 一 份 快照 地 址 映射 表 也 就 是 F7 中 是 否 有 针对 这 三 个 地 址 的 映射 条 目 ， 
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发 现 都 没有 ， 所 以 将 这 三 个 IO 数据 写 到 IO 仓库 中 的 空闲 位 置 ， 然 后 在 F7 中 更 新 映射 
条 目 ， 如 图 16-22 所 示 。 


T8 时 刻 状态 


LBA0 LBAT LBA0 LBAT 


源 卷 Vi 中 和 | |O 合 库 V。 So 地 址 映射 表 F。S? 地 址 映射 表 F。 S ;地 址 映射 表 Fy 
图 16-22 T8 时 刻 


客户 端 挂 载 某 份 快照 进行 IO 读 写 时 的 系统 动作 流程 

(1) T9 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 So 对 应 的 T0 时 刻 的 源 卷 的 虚拟 影像 映射 给 客 
户 端 。 系 统 接收 到 请 求 之 后 ,立即 根据 源 卷 的 大 小 等 属性 ， 通 过 底层 传输 通道 报告 给 客 
户 端 主机 一 个 虚拟 卷 。 

(2) T10 时 刻 , 主机 识别 到 了 这 个 虚拟 卷 影像 ( 此 时 主机 对 源 物理 卷 依然 在 进行 读 写 IO, 无 
影响 ) ， 并且 将 其 挂 载 到 某 个 盘 符 下 。 此 时 有 某 个 程序 ( 比如 文件 系统 ) 尝试 读 取 这 个 
卷 的 LBA0 地 址 对 应 的 数据 。 

(3 ) T11 时 刻 。RoFW 模式 的 原生 快照 的 好 处 是 ， 把 复杂 留 给 后 台 ， 把 简单 留 给 前 台 。 确 实 是 
这 样 的 ， 写 的 时 候 直 接 写 入 对 应 位 置 ， 不 需要 CoFW 方式 中 的 多 余 的 一 读 一 写 操作 ， 只 
不 过 写 之 前 需要 做 一 些 映 射 运算 以 判断 是 覆盖 还 是 新 写 到 空闲 位 置 ， 但 是 运算 过 程 总 比 
IO 过 程 快 。 同 样 ， 在 读 取 系 统 最 早 的 也 就 是 第 一 份 快照 虚拟 影像 的 时 候 ， 也 是 非常 痛快 
淋漓 的 。 本 例 中 挂 载 了 S0 时 刻 快照 ， 也 就 是 最 早 的 第 一 份 快照 ， 上 文中 说 过 ，S0 快照 其 
实 就 是 当前 的 物理 源 卷 ， 因 为 自动 S0 生成 之 后 ， 源 卷 就 被 永久 冻结 了 。 所 以 此 刻 ， 系 统 
针对 客户 端 发 起 的 读 请 求 将 直接 定向 到 源 卷 对 应 地 址 ， 不 牵扯 任何 映射 运算 过 程 。 

(4) T12 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 S2 对 应 的 T2 时 刻 的 源 卷 的 虚拟 影像 映射 给 客 
户 端 。 系统 接收 到 请 求 之 后 ,立即 根据 源 卷 的 大 小 等 属性 ,通过 底层 传输 通道 报告 给 客 
户 端 主 机 一 个 虚拟 卷 。 

(5) T13 时 刻 , 主机 识别 到 了 这 个 虚拟 卷 影像 ( 此 时 主机 对 源 物 理 卷 依然 在 进行 读 写 IO, 无 
影响 ) ,并且 将 其 挂 载 到 某 个 盘 符 下 。 此 时 有 某 个 程序 ( 比如 文件 系统 ) 尝试 读 取 这 个 
卷 的 LBA0 地 址 对 应 的 数据 。 

(6) T14 时 刻 。 上 文中 描述 过 针对 最 早 快 照 虚拟 卷 的 读 过 程 。 本 步 中 针对 的 则 不 是 最 早 的 快 
照 ， 而 是 随后 的 快照 。 系 统 收 到 针对 虚拟 影像 卷 LBA0 地 址 的 读 请 求 之 后 ， 会 查找 当前 
被 挂 载 的 快照 点 的 上 一 个 快照 点 对 应 的 地 址 映射 表 。 这 里 需要 搞 清楚 , RoFW 模式 的 快 
照 实现 设计 与 CoFW 实现 方式 在 这 个 步骤 中 的 动作 锭 异 。 也 就 是 说 , 本 次 快照 的 影像 其 
实 是 由 源 物理 卷 + 上 一 份 快照 对 应 的 地 址 映射 表 所 共同 冻结 而 成 的 ， 而 最 后 一 份 快照 地 
址 映射 表 中 的 指针 表示 的 则 是 源 物理 卷 的 最 新 数据 状态 ， 而 不 是 这 份 快照 时 刻 的 状态 ， 
不 要 搞 乱 。 本 例 中 ， 系 统 查询 F0 表 中 是 否 有 LBA0 地 址 的 映射 条 目 ， 如 果 有 ， 则 提取 
映射 地 址 并 从 IO 仓库 中 读 取 对 应 地 址 的 数据 并 返回 给 客户 端 。 
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(7 ) T15 时 刻 ， 系 统 接收 到 针对 S2 快照 虚拟 影像 卷 LBA11 地 址 的 读 操 作 。 系 统 依然 去 查询 前 
一 份 快照 也 就 是 S0 对 应 的 地 址 映射 表 F0, 本 例 中 , 没有 找到 LBA11 对 应 的 映射 条 目 , 则 
系统 将 会 继续 查 前 一 份 快照 映射 表 中 对 应 地 址 的 映射 条 目 , 直到 找到 为 止 。 本 例 中 , 已 经 
到 了 尽头 ， 所 以 系统 直接 从 源 物理 卷 中 读 取 LBA11 地 址 对 应 的 数据 并 返回 给 客户 端 。 


说 明 : 值得 说 明 的 一 点 是 ，RoFW 设计 模式 下 ， 不 像 CoFW 模式 下 存在 线程 依赖 关系 。 对 

快照 虚拟 影像 卷 的 读 操作 并 不 会 与 对 源 卷 的 写 操作 之 间 有 任何 牵连 和 影响 。 

(8 ) T16 时 刻 ， 系 统 接收 到 针对 S2 快照 虚拟 影像 卷 LBA0 地 址 的 写 入 请 求 。 与 CoFW 的 处 
理 方式 相同 ， 此 时 系统 将 新 创建 一 个 针对 S2 快照 的 RoFW 数据 映射 表 ， 并 将 待 写 入 的 
数据 写 入 表 中 对 应 地 址 的 Slot。 在 随后 的 读 请 求 处 理 过 程 中 , 要 优先 查询 RoFW 表 , 过 
程 与 CoFW 过 程 相同 ， 其 他 步 又 不 再 重复 论述 。 

客户 端 决定 将 快照 S0 进行 Rollback (Restore) 时 系统 的 动作 流程 

(1) T17 时 刻 ， 客 户 端 要 求 将 快照 S0 直接 回 滚 覆 盖 到 源 物理 卷 。 系 统 接收 到 请 求 之 后 ， 直 
接 向 客户 端 返回 已 经 成 功 Rollback ( 与 直接 挂 载 虚 拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 
以 选择 前 台 Rollback， 即 Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S0 快照 点 卷 的 
任何 IO 操作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操作 过 程 中 
如 果 遇 到 客户 端 写 IO ， 处 理 方式 与 CoFW 模式 下 的 处 理 方式 相同 ， 见 前 文 。 

(2 ) T18 时 刻 , 系统 开始 在 后 台 进行 Rollback 操作 。 由 于 S0 快照 点 其 实 就 是 当前 的 源 物理 卷 ， 
所 以 Restore 过 程 不 需要 任何 额外 操作 ， 直 接 就 完成 了 。 要 注意 的 是 ，S0 对 应 的 FO 和 52 
对 应 的 F2 映 射 表 需 要 保留 , 前 提 是 客户 端 想 保留 S2 和 S7 时 刻 的 快照 的 话 , 因为 S52 快照 
需要 参考 FO，S7 要 参考 F2。 但 是 F7 映射 表 无 须 保留 ， 因 为 F7 中 的 指针 表示 的 源 物理 卷 
的 最 新 状态 变化 指针 ， 既 然 选择 回 深 ， 那 么 就 代表 最 新 时 刻 的 数据 已 经 不 需要 了 。 

一 般 是 不 推荐 选择 保留 晚 于 S0 的 其 他 所 有 快照 的 ， 因 为 保留 这 些 快照 需要 支付 额外 的 系统 
资源 。 如 果 客 户 端 明确 选择 保留 ， 则 系统 会 将 S0 之 后 的 所 有 地 址 映射 表 封存 到 一 个 特定 的 位 置 ， 
永久 冻结 ( 这 里 有 一 个 规律 ， 即 如 果 用 户 选择 保留 的 所 有 快照 中 最 晚 的 一 个 是 SX (X>S0 ) ， 则 
映射 表 FX 及 其 之 后 的 所 有 映射 表 皆 可 删除 ) 。 然 后 系统 开始 新 一 轮 的 快照 周期 ， 即 必须 首先 再 
生成 一 个 SO 快照, 创建 一 份 新 的 F0' 空 映射 表 , 然后 再 接受 客户 端的 读 写 IO 操作 , 随后 生成 的 快 
照 也 按照 顺序 重新 编号 。 如 果 后 来 用 户 选 择 要 Rollback 或 者 挂 载 之 前 生成 的 某 份 快照 ， 则 系统 会 
调 出 封存 的 那 几 份 映射 表 , 根据 永久 冻结 的 源 物 理 卷 , 一 层 层 累 加 从 而 获得 对 应 时 刻 快照 的 影像 。 

如 果 客 户 端 在 Rollback 的 时 候选 择 了 不 保存 S0 之 后 的 快照 , 则 系统 会 直接 将 FO 及 以 后 的 所 
有 下 映射 表 全 部 删 掉 ， 映射 表 所 对 应 的 IO 仓库 中 的 对 应 地 址 块 也 全 部 标记 为 空间 。 此 时 ， 源 卷 
彻底 被 恢复 到 T0 时 刻 状态 , 由 于 当前 系统 中 已 经 没有 任何 快照 存在 , 所 以 针对 客户 端的 写 IO 操 
作 ， 系 统 会 直接 写 向 源 卷 而 没有 任何 RoFW 操作 ， 直 到 有 又 一 个 快照 生成 为 止 。 

Rollback 完成 后 ， 客 户 端 针对 Rollback 之 后 的 卷 进行 写 操作 时 ， 其 实 依然 需要 RoFW 到 IO 
仓库 中 ， 至 于 写 到 IO 仓库 哪个 位 置 ( 覆盖 还 是 新 写 ) ， 就 需要 系统 根据 最 后 一 份 地 址 映射 表 判 
断 。 读 和 写 操 作 均 与 之 前 的 相关 步骤 相同 。 整 个 系统 的 源 物理 卷 ， 只 要 还 存在 任何 一 个 快照 ， 则 
永远 都 是 第 一 份 快照 被 创建 时 候 的 状态 ， 永 久 被 冻结 。 
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客户 端 决 定 将 非 S0 快照 S7 进行 Rollback (从 T17 时刻 开始 ) 时 系统 的 动作 流程 
(1) T17 时 刻 ， 客 户 端 要 求 将 快照 S7 直接 回 滚 覆 盖 到 源 物理 卷 。 系 统 接收 到 请 求 之 后 , 直 

接 向 客户 端 返回 已 经 成 功 Rollback ( 与 直接 挂 载 虚拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 

以 选择 前 台 Rollback， 即 Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S7 快照 点 卷 的 
任何 IO 操作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操作 过 程 中 
如 果 遇 到 客户 端 写 IO ， 处 理 方式 与 CoFW 模式 下 的 处 理 方式 相同 ， 见 前 文 。 

(2 ) T18 时 刻 ， 若 客户 端 选 择 不 保留 任何 其 他 的 快照 ， 则 系统 首先 将 所 有 F7 之 前 的 地 址 映射 表 

(不 包含 F7，F7 将 被 删除 ) 做 合并 操作 ， 如 果 在 多 个 表 中 遇 到 同一 个 地 址 的 映射 关系 ， 则 
只 留 下 最 晚 的 表 中 的 条 目 , 被 抛弃 的 条 目 对 应 的 IO 仓库 中 的 地 址 会 在 bitmap 中 被 标记 为 空 
闲 。 合 并 之 后 的 新 映射 表 命名 为 F0'。 源 物理 卷 +F0' 共 同 组 成 了 T7 时 刻 快 照 S7 时 卷 的 影像 ， 
此 时 ， 由 于 系统 内 再 无 其 他 任何 快照 ,所 以 系统 扫描 F0 中 的 每 一 条 映射 ， 然 后 将 IO 仓库 
中 对 应 地 址 的 数据 读 出 并 覆盖 到 源 物理 卷 对 应 地 址 ,全 表 处 理 完 成 后 ,IO 仓库 清 零 ,Rollback 
完成 ， 源 物理 卷 上 的 实际 数据 就 变 为 了 T7 时 刻 的 影像 ， 系 统 继续 运作 。 

(3) T18 时 刻 ， 若 客户 端 选 择 要 求 保留 S2 快照 ， 则 系统 首先 将 F2 之 前 的 所 有 映射 表 ， 本 例 

中 即 F0 永久 封存 ， 同 时 删除 F7 映射 表 ( 并 在 IO 仓库 bitmap 中 标记 对 应 F7 映射 的 所 
有 块 为 空闲 ) ， 之 后 ， 系 统 将 待 回复 快照 点 之 前 的 所 有 映射 表 ( 本 例 中 即 F2 和 Fo0) 
按照 上 一 步 描述 的 规则 做 合并 操作 ,合并 之 后 的 映射 表 保存 为 F0'， 此 时 便 可 接受 客户 
端 读 写 IO 操作 ， 开 始 新 一 轮 周 期 ，Rollback 完成 。 

(4) T18 时 刻 ， 假 设 系统 有 10 个 快照 ， 如 果 客 户 端 选择 恢复 第 8 个 快照 ， 同 时 保留 第 3 个 、 
第 6 个 快照 , 那么 此 时 系统 首先 将 第 1 个 快照 对 应 的 映射 表 合并 到 第 2 个 快照 对 应 的 映 
射 表 , 合并 之 后 封存 ( 为 3 号 快照 的 影像 指针 ) ， 然 后 将 刚才 封存 的 合并 之 后 的 映射 表 
与 第 3 和 第 4 个 快照 对 应 的 映射 表 再 次 合并 到 第 5 个 快照 映射 表 中 , 合并 后 封存 (为 6 
号 快照 的 影像 指针 ) 。 删 除 F8 映射 表 。 然 后 ， 系 统 将 1~ 6 号 快照 映射 表 与 7 号 映射 表 
合并 ,合并 后 存 为 FO 映射 表 ， 源 物理 卷 +F0' 共 同 组 成 了 T8 时 刻 快 照 S8 时 卷 的 影像 ， 
最 后 打扫 战场 ,将 IO 仓库 中 由 于 映射 表 合并 而 产生 的 空闲 数据 块 在 Bitmap 中 标记 为 0， 
即 空闲 。 系 统 继续 运作 。 

可 以 判断 出 来 , RoFW 模式 的 原生 快照 其 流程 过 于 复杂 ， 实 现 起 来 流程 较 多 ,尤其 是 快照 生 
成 之 后 的 读 IO 过 程 和 快照 挂 载 或 者 回 滚 之 后 的 一 系列 流程 ， 都 涉及 到 复杂 的 运算 ， 所 以 目前 大 
部 分 产品 都 使 用 CoFW 模式 进行 快照 设计 。 

NetApp 与 IBM XIV 存储 系统 使 用 的 都 是 基于 RoFW 模式 的 快照 实现 模式 , 选择 这 种 模式 与 
其 底层 设计 息息相关 。 在 后 面 章节 会 讨论 NetApp 为 何 会 使 用 WR 模式 ,在 第 15 章 会 讨论 IBM XIV 
系统 为 何 也 会 使 用 WR 模式 。 

如 何 计算 RoFw 模式 下 两 份 快照 影像 之 间 所 更 改过 的 数据 地 址 

对 于 RoFW 模式 的 快照 ， 计 算 两 份 快照 之 间 的 数据 变化 地 址 要 比 CoFW 模式 下 容易 很 多 。 
设 系统 先后 创建 了 SO0、S1、S2 三 份 快照 ， 要 求 比 对 So0 和 S2 之 间 的 变化 数据 地 址 。 

(1) 由 于 WR 模式 的 快照 下 , 快照 S0 其 实 就 是 源 物理 卷 , 而 快照 S2 时 刻 的 状态 其 实 被 表现 

在 前 一 份 也 就 是 S1 地 址 映射 表 中 。 所 以 系统 直接 合并 S0 和 S1 地 址 映射 表 , 将 其 二 者 
所 有 存在 的 条 目 合并 ， 如果 遇 到 某 个 地 址 有 两 个 条 目 ， 则 抛弃 时 间 点 较 早 的 映射 表 中 的 
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条 目 ， 只 保留 时 间 点 最 晚 的 映射 表 中 对 应 地 址 的 条 目 。 
(2 ) 将 合并 后 的 条 目 保存 于 一 张 新 表 中 ， 并 按照 源 卷 地 址 进行 排序 。 
其 实 ， 这 个 过 程 与 删除 某 快照 的 过 程 类 似 。 


提示 : 关于 比 对 两 份 Snapshot 中 的 变化 数据 地 址 ， 有 更 好 、 更 高 效 的 实现 方法 。 上 文中 介 
绍 的 在 两 种 快照 模式 下 实现 比 对 的 设计 都 是 基于 后 处 理 的 ， 即 快照 已 经 生成 ， 而 且 生成 之 
前 没有 做 任何 处 理 。 如 果 使 用 中 处 理 ， 即 在 第 一 份 快照 生成 之 后 ， 系 统 立即 为 源 卷 生 成 一 
份 全 0 的 空 Bitmap， 随 后 的 写 IO 系统 均 将 这 个 I0 地 址 对 应 的 位 在 Bitmap 中 置 为 1, 一直 
到 第 二 份 快照 生成 之 后 的 瞬间 ， 系 统 首先 将 这 份 Bitmap 封存 , 然后 再 次 生成 一 份 全 0 空 
Bitmap 再 次 重复 刚才 的 步骤 。 被 封存 的 Bitmap 中 为 1 的 位 就 代表 了 两 份 快照 生成 的 间隔 期 
间 ， 所 有 针对 源 卷 的 数据 变化 地 址 。 这 种 处 理 方式 是 目前 厂商 所 采用 的 。 


3) NetApp WAFL 快照 实现 方式 简 述 

首先 ，WAEL 严格 来 讲 是 一 个 文件 系统 ， 彻 底 的 文件 系统 ， 而 不 是 一 个 卷 管理 系统 。 这 个 文 
件 系 统 与 其 他 文件 系统 一 样 ， 将 底层 的 存储 空间 虚拟 为 文件 ， 文 件 可 以 任意 凌乱 地 存放 于 存储 空 
间 的 各 个 位 置 , 使 用 inode 链条 来 组 织 所 有 的 零散 块 。 卷 , 即 Volume, 在 WAEL 下面 其 实 也 是 一 
个 文件 , 卷 也 可 以 被 任意 零散 地 分 布 于 存储 空间 各 个 角落 , 只 要 WAFL 有 这 个 需要 。 了 解 Flledisk 
的 人 都 应 该 理解 WAFL 的 这 种 基本 作用 机 制 。 所 以 WAEFL 很 灵活 ， 既 然 卷 是 一 个 文件 了 ， 那 么 
就 可 以 对 这 个 文件 进行 任意 的 删除 、 修 改 、 扩 充 、 缩 减 等 一 切 针 对 普通 文件 可 以 做 的 动作 。 更 加 
离奇 的 是 ， 每 个 文件 中 又 可 以 幢 套 一 个 文件 系统 ， 即 文件 中 的 文件 ,文件 系统 再 次 将 文件 作为 底 
层 存储 空间 ， 在 文件 中 再 建立 多 个 二 级 文件 ， 这 便 是 LUN 了 。WAFL 进程 需要 同时 管理 底层 物 
理 存储 空间 和 二 次 映射 的 文件 虚拟 空间 。 

其 次 ，WAEL 的 文件 系统 根 入 口 不 是 一 个 ， 而 是 每 个 存储 空间 保存 256 个 根 入 口 ， 从 每 个 根 
入 口 进入 ， 便 可 以 遍历 出 整个 文件 系统 的 元 数据 链条 。 也 就 是 说 ，WAEFL 可 以 在 一 个 存储 空间 内 
存放 256 份 文件 系统 影像 , 每 一 个 影像 便 是 一 个 快照 。 可 以 对 物理 空间 , 也 就 是 Aggregate 做 快照 ， 
也 可 以 对 Volume 做 快照 , 因为 每 个 Volume 也 有 256 个 根 入 口 。 这 256 个 入 口中 的 第 一 个 入 口 被 
称 为 “当前 活动 文件 系统 ”， 也 就 是 Active Filesystem ( AFS ) 。 从 这 个 入 口 进 入 之 后 遍历 出 的 就 
是 当前 的 存储 空间 内 最 新 数据 ,一 旦 某 时 刻 触发 一 份 快照 ， 则 WAEI 会 将 当前 AFS 的 根 节 点 入 
向 下 一 个 空闲 的 入 口 复制 一 份 ， 即 完成 了 快照 的 生成 。 生 成 之 后 ， 当 有 针对 AFS 的 写 入 操作 时 ， 
WAFI 将 这 些 数据 统统 写 入 存储 空间 内 空闲 的 块 中 ， 并 同时 更 新 元 数据 ， 元 数据 的 写 入 一 样 也 需 
要 写 入 空闲 块 中 ， 链 条 指针 一 层 层 地 被 修改 ， 最 终 更 新 到 AFS 的 根 入 口 指针 。 

这 样 ， 上 一 份 快照 中 的 所 有 数据 没有 一 个 块 被 覆盖 ， 从 对 应 的 根 入 口 进入 ， 便 会 遍历 出 那个 
时 刻 的 完整 存储 空间 影像 。 即 便 系统 没有 生成 快照 ，WAFI 也 不 会 覆盖 之 前 的 数据 ， 而 总 是 写 入 
室 闲 的 块 。 这 样 做 有 个 好 处 就 是 在 空间 内 有 大 量 空闲 块 时 ，WAEI 可 以 肆 无 尽 悦 地 写 入 而 不 需要 
非得 按照 被 覆盖 的 块 在 空间 内 的 排列 顺序 而 对 应 写 入 ， 这 样 可 以 提高 性 能 。 但 是 随 着 空闲 空间 的 
减少 ，WAF 这 种 性 能 的 提升 会 又 降 。 

提示 : 关于 快照 虚拟 卷 或 Clone 卷 挂 载 后 系统 识别 冲突 的 问题 ， 由 于 很 多 操作 系统 的 卷 管 

理 层 都 会 对 系统 所 识别 到 的 磁盘 写 人 一 些 识别 信息 以 便 标识 和 区 别 每 一 个 卷 或 者 磁盘 。 而 

某 个 卷 或 者 磁盘 的 快照 或 者 Clone 中 的 这 些 识 别 信息 与 源 卷 是 完全 一 致 的 ， 所 以 ， 当 源 卷 
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已 经 被 挂 载 到 系统 中 ， 又 挂 载 了 Snapshot 虚拟 卷 或 者 Clone 卷 之 后 ， 此 时 由 于 识别 信息 完 
全 相同 ， 系 统 会 认为 是 相同 的 卷 又 被 挂 载 了 一 次 而 印 下 源 卷 从 而 挂 载 了 快照 卷 ， 或 者 发 现 
新 卷 与 当前 的 源 卷 识别 信息 一 致 而 不 做 任何 动作 。 不 管 哪 种 应 对 方式 ， 都 会 导致 问题 的 发 
生 。 所 以 解决 这 个 问题 的 关键 还 在 于 位 于 主机 端的 快照 代理 程序 ， 快 照 代 理 程序 在 让 存储 
系统 映射 某 个 快照 之 前 ， 会 扫描 系统 中 当前 的 所 有 已 挂 载 的 卷 的 识别 信息 ， 然 后 生成 一 个 
不 与 它们 冲突 的 新 识别 信息 并 通 向 存储 系统 发 起 写 IO 请 求 将 对 应 的 扇 区 中 的 识别 信息 修 
改 ， 然 后 再 按照 正常 顺序 挂 载 ， 这 样 就 不 会 产生 冲突 了 。 


8. 快照 的 生成 对 系统 读 写 性 能 的 影响 


由 于 每 生成 一 份 快照 , 系统 就 需要 做 更 多 的 CoFW 操作 , 而 写 性 能 本 身 就 是 衡量 一 个 存储 系 
统 性 能 的 重要 指标 , 快照 的 生成 无 疑 是 雪上 加 霜 。 凡 是 使 用 CoFW 模式 实现 快照 的 存储 系统 ， 皆 
无 法 逃脱 写 性 能 降低 的 厄运 。 相 比 来 讲 ，RoFW 模式 则 能 够 逃脱 这 个 厄运 。 图 16-23 和 图 16-24 
所 示 为 EMC Clariion 系统 的 写 IO 性 能 影响 统计 图 。 


Durati 


图 16-23 1 个 快照 图 16-24 8 个 局 

可 以 判断 ， 当 一 个 快照 生成 之 后 ， 系 统 的 写 IO 响应 值 立 即 升 高 到 一 个 峰值 ， 其 原因 是 受到 
不 断 的 CoFW 的 影响 。 此 后 的 时 间 内 ， 系 统 写 IO 响应 逐渐 降低 到 原来 的 水 准 ， 其 原因 是 因为 系 
统 在 对 已 经 CoFW 过 的 地 址 进行 再 次 或 多 次 写 的 时 候 , 会 直接 写 到 源 卷 而 不 再 进行 CoFW 动作 。 
图 16-24 显示 了 生成 了 8 个 快照 的 系统 写 IO 响应 速度 随时 间 的 推移 而 变化 的 情况 。 可 以 看 到 每 
多 生成 一 个 快照 , IO 响应 时 间 就 比 之 前 的 最 高 响应 时 间 再 上 升 一 些 , 这 也 是 理所当然 的 , 快照 数 
量 越 多 ， 处 理 就 越 慢 。 

快照 的 生成 不 仅 对 写 性 能 有 影响 , 对 于 RoFW 模式 的 快照 , 其 对 读 也 一 样 有 影响 。 由 于 数据 
块 被 不 断 重 定向 到 其 他 空间 ， 这 就 导致 本 来 物理 上 连续 的 数据 块 在 被 重 定向 写 出 去 之 后 可 能 就 变 
得 不 连续 了 ， 甚 至 非常 随机 ， 那 么 此 时 针对 这 些 地 址 的 读 操作 就 会 受到 影响 。 

鉴于 快照 的 这 些 后 遗 症 ， 在 使 用 快照 对 系统 进行 瞬时 恢复 后 ， 可 以 考虑 在 后 台 将 快照 中 的 数 
据 回 拷 一 遍 ， 让 其 变 得 连续 ， 从 而 恢复 之 前 的 性 能 。 


16.2.4 卷 Clone 


1 . 什么 是 卷 Clone 
顾名思义 ，Clone ( 克隆 ) 是 指 源 数据 集 某 时 间 点 的 一 份 或 者 几 份 实 实在 在 的 实体 复制 。 快 
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照 类 似 一 个 某 时 刻 定 型 的 影子 ， 而 克隆 则 是 某 时 刻 定型 的 实体 。 使 用 快照 技术 来 制作 克隆 ， 先 将 
影子 定型 ， 之 后 再 将 实体 填充 到 影子 当中 。 也 就 是 说 ， 首 先 对 某 个 源 数 据 集 ( 源 卷 或 者 源 文件 系 
统 ) 创建 一 份 快照 ， 之 后 将 这 份 快照 指向 的 所 有 数据 块 复制 出 来 到 一 个 额外 存储 空间 ， 这 样 ， 被 
复制 出 来 的 所 有 数据 就 组 成 了 源 数据 集 在 那个 时 刻 的 一 个 克隆 实体 。 


我 们 知道 Snapshot 一 般 都 是 只 读 的 ， 即 这 个 “幻像 ”你 只 能 去 看 ， 而 不 能 被 改变 ， 就 像 历 史 
一 样 。 但 是 在 计算 机 的 世界 里 ， 这 个 结论 是 不 成 立 的 ，Snapshot 一 样 可 以 写 。 可 能 有 人 不 太 理解 ， 
Snapshot 作为 一 个 源 卷 在 某 一 时 刻 的 照片 ， 其 内 容 皆 为 源 卷 内 容 的 投射 ， 自 身 并 不 存在 任何 实体 
内 容 ， 向 Snapshot 写 入 数据 ， 到 底 是 个 什么 概念 呢 ? 正如 Snapshot 自身 一 样 ， 可 写 的 Snapshot 也 
只 不 过 是 对 指针 的 处 理 而 已 , 即 系统 增加 了 一 个 RoFW 数据 映射 表 。 比如 , 存储 系统 将 Snapshotl 
映射 给 了 HostA，HostA 将 其 挂 载 到 了 F 盘 ， 某 时 刻 HostA 对 E 盘 的 第 一 个 扇 区 写 入 全 0， 存 储 
系统 收 到 这 个 请 求 之 后 ， 会 将 这 512B 的 数据 重 定 向 地 写 入 一 个 空闲 存储 空间 的 地 址 ， 并 将 用 新 
的 MetaData 来 记录 这 个 新 指向 。 而 且 更 灵活 的 是 ， 还 可 以 为 这 个 Clone 的 虚拟 卷 再 次 创建 快照， 
甚至 CDP。 

提示 : 16.2.5 节 中 会 对 这 种 可 写 以 及 创建 二 级 快照 或 CDP 的 详细 底层 机 制 进行 论述 。 


某 个 物理 卷 某 时 刻 所 生成 的 一 份 可 写 的 Snapshot， 就 叫做 这 个 卷 某 时 刻 的 一 份 Clone。 然 而 ， 
这 份 Clone 其 内 容 没 有 被 更 改 的 部 分 是 与 源 卷 共享 的 ， 只 有 被 更 改 之 后 的 数据 才 是 实 实在 在 地 存 
在 于 另 一 处 的 ， 所 以 ， 源 卷 没 了 ， 则 Clone 也 就 没 了 。 这 种 Clone 叫做 虚拟 Clone， 虚 拟 Clone 
的 好 处 是 本 身 不 占用 空间 , 只 有 被 更 改 的 数据 部 分 占用 对 应 的 空间 。 如 果 想 对 这 个 Clone 做 保留 ， 
保留 其 实体 的 数据 ， 则 需要 将 这 份 Clone 与 源 卷 所 共享 的 那 部 分 数据 复制 出 来 ， 加 上 后 来 被 更 改 
的 数据 部 分 ( 当然 也 可 以 不 去 更 改 这 份 Clone 的 内 容 ) ， 生 成 一 个 独立 的 卷 。 此 时 ， 这 份 Clone 
就 会 与 源 卷 脱离 关系 , 相当 于 依附 于 源 卷 的 快照 被 切割 开 , 或 者 说 Split, 这 个 过 程 叫做 Split Clone。 
Split 完成 之 后 ， 就 会 生成 一 个 实 实在 在 的 真正 的 物理 上 独立 于 源 卷 的 卷 ， 而 且 源 卷 对 应 的 这 个 快 
照 也 就 消失 了 ， 因 为 此 时 快照 已 经 变 成 了 实际 的 物理 数据 ， 也 就 是 实 Clone， 实 Clone 需要 占用 
与 源 卷 等 同 的 物理 空间 。 


2. 虚 克 隆 和 实 克隆 的 比较 


实 克隆 与 虚 克 隆 相 比 有 两 个 好 处 。 第 一 个 是 安全 性 方面 。 虚 克隆 是 依托 在 物理 源 卷 上 的 一 个 
空中 楼 疼 ， 一 旦 源 卷发 生 任何 物理 上 的 损坏 ， 比 如 承载 源 卷 的 底层 物理 磁盘 发 生 损坏 ， 例 如， 某 
Riad 5 阵列 中 损坏 多 余 两 块 磁盘 之 后 ， 此 时 源 卷 物理 上 土崩瓦解 ， 则 其 对 应 的 Snapshot 和 克隆 也 
就 荡然 无 存 了 。 而 实 克 隆 则 是 源 卷 某 快照 的 一 份 真实 物理 复制 ， 如 果 将 克隆 卷 存放 在 与 源 卷 不 同 
的 Raid 组 中 ， 则 即便 源 卷 Riad 组 发 生 故 障 ， 那 么 克隆 卷 依然 存在 ， 可 以 直接 将 克隆 卷 挂 载 到 主 
机 继续 使 用 。 第 二 个 是 性 能 方面 。 虚 克隆 由 于 在 物理 上 是 与 源 卷 共享 大 部 分 数据 块 的 ， 如 果 对 虚 
克隆 进行 读 IO ， 则 会 与 源 卷 的 读 IO 发 生 争 抢 效 应 ， 从 而 源 卷 和 虚 克 隆 卷 的 性 能 都 受到 影响 。 而 
实 克 隆 由 于 是 存在 于 另 一 个 Raid 组 ， 对 实 克隆 的 读 1O 由 于 是 访问 不 同 的 物理 磁盘 ， 所 以 不 会 影 
响 到 源 卷 。 这 里 需要 注意 一 个 问题 , 如 果 把 实 克隆 卷 放 到 与 源 卷 相同 的 Raid 组 中 , 那么 在 读 实 克 
隆 卷 的 时 候 造成 的 影响 与 虚 克 隆 相同 ， 因 为 它们 共同 争 抢 同 一 份 物理 Raid 组 。 
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3. 卷 Clone 的 作用 


卷 Clone 的 一 个 最 大 的 作用 是 可 以 瞬间 生成 针对 某 个 卷 的 可 写 的 镜像 , 而 不 管 这 个 卷 的 数据 量 
有 多 大 。 比 如 某 企业 有 一 个 数据 量 2TB 的 数据 库 系统 , 为 企业 核心 生产 数据 库 的 存储 空间 , 非常 重 
要 。 近期 企业 决定 部 署 一 套 应 用 系统 , 但 是 需要 利用 现 有 的 生产 数据 库 进行 上 线 前 测试 , IT 管理 员 
不 得 不 将 备份 过 的 数据 库 恢复 到 一 个 和 源 库 同样 大 的 存储 空间 内 ,但 是 很 尴 从 地 发 现 目前 存储 系统 
剩余 的 空间 已 经 不 足以 满足 要 求 ， 不 得 不 将 现 有 存储 系统 扩容 。 这 又 要 牵涉 到 一 个 大 工程 ， 而 且 测 
试 完 毕 ， 新 购买 的 空间 又 要 被 浪费 ， 实 在 划 不 来 。 幸 好 现 有 存储 系统 支持 卷 Clone，IT 管理 员 针对 
生产 数据 库 所 在 的 卷 创建 了 一 份 虚拟 Clone， 并 将 其 挂 载 到 应 用 测试 机 上 ， 应 用 程序 成 功 启动 ， 进 
入 测试 周期 ， 幸 好 应 用 写 入 的 数据 很 少 ， 以 至 于 Clone 卷 没 有 占用 太 多 的 存储 空间 ， 不 需要 额外 购 
买 存储 空间 了 。 一 周 后 ， 应 用 测试 管理 员 出 现 失误 ， 将 Clone 卷 中 的 大 量 重要 数据 删 掉 了 ， 急 急忙 
忙 找到 了 IT 管理 员 。IT 管理 员 不 慌 不 忙 ， 从 容 地 将 这 个 Clone 卷 删 掉 ， 然 后 直接 在 生产 数据 库 的 
源 卷 上 又 创建 了 一 份 Clone， 映 射 给 应 用 测试 机 ， 测 试 机 挂 载 后 ， 一 切 如 故 。 

克隆 可 以 用 来 研究 平行 宇宙 、 蝴 蝶 效应 等 理论 。 将 某 个 时 间 点 的 影像 上 明 间 复制 成 多 份 平行 复 
制 ， 然 后 让 其 并 行 地 继续 向 下 发 展 ， 调 查 后 续 各 份 平行 数据 的 发 展 路 径 从 而 调查 周围 环境 或 者 未 
发 现 的 其 他 隐 含 因素 对 事件 发 展 的 影响 。 最 简单 和 直观 的 例子 :有 100 台 硬 件 配置 完全 相同 的 PC， 
用 同一 张 光盘 灌 入 操作 系统 ， 同 样 的 使 用 步 又 和 环境 ， 但 是 随 着 时 间 的 变化 ,每 台 PC 上 操作 系 
统 的 行为 开始 产生 差异 ， 最 后 迎 异 。 那 么 你 如 何 去 调 查 到 底 是 什么 因素 引起 了 如 此 巨大 的 差异 ? 
你 可 以 编写 一 套数 据 监控 统计 挖掘 分 析 报 告 的 系统 ， 针 对 同一 份 数 据 生成 多 份 并 行 克隆 ， 然 后 在 
其 上 进行 模拟 分 析 。 甚 至 可 以 在 虚拟 现实 系统 中 ， 对 虚拟 世界 生成 并 行 的 多 个 克隆 ， 然 后 调查 各 
种 行为 对 虚拟 世界 后 续 发 展 路 径 的 影响 。 


4. 使 用 Clone 卷 来 进行 Rollback 操作 


1) 用 虚 Clone 卷 来 Rollback 源 卷 

如 果 某 时 刻 ， 源 卷 中 的 数据 发 生 逻 辑 上 的 错误 ， 比 如 大 规模 病毒 感染 破坏 、 分 区 误 删 除 、 文 
件 误 删 除 等 , 此 时 可 以 选择 直接 使 用 虚 Clone 卷 进行 Rollback 操作 , 直接 将 原先 被 CoFW 出 去 的 
数据 覆盖 回 源 卷 。 当 然 ， 如 果 Clone 卷 已 经 被 其 他 程序 更 改 ， 则 也 可 以 选择 保留 这 些 更 改 。 如 果 
选择 保留 更 改 , 那么 系统 会 先 将 前 几 节 中 描述 的 RoFW 映射 表 与 快照 地 址 映射 表 中 对 应 的 地 址 逐 
条 检测 ， 如 果 发 现 某 个 地 址 在 两 份 表 中 都 有 映射 条 目 ， 证 明 Clone 卷 中 对 应 的 地 址 被 改写 过 ， 则 
快照 映射 表 中 对 应 的 IO 仓库 中 的 CoFW 数据 过 期 , 在 Rollback 的 时 候 直 接 覆 盖 RoFW 表 中 的 数 
据 而 无 须 先 覆盖 CoFW 的 数据 再 覆盖 RoFW 表 中 的 数据 ， 节 约 了 资源 。 

2 ) 用 实 Clone 卷 来 Rollback 源 卷 

如 果 使 用 已 经 被 Clone Split 的 实 Clone 卷 来 对 源 卷 进行 Rollback， 则 需要 的 步骤 就 会 复杂 一 
些 。 因 为 当初 Clone 被 Split 之 后 ， 系 统 会 将 源 卷 和 克隆 原来 共用 的 数据 块 复制 出 来 ， 如 果 在 Split 
完成 和 有 Rollback 之 间 的 时 段 内 ， 主 机 并 未 对 源 卷 上 的 这 些 原 本 共享 的 数据 块 做 太 多 更 改 的 话 , 那 
么 在 Rollback 的 时 候 如 果 依 然 将 所 有 原本 共享 的 数据 块 也 一 同 覆 盖 到 源 卷 , 则 这 样 做 就 属于 浪费 
资源 了 。 

如 何 解决 这 个 问题 呢 ? 此 时 快照 指针 已 经 不 复 存 在 ， 不 可 能 再 用 快照 恢复 源 卷 了 。 要 解决 这 
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个 问题 , 就 需要 对 这 些 共享 的 数据 块 在 Split 之 后 所 发 生 的 更 改动 作 做 追踪 。 这 里 人 们 想 出 一 个 办 


法 ， 具 体 如 下 。 


" ”在 Clone Split 完 成 之 后 ,立即 为 源 卷 和 实 克隆 卷 分 别 创建 两 份 Bitmap, 针 对 源 卷 的 Bitmap 


全 为 0， 为 0 的 位 则 代表 与 源 卷 共享 的 数据 块 。 
， ”Bitmap 生成 之 后 ， 系 统 才 允许 继续 对 源 卷 或 者 实 Clone 卷 进 行 读 写 IO 操作 。 


， ”随后 ， 当 系统 接收 到 外 


中 为 全 0， 而 实 克隆 卷 的 Bitmap 中 ， 对 应 之 前 被 CoFW 出 的 所 有 地 址 的 位 为 1， 其 他 


E 何 针对 源 卷 的 写 IO 后 ， 系 统 就 会 在 刚才 生成 的 全 0 源 卷 Bitmap 
中 将 对 应 IO 地 址 的 位 置 为 1， 并 将 IO 写 入 源 卷 。 同 理 ， 当 接收 到 任何 针对 实 Clone 


卷 的 写 IO， 也 在 刚才 的 那 份 针 对 实 Clone 卷 的 Biemap 中 将 对 应 IO 地 址 的 位 置 为 1， 
如 果 已 经 为 1 则 不 做 动作 。 
设想 一 下 ， 经 过 这 样 的 设计 ， 源 卷 和 实 Clone 卷 在 一 段 时 间 的 数据 更 改 之 后 ， 只 有 在 两 份 


Bitmap 中 都 为 0 的 位 ， 才 
表示 自 上 一 次 Clone Split 
之 后 两 端 均 未 发 生 更 改 的 
地 址 。 而 针对 实 Clone 卷 
的 初始 Bitmap 中 只 有 当时 
与 源 卷 共 享 的 数据 块 才 为 
0, 这 样 就 可 以 推导 出 , 两 
份 Bitmap 中 都 为 0 的 地 
址 ， 其 对 应 的 数据 块 内 容 
是 完全 一 样 的 ， 所 以 在 进 
行 Rollback 时 ， 可 以 跳 过 
这 些 数据 块 。 

如 图 16-25 所 示 , 我 
们 将 这 两 份 Bitmap 做 OR 
操作 ,得 到 的 新 Bitmap 中 ， 
所 有 为 1 的 地 址 ， 就 代表 
需要 从 实 Clone 卷 中 将 对 
应 地 址 的 数据 覆盖 回 源 卷 


Split 前 所 有 被 CoW 出 
来 的 数据 块 对 应 的 位 


回回 | ，, 回回 
0|10|0|10 0lololo 
Clone Split |olololo 四. olo0 
刚 完成 时 pr ee li 
olololo olololo 
olololo 0|1010 
源 卷 追踪 初始 Bitmap 实 克隆 卷 追踪 初始 Bitmap 


Rollback 时 


更 新 后 的 源 卷 。 ”更 新 后 的 实 克隆 卷 a 
追踪 Bitmap 追踪 Bitmap | 的 数据 地 址 
图 16-25 SplitClone 和 RollBack 

EE 置 为 0， 然 后 接着 处 


， 为 0 则 跳 过 。 覆 盖 成 功 之 后 ， 将 当前 处 理 的 位 如 


理 下 一 位 , 顺序 扫描 并 处 理 结 果 Bitmap 中 的 每 一 位 。 这 样 的 设计 可 以 大 大 降低 Rollback 过 程 中 需 
要 复制 的 数据 ， 缩 短 Rollback 时 间 。 


3 ) 用 源 卷 来 Catchup 实 Clone 卷 到 当前 时 间 点 
在 Clone Split 完成 之 后 的 某 时 刻 ,如 果 用 户 对 上 一 个 实 区 隆 卷 做 了 很 多 更 改 而 且 发 现 有 逻辑 


上 的 问题 ， 想 对 当前 的 源 卷 再 次 生成 一 份 实 克隆 卷 ， 当 然 ， 用 户 可 以 再 次 用 传统 的 步骤 ， 即 先生 
成 快照 ,然后 Split 进行 数据 复制 , 成功 之 后 ,删除 原来 的 旧 实 克隆 卷 。 但 是 这 样 做 需要 花费 很 长 
的 数据 复制 时 间 ， 是 否 有 一 种 办 法 在 上 一 个 旧 克 隆 卷 的 基础 上 ， 将 源 卷 自 上 次 Clone Split 之 后 所 
发 生 的 所 有 数据 更 改 同步 到 上 一 次 生成 的 实 克隆 卷 上 呢 ? 


519 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


520 


时 源 卷 和 实 Clone 卷 上 内 容 相同 的 数据 地 址 ， 那 么 此 时 我 们 不 是 要 从 Clone 卷 复制 数据 覆盖 到 源 
卷 ， 而 是 要 做 相反 方向 的 动作 ， 那 么 直接 就 可 以 根据 结果 Bitmnap ， 将 所 有 为 1 的 位 对 应 的 源 卷 上 
的 地 址 的 数据 复制 出 来 并 覆盖 到 实 Clone 卷 。 履 盖 成 功 之 后 ， 将 当前 处 理 的 位 置 为 0， 然 后 接着 
处 理 下 一 位 , 顺序 扫描 并 处 理 结 果 Bitmap 中 的 每 一 位 。 之 后 ， 实 Clone 卷 就 与 当前 源 卷 的 内 容 相 
同 了 。 这 期 间 的 数据 复制 跳 过 了 两 个 卷 原 本 内 容 就 相同 的 数据 块 ， 节 约 了 很 多 时 间 。 

4 ) Clone Split 期 间 如 何 处 理 主机 读 写 IO 

Split 执行 开始 之 前 ， 系 统 需要 首先 创建 一 个 针对 源 卷 的 RoFW 数据 映射 表 ，Split 开始 之 后 ， 
所 有 针对 源 卷 的 写 操作 都 被 重 定向 写 到 表 中 , 一 直到 Split 结束 , 将 源 卷 与 快照 中 共享 的 数据 块 复 
制 到 实 Clone 卷 中 之 后 ,系统 慢 慢 在 后 台 将 RoFW 表 中 的 数据 覆盖 回 源 卷 , 过 程 与 上 一 步 介 绍 的 
相同 。 

5 ) Rollback 期 间 如 何 处 理 主机 读 写 IO 

Rollback 过 程 都 可 以 在 后 台 执行 ， 即 对 于 前 端 来 讲 ，Rollback 可 以 被 通告 为 立即 完成 。 在 
Rollback 后 台 执行 期 间 内 ， 如 果 遇 到 主机 端的 读 IO 操作 ， 则 系统 必须 参考 OR 运算 之 后 的 结果 
Bitmap。 如 果 IO 的 地 址 对 应 的 位 为 1， 则 从 实 Clone 卷 中 读 取 对 应 地 址 的 数据 返回 给 主机 ( 所 以 
在 Rollback 期 间 ， 实 Clone 卷 是 不 允许 写 的 ， 否 则 会 不 一 致 ) ; 如 果 对 应 的 位 是 0， 则 直接 从 源 
卷 对 应 的 地 址 读 取 数据 并 且 返 回 给 主机 。 如 果 遇 到 写 操作 ， 依 然 首先 查找 结果 Bitnap， 对 应 地 址 
的 位 如 果 为 0， 则 直接 将 IO 写 入 源 卷 ;如 果 对 应 的 位 为 1， 则 系统 将 IO 写 入 源 卷 对 应 地 址 之 后 
立即 将 结果 Bitemap 中 对 应 的 这 一 位 置 为 0。 

6 ) Catchup 期 间 如 何 处 理 主 机 读 写 IO 

总 体 来 讲 ， 这 一 步 与 上 一 步 的 操作 步骤 本 质 上 相同 ， 但 是 需要 增加 一 步 。 由 于 Rollback 时 实 
Clone 卷 不 允许 接受 写 IO， 那 么 同 理 ，Catchup 时 源 卷 也 就 不 能 接受 写 IO。 但 是 这 样 做 是 不 允许 
的 ， 除 非 是 前 台 Catchup， 但 是 这 样 会 对 主机 应 用 造成 暂停 影响 。 解 决 的 办 法 依然 是 使 用 RoFW 
大 法 了 。 在 Catchup 执行 之 前 首先 创建 一 个 针对 源 卷 的 RoFW 数据 映射 表 ， 所 有 在 Catchup 期 间 
针对 源 卷 的 写 IO 都 被 重 定向 到 这 个 表 中 , 读 IO 则 首先 查询 这 个 表 , 如 果 找 到 对 应 的 地 址 则 从 这 
个 表 而 不 是 源 卷 中 读 取 数据 并 返回 给 主机 , 如 果 是 写 IO 则 也 先 查 询 这 个 表 , 如 果 对 应 IO 地 址 已 
经 存在 条 目 则 覆盖 ,不 存在 则 插入 。 当 Catchup 完成 之 后 ， 系 统 再 将 RoFW 表 中 的 数据 慢 慢 在 后 
台 同 步 回 源 卷 。 

卷 Clone 是 依托 在 快照 技术 上 的 一 个 高 附加 值 产物 ,其 附加 价值 就 体现 在 一 个 RoFW 映射 表 
上 ， 从 而 使 快照 可 写 。 实 现 这 个 技术 不 是 什么 难事 ， 但 却 能 得 到 高 回报 率 。 


5. EMC 公司 卷 Clone 产品 简 述 


1 ) Snapview 系列 

Snapview 是 运行 在 EMC 公司 中 低 端 存储 系统 Clariion CX 平台 的 操作 系统 FLARE 上 的 一 个 
软件 模块 ， 它 又 被 分 为 Snapview/snapshot 和 Snapview/clone 两 个 功能 选项 。 前 者 代表 普通 快照 功 
能 ， 后 者 则 代表 卷 Clone 功能 。 

Snapview/snapshot 在 进行 CoFW 时 会 以 64KB 为 单位 进行 CoFW, 也 就 是 说 , 快照 生成 之 后 ， 
如 果 有 某 个 针对 源 卷 的 写 IO 仅 为 4KB， 那么 系统 依然 会 将 这 4KB 所 在 的 64KB 单元 全 部 复制 到 
IO 仓库 (EMC 的 说 法 是 Reserved LUN ) 中 存放 。 如 果 随 后 某 个 写 IO 再 次 落 在 了 这 64KB 单元 
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地 址 的 任何 地 址 段 ， 系 统 也 不 会 再 进行 CoFW 操作 。 这 种 提高 CoFW 单元 粒度 的 方法 一 方面 降 
低 了 维护 更 细 粒 度 地 址 映射 表 的 开销 , 另 一 方面 也 显著 降低 了 CoFW 对 系统 写 性 能 的 影响 所 持续 
的 时 间 。 唯 一 一 个 坏处 就 是 会 浪费 IO 仓库 中 一 定 的 空间 ， 可 以 说 是 以 空间 换 性 能 。 

Snapview/Clone 使 用 一 种 叫做 Copy On First Access ( CoFA ) 的 机 制 ， 当 挂 载 并 使 用 克隆 的 那 
台 主机 发 起 针对 这 个 克隆 卷 的 任何 IO 时 , 不 管 是 读 还 是 写 , 如 果 IO 的 目标 地 址 块 是 首次 被 读 或 
者 写 ， 那 么 系统 将 从 源 卷 中 将 对 应 的 块 (或 者 更 大 的 粒度 ， 见 上 文 ) 复制 出 来 放 到 克隆 卷 空间 里 
存放 。 同 时 ， 针 对 源 卷 的 首次 覆盖 写 入 时 当然 也 会 触发 复制 ， 但 是 针对 源 卷 的 块 的 读 操作 是 不 会 
触发 复制 的 ， 只 有 针对 克隆 卷 的 首次 读 才 会 触发 复制 。 这 样 做 的 目的 是 为 了 降低 克隆 卷 对 源 卷 的 
性 能 影响 ， 但 是 却 增加 了 存储 空间 的 需求 量 。 

如 图 16-26 所 示 为 EMC Clariion 配 置 界 面 ,其 中 Fracture、Synchronize 和 Reverse Synchronize 
分 别 对 应 上 文中 的 Clone Split、 Catchup 和 Rollback。 


屡 :oaoe Domans 
日 岂 Local Domain [10.14.16,22i Logged In] 
© 4960-82300018 [cx4-960] 
十 Hosts 


直入 Reserved LUN Pool 
+ 


四 图 一 各 册 骨 
¥ 
§ 
外 


由 - 福 exchange Log Clone 
日 Thn Source LUN_CloneGroup 


后 
昌国 Sndvone GB Consumed); Clone Synchronized] 
WO YMFS_05_Clone Reverse Synchronize, .. 
napshots 
由 国 5AN Copy 5essions Remove. 
Properties,., 


图 16-26 Fracture 
2 ) Timefinder 系列 
Timefinder 是 运行 在 EMC 公司 高 端 存储 系统 Symmetrix DMX 平台 的 操作 系统 Enginuity 上 
的 一 个 软件 套件 模块 。 它 包括 TimeFinder/Snap 、TimeFinder/Clone 、TimeFinder/Mirror 、 
TimeFinder/CG ( Consistency Group ) 等 几 个 组 件 。 


TimeFinder/Snap 、TimeFinder/Clone 分 别 对 应 了 快照 和 卷 Clone 的 功能 。TimeFinder/CG 则 
实现 了 一 致 性 组 功能 ， 关 于 一 致 性 组 技术 会 在 后 面 的 章节 详细 地 论述 。 

这 里 需要 着 重 提 一 下 TimeFinder/Mirror 功能 。 传 统 的 Clone 卷 是 基于 对 源 卷 在 某 一 时 间 点 的 
快照 而 作成 的 , 但 是 TimeFinder/Mirror 则 不 依托 快照 来 实现 , 而 是 直接 对 源 卷 进行 实时 的 同步 镜 
像 ， 针 对 源 卷 的 任何 写 IO 都 被 实时 同步 到 一 个 镜像 卷 中 。 

某 时 刻 , 用 户 可 以 发 起 Split 动作 , 使 这 个 镜像 卷 脱 离 源 卷 而 成 为 一 个 独立 的 卷 , 也 就 相当 于 
在 这 个 时 刻 创建 了 一 份 卷 Clone， 只 不 过 这 份 卷 Clone 在 Split 之 后 立即 就 是 一 个 物理 独立 卷 了 ， 
而 不 需要 任何 数据 复制 过 程 。Split Mirror 之 后 ， 源 卷 与 切 开 后 的 镜像 卷 也 可 以 各 自 记 录 一 份 
Bitmap， 就 像 上 文中 所 说 的 。 而 随后 ， 可 以 选择 利用 源 卷 来 Catchup 这 个 Clone 卷 ， 或 者 选择 使 
Clone 卷 来 Rollback 源 卷 。EMC 将 这 种 镜像 卷 称 为 BCV， 即 Business Continuous Volume。 其 
FE 用 与 传统 Clone 卷 相同 。 唯 一 优点 就 是 Split 之 后 立即 可 用 , 无 须 等 待 数据 复制 。 最 大 的 缺点 则 


521 


日 大话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


是 由 于 数据 完全 与 源 卷 同 步 ， 一 旦 源 卷 数据 发 生 逻 辑 错误 ， 而 发 生 错误 之 前 又 没有 手动 Split， 则 
镜像 卷 的 数据 也 同样 变 为 逻辑 不 一 致 的 了 。 


16.2.5 ”Continuous Data Protect ( CDP， 连 续 数 据 保护 ) 


SNIA 对 于 CDP 给 出 了 一 个 定义 。CDP ( 持续 数据 保护 ) 是 一 种 在 不 影响 主要 数据 运行 的 前 
提 下 ， 可 以 实现 持续 捕捉 或 跟踪 目标 数据 所 发 生 的 任何 改变 ， 并且 能 够 恢复 到 此 前 任意 时 间 点 的 
方法 。CDP 系统 能 够 提供 块 级 、 文 件 级 和 应 用 级 的 备份 。 

有 一 类 所 谓 的 Near CDP 产品 ， 可 以 生成 高 频率 的 快照 ， 比 如 一 小 时 几 十 次 、 上 百 次 等 。 用 
这 种 方法 来 保证 数据 恢复 的 粒度 足够 细 。 

CDP 是 这 样 一 种 机 制 ， 即 它 可 以 保护 从 某 时 刻 开 始 卷 或 者 文件 在 此 后 任意 时 刻 的 数据 状态 ， 
也 就 是 数据 的 每 次 改变 ， 都 会 被 记录 下 来 ， 无 一 遗漏 。 这 个 机 制 乍 一 看 非常 神奇 ， 其 实 它 的 底层 
只 不 过 是 比 快照 多 了 一 些 考虑 而 已 ， 下 面 我 们 就 来 分 析 它 的 实现 原理 。 


1. 应 用 级 和 文件 级 的 CDP 


所 谓 应 用 级 CDP, 是 说 对 数据 的 连续 保护 机 制 是 发 生 在 应 用 程序 层 的 , 换 句 话说 , 由 应 用 程 
序 自 己 对 自己 的 数据 加 以 连续 保护 ， 记 录 和 保存 每 一 笔 更 改 。 应 用 级 CDP 的 典型 例子 就 是 比如 
Oracle 和 DB2 等 各 种 数据 库 系 统 , 数据 库 系 统 对 每 一 笔 交 易 都 会 进行 日 志 记录 , 在 归档 日 志 模式 
下 ， 所 有 曾经 对 数据 库 进行 的 更 改 操作 均 会 被 打 入 时 间 惟 并 记录 到 日 志 中 , 老 日 志 不 断 地 被 归档 
存放 以 便 为 新 日 志 腾 出 空间 。 当 数据 库 发 生 问题 的 时 候 ， 利 用 归档 的 日 志 ， 就 能 够 将 数据 库 状态 
恢复 到 任何 一 个 指定 的 时 间 点 ， 数 据 库 会 顺序 读 出 库 中 的 每 一 笔 交 易 然后 将 其 重 放 ( Replay ) ， 
对 应 的 数据 重新 写 入 数据 库 文 件 。 重 放 完成 后 ， 还 需要 进行 Redo 和 Undo 操作 ， 即 检查 日 志 中 
最 后 一 个 CheckPoint 一 致 点 处 ,一致 点 之 后 发 生 的 交易 全 部 回 退 。 回 退 完成 后 , 数据库 便 处 于 一 
个 一 致 的 状态 并 且 可 用 。 应 用 层 CDP 不 需要 任何 其 他 程序 的 辅助 ， 不 需要 任何 特殊 的 存储 系统 
功能 , 完全 由 应 用 程序 自身 就 可 以 完成 。 应 用 级 CDP 是 最 纯粹 、 最 厚道 、 最 彻底 、 最 实用 的 CDP。 

文件 级 CDP 就 是 通过 监视 文件 系统 动作 ， 文 件 的 每 一 次 变化 ( 包括 实际 数据 或 者 元 数据 的 
变化 ， 比 如 重 命名 、 删 除 、 裁 剪 等 属性 的 改变 ) 以 日 志 的 形式 被 记录 下 来 。CDP 引 黎 分 析 应 用 对 
文件 系统 的 IO 数据 流 ， 然 后 计算 出 文件 变化 的 部 分 ， 将 其 保存 在 CDP 仓库 设备 (存放 CDP 数 
据 的 介质 ) 中 ， 可 以 针对 每 个 文件 生成 单独 的 日 志 链 。 可 以 对 一 个 文件 ， 或 者 一 个 目录 ， 甚 至 一 
个 卷 来 监控 。 文 件 级 的 CDP 方案 ， 一 般 需要 在 生产 主机 上 安装 代理 ， 用 来 监控 文件 系统 IO， 并 
将 变化 的 数据 信息 传送 到 CDP 仓库 介质 中 ， 或 者 使 用 本 地 文件 系统 或 者 磁盘 的 某 块 额外 空间 来 
充当 日 志 仓库 。 文 件 级 的 CDP， 能 够 保证 数据 的 一 致 性 。 因 为 它 是 作用 于 文件 系统 层次 ， 捕 获 的 
是 完整 事务 操作 。 所 有 的 文件 版 本 管理 软件 都 可 以 算 作 是 文件 级 CDP 的 实现 。 

其 实 日 志 型 文件 系统 自身 也 可 以 算 作 是 一 个 粗 线条 的 CDP 实现 ， 因 为 日 志 型 文件 系统 自身 
也 会 记录 每 一 笔 操 作 记录 和 数据 ， 只 不 过 其 日 志 是 循环 的 ， 并 非 归档 模式 ， 同 时 默认 的 日 志方 式 
是 只 记录 元 数据 更 改 而 不 记录 实际 数据 ， 并 且 也 不 提供 用 户 自 定义 回溯 时 间 点 的 功能 。 如 果 能 够 
直接 在 文件 系统 模块 中 或 者 外 嵌 一 个 模块 来 针对 每 个 文件 记录 归档 模式 的 元 数据 + 实际 数据 日 
志 ， 那 么 恢复 的 时 候 就 可 以 指定 某 个 文件 的 某 个 时 间 点 进行 数据 回 滚 了 。 
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2. 块 级 的 CDP 


块 级 的 CDP， 与 应 用 级 和 文件 级 CDP 实现 思想 相同 ， 其 实 就 是 捕获 底层 卷 的 写 IO 变化 ， 
并 将 每 次 变化 的 块 数据 打 入 时 间 惟 并 且 保 存 下 来 。 这 里 先 不 探讨 具体 产品 的 架构 ， 而 只 对 其 代码 
层 设计 原理 做 一 个 细致 的 描述 。 后 文中 则 会 对 块 级 别 CDP 整体 架构 做 更 加 细致 的 论述 。 

提示 : 以 下 对 于 CDP 的 描述 引 自 敖 青云 的 博客 ( aoqingy.spaces.live.com ) 。 

CDP 起 源 于 Linux 下 的 CDP 模块 。 它 持续 地 捕获 所 有 LO 请 求 ， 并 且 将 这 些 请 求 打上 时 间 
戳 标 志 。 它 将 数据 变化 以 及 时 间 惟 保存 下 来 ， 以 便 恢 复 到 过 去 的 任意 时 刻 。 

在 Linux 的 CDP 实现 中 ,包含 下 列 三 个 设备 。 

， ”主机 磁盘 设备 (host disk ) 

" ”CDP 仓库 设备 (repository ) 

= CDP 元 数据 设备 ( metadata ) 

CDP 代码 对 主机 磁盘 设备 在 任意 时 刻 所 做 的 写 操作 都 会 记录 下 来 ， 将 实体 数据 按 顺 序 写 入 
CDP 仓库 设备 中 ， 对 于 这 些 实体 数据 块 的 描述 信息 ， 则 被 写 入 到 CDP 元 数据 设备 的 对 应 扇 区 。 

元 数据 包含 以 下 信息 : 

struct metadata { 

int hrs，min，sec; 该 数据 块 被 写 入 主机 磁盘 设备 的 时 间 

unsigned int bisize; 该 数据 块 以 字 节 为 单位 的 长 度 

sector t CDP_sector; CDP 仓库 设备 中 对 应 数据 块 的 起 始 扇 区 编号 

sector t host_sector; 该 数据 块 在 主机 磁盘 设备 中 的 起 始 扇 区 编号 

于 
图 16-27 反映 了 主机 磁盘 设备 和 CDP 仓库 设备 之 间 的 关系 。CDP 仓库 设备 中 按时 间 顺 序 保 
存 了 对 主机 磁盘 设备 的 数据 修改 。A 为 主机 磁盘 设备 上 的 一 个 扇 区 , 该 肩 区 在 9:00 和 9:05 分 别 进 
行 了 修改 ， 它 在 CDP 仓库 设备 中 对 应 的 扇 区 分 别 为 AL 和 A2。 


图 16-27 CDP 仓库 与 主机 磁盘 设备 问 的 关系 


图 16-28 反映 了 CDP 仓库 设备 和 CDP 元 数据 设备 之 间 的 关系 ， 它 们 的 写 入 顺序 一 一 对 应 。 
CDP 仓库 设备 中 的 一 个 元 数据 , 对 应 CDP 元 数据 设备 中 一 个 VO 请 求 , 实际 上 可 能 是 多 个 扇 区 。 
具体 扇 区 数 由 元 数据 中 的 bisize 指定 ， 而 起 始 扇 区 位 置 由 CDP_sector 指定 。 
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图 16-28 CDP 仓库 设备 与 CDP 元 数据 设备 间 的 关系 

全 局 变量 maddr 保存 了 下 一 个 I/O 请 求 , 在 CDP 仓库 设备 上 执行 的 地 址 ( 起 始 扇 区 编号 ) 。 
maddr 的 初 值 被 定义 为 宏 START_METADATA (0)。 

unsigned int maddr = START METADATA; 

当 一 个 写 请 求 到 来 时 ， 对 应 数据 被 写 到 CDP 仓库 设备 中 ， 这 时 所 做 的 操作 如 下 : 

(1) 将 写 入 CDP 仓库 设备 的 数据 块 起 始 扇 区 编号 设置 为 maddr; 

(2 ) 根据 要 写 入 主机 磁盘 设备 的 数据 块 的 扇 区 数目 增加 maddr。 

这 时 ， 用 户 要 将 这 里 写 入 CDP 仓库 设备 的 数据 块 编号 记录 下 来 ， 以 便 构 造 对 应 的 元 数据 。 

全 局 变量 taddr 保存 了 下 一 个 1/O 请 求 ,对 应 的 元 数据 ,在 CDP 元 数据 设备 中 保存 的 地 址 ( 起 
始 扇 区 编号 ) 。 taddr 的 初 值 被 定义 为 宏 START_METADATA (0) 。 

unsigned int taddr = START METADATA; 

当 一 个 写 请 求 到 来 时 ， 对 应 的 元 数据 被 记录 在 CDP 元 数据 设备 中 。 

为 了 简单 起 见 ， 在 元 数据 设备 上 ， 一 个 扇 区 (512B ) 只 保存 一 个 元 数据 信息 (只 有 32B ) ， 
这 样 浪费 了 大 量 的 存储 空间 ， 但 对 元 数据 设备 的 处 理 却 非常 简单 ; 

(1) 将 写 入 CDP 元 数据 设备 的 元 数据 起 始 扇 区 编号 设置 为 addr， 长 度 为 1 个 扇 区 ; 

(2) 将 taddr 增 加 1; 

(3 ) 请 求 处 理 过 程 。 

请 求 处 理 过 程 是 从 make_request 函数 开始 
的 。 考虑 到 读 请 求 处 理 的 相似 性 , 甚至 更 为 简单 ， 
这 里 只 分 析 对 写 请 求 的 处 理 过 程 。 首 先 获得 当前 
的 系统 时 间 , 然后 写 请 求 bio 结构 (为 便于 说 明 ， 
这 里 记 为 B ) 被 分 为 三 个 写 请 求 bio 结构 ( 分 别 
为 B0、B1 和 了 B2 ) ,如 图 16-29 所 示 。 这 三 个 bio 
结构 的 作用 如 下 。 图 16-29 三 个 写 请 求 bio 结构 

， ”B0: 将 数据 块 写 到 主机 磁盘 设备 。 

" ”B1: 将 数据 块 写 到 CDP 仓库 设备 。 
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， ”B2: 将 元 数据 写 到 CDP 元 数据 设备 。 

同 其 他 块 设备 驱动 程序 的 实现 一 样 , 从 B 复制 产生 B0、B1 和 B2, 然后 重 定向 它们 要 处 理 的 
设备 ， 即 bi_bdev 域 。 另 外 一 个 大 的 变动 是 重新 设置 了 bi_end_io 域 , 用 于 在 MO 请 求 完成 之 后 进 
行善 后 处 理 。 

为 了 处 理 善 后 ， 还 要 将 BO、B1 和 B2 的 bi_private 指向 同一 个 CDP_biol 结构 。 从 这 个 结构 
能 够 回 到 对 B 的 处 理 。 

struct CDP bio { 

struct bio *master bio; 原来 的 bio， 通 过 这 个 域 用 户 可 以 从 B0、B1、B2 找到 B 

struct bio *bios[3]; 如 果 IO 为 WRITE， 这 个 指针 数组 分 别 指向 B0、B1、B2， 为 何 

需要 这 个 域 ? 

atomic t remaining; 这 是 一 个 计数 器 ， 在 后 面 会 解释 

unsigned long state; 在 I/0 完成 方法 中 使 用 

i 

善后 工作 的 主要 目的 是 在 B0、B1 和 B2 都 执行 完成 后 , 回去 执行 B, 为 此 需要 一 个 “have we 
finished” 计 数 器 ， 这 就 是 原子 整 型 变量 remaining。 在 构造 B0、B1、B2 时 分 别 递增 ， 同时 在 B0、 
B1 和 B2 的 1/O 完成 方法 中 递减 ,最 后 根据 该 值 是 否 递减 到 0, 来 判断 B0、B1 和 B2 是 否 都 已 经 
执行 完毕 。 为 了 防止 B0 在 构造 后 、 在 B1 和 B2 构造 之 前 就 执行 到 B0 的 MO 完成 方法 ， 从 而 使 
得 remaining 变 成 0 这 种 错误 情况 , 我们 没有 将 remaining 的 初 值 设 置 为 0， 而 是 设 为 1, 并 在 BO、 
B1、B2 都 构造 完成 执行 递减 一 次 。 

B0、B1、B2 都 执行 完成 之 后 ， 进 行 如 下 的 处 理 。 

(1) 调用 B 的 善后 处 理 函数 。 

(2 ) 释放 期 间 分 配 的 数据 结构 。 

(3 ) 向 上 层 buffer cache 返回 成 功 /错误 码 。 

提示 : 对 B2 的 构造 ， 这 个 bio 结构 需要 处 理 的 是 元 数据 。 时 间 戳 已 经 在 进入 make_request 

时 获得 了 保存 , 而 对 主机 磁盘 设备 操作 的 起 始 扇 区 和 长 度 从 B 中 可 以 获得 , 对 应 的 CDP 仓 

库 和 CDP 元 数据 的 起 始 地 址 分 别 保存 在 全 局 变量 maddr 和 taddr 中 。 


数据 恢复 过 程 


用 户 可 以 将 数据 恢复 到 以 前 的 任意 时 刻 。CDP 实现 代码 中 提供 了 一 个 blk_ioct 函数 , 用 户 空 
间 以 GET_TIME 为 参数 调用 该 函数 ， 将 主机 磁盘 设备 中 的 数据 恢复 到 指定 的 时 间 点 。 恢 复 的 过 
程 分 为 以 下 几 个 步 又。 

(1 ) 顺序 读 取 CDP 元 数据 设备 的 所 有 扇 区 ,构造 一 个 从 主机 磁盘 设备 数据 块 到 CDP 仓库 设 

备 的 (在 这 个 时 间 点 之 前 ) 更 新 数据 块 的 映射 。 其 结果 保存 在 以 mt_home 为 首 的 (映射 
表 ) 链表 中 ， 如 图 16-30 所 示 。 
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图 16-30 CDP 恢复 过 程 
这 里 需要 构造 addr 个 对 CDP 元 数据 设备 的 读 请 求 , 每 个 请 求 读 取 一 个 扇 区 。 在 这 些 请 求 的 
IO 完成 方法 中 ， 从 读 到 的 数据 中 构造 元 数据 ， 并 递减 计数 器 count。 
如 果 元 数据 中 的 时 间 戳 早 于 或 等 于 指定 的 恢复 时 间 点 , 则 需要 添加 或 修改 mt_home 链表 的 元 
数据 结构 。 


提示 : 这 些 项 是 以 host_sector 为 关键 字 索 引 的 ， 因 此 添加 或 修改 取决 于 前 面 是 否 出 现 对 同 

一 个 host_sector 的 修改 。 在 以 顺序 方式 读 取 的 过 程 中 , 可 以 保证 host_sector ( 在 指定 的 恢复 

时 间 点 之 前 ) 的 最 新 修改 CDP_sector 会 出 现在 这 个 链表 中 。 

由 于 计数 器 count 为 addr, 如 果 它 递减 为 0, 说明 CDP 元 数据 设备 中 的 所 有 数据 均 已 读 出 并 
处 理 ， 这 时 就 可 以 继续 往 后 面 执行 。 

(2 ) 从 CDP 仓库 设备 中 读 取 这 些 更 新 的 数据 块 ， 构 造 以 mt_bi_home 为 首 的 链表 。 

同上 面 的 处 理 类 似 ， 我 们 需要 为 mt_home 链表 中 的 每 一 项 构造 对 CDP 仓库 设备 的 读 请 求 ， 
每 个 请 求 在 CDP 仓库 设备 的 起 始 编号 取决 于 CDP_sector 域 ， 长 度 则 根据 bisize 而 定 。 这 个 请 求 
读 出 的 数据 需要 被 写 入 到 主机 磁盘 设备 中 ,为 此 在 读 请 求 /O 完成 函数 中 ,构造 一 个 对 应 的 往 主 
机 磁盘 设备 的 写 请 求 bo， 该 写 请 求 的 起 始 编号 取决 于 host_sector 域 ， 长 度 根据 bisize 而 定 ， 而 要 
写 入 的 数据 是 刚刚 从 CDP 仓库 设备 中 读 出 的 数据 。 另 外 ,在 读 请 求 VO 完成 函数 中 ， 还 要 递减 
一 个 计数 器 , 当 该 计数 器 递减 到 0 时 , 说明 用 户 已 经 全 部 处 理 了 mt_home 链表 中 的 项 , 这 时 会 得 
到 一 个 以 mr_bio_home 为 首 , 每 项 中 都 指向 一 个 bio 结构 的 链表 。 

struct 1ist head mt home; //BIO 更 新 链表 


struct most_ recent blocks { //BIO 更 新 表 项 

struct bio *mrbio; 

struct list head list; 
] 7 
(3 ) 将 mt_bi_home 链表 的 数据 块 都 恢复 到 主机 磁盘 设备 中 。 

这 个 操作 相对 比较 简单 ， 用 户 只 需要 在 主机 磁盘 设备 上 执行 mt_bi home 链表 的 每 一 个 bio 
请 求 项 即 可 。 当 然 还 要 在 这 些 请 求 项 的 1/O 完成 方法 中 做 善后 处 理 ， 即 如 果 所 有 请 求 项 都 已 经 执 
行 完毕 ， 则 释放 mt_home 链表 和 mt_bi_home 链表 。 
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3. CDP 架构 模型 演绎 


前 面 主要 给 出 了 CDP 底层 的 设计 思想 和 思路 , 本 节 将 对 CDP 的 具体 实现 做 一 个 架构 模型 猪 
想 和 分 析 , 在 下 一 节 中 则 介绍 几 个 目前 市 场 上 厂家 的 CDP 产品 ,通过 分 析 其 产品 架构 从 而 对 CDP 
进行 更 加 深刻 的 理解 。 

演绎 之 前 ， 我 们 再 来 总 结 一 下 CDP 的 基本 原理 : 对 需要 保护 的 数据 进行 连续 的 监视 ， 每 当 有 
写 IO 发 生 ， 视 设计 方法 不 同 ， 将 这 份 IO 的 数据 打上 时 间 惟 ， 保 存 到 另外 的 空间 中 (Row ) 或 者 
将 被 覆盖 的 数据 先 复制 出 来 打上 时 间 惟 并 保存 到 另外 的 空间 中 然后 再 覆盖 新 写 入 的 数据 ( CoW ) 。 
这 里 为 何 没有 用 CoFW 或 者 RoFW 呢 ? 因为 我 们 这 里 做 的 不 仅仅 是 一 次 Snapshot， 而 是 连续 数据 
保护 ， 记 录 每 个 IO， 所 以 怎么 会 允许 第 二 次 覆盖 写 就 不 Copy 或 重 定向 了 呢 ? 每 次 写 都 要 Copy 或 
者 Redirect， 除 非 用 于 保存 变化 IO 的 仓库 已 满 或 者 已 经 达到 用 户 所 设 定 的 保护 期 限 阔 值 。 


说 明 : CDP 思想 的 核心 可 以 说 就 是 时 间 戳 ,任何 IO 都 必须 有 时 间 戳 ，CDP 引擎 在 遍历 整 
个 链 的 时 候 , 除了 要 参考 FS 或 者 VM 自身 的 元 数据 映射 链 或 者 映射 图 表 之 外 , 还 要 参考 时 
间 戳 链 ， 能 够 做 到 对 于 每 一 个 给 出 的 时 间 点 ，CDP 引擎 都 可 以 从 源 数据 区 和 变化 IO 仓库 
区 从 链表 /映射 图 以 及 时 间 戳 链 中 遍历 抓 取 出 一 份 完整 的 对 应 所 给 出 的 时 刻 的 源 数 据 卷 的 
元 数据 链 ， 从 而 得 到 了 完整 的 实际 数据 卷 的 一 份 影像 (image ) 。 这 份 影像 就 像 Snapshot 
一 样 可 以 被 只 读 挂 载 以 用 于 恢复 数据 或 者 备份 到 磁带 ,或 者 像 卷 Clone 一 样 可 写 。 如 图 
16-31 所 示 为 作者 自演 绎 的 一 种 CDP 产品 模型 。 


16-31 自己 演绎 的 CDP 模型 
图 16-31 所 示 的 是 一 个 假想 中 的 CDP 实现 架构 。 特 别 需要 注意 的 是 图 中 所 有 箭头 的 位 置 和 
指向 , 每 个 位 置 和 指向 都 是 有 特殊 意义 的 , 方向 向 上 的 箭头 代表 读 IO 操作 , 向 下 则 代表 写 IO 操 
作 。 下 面 就 这 个 架构 模型 来 做 一 个 论述 。 

一 台 主 机 后 端 通过 FC 交换 机 连接 了 一 台 磁 盘 阵 列 ， 磁 盘 阵 列 映射 了 若干 LUN 给 这 台 主 机 
使 用 ， 并且 主机 还 有 本 地 磁盘 ， 受 保护 的 文件 和 卷 既 有 一 部 分 存放 在 磁盘 阵列 中 ， 又 有 一 部 分 存 
放 在 本 地 磁盘 中 。 其 前 端 通过 以 太 网 交换 机 连接 了 一 台 CDP 服务 器 。 主 机 上 安装 有 CDP 客户 端 
套件 ， 包 括 的 主要 模块 有 : CDP 主 代理 模块 、 块 IO 捕获 虚拟 设备 模块 和 文件 IO 过 滤 驱 动 模块 。 

1 ) 文件 IO 过 滤 模 块 

这 个 模块 作用 于 文件 系统 层 旁 路 以 及 卷 管理 层 之 上 ， 其 作用 是 监视 每 个 受到 CDP 保护 目录 
下 的 文件 的 所 有 写 操 作 ， 一 旦 发 现 某 个 受 保护 的 文件 有 写 入 操作 ， 则 将 这 个 操作 所 对 应 的 数据 和 
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偏 移 量 一 同 通过 以 太 网 发 送 到 CDP 服务 器 端 (RowW 方式 下 ) ,或 者 先 将 受 保护 的 文件 对 应 的 即 
将 被 覆盖 的 部 分 的 现 有 内 容 读 出 然后 附带 对 应 的 偏 移 量 信息 一 并 发 送 到 CDP 服务 器 端 后 再 将 待 
写 入 的 数据 写 到 对 应 的 磁盘 空间 中 ( CoW 方式 下 ) 。 文 件 IO 过 滤 层 是 实现 文件 级 CDP 的 一 个 
必需 组 件 。 而 实现 卷 级 或 者 Block 块 级 的 CDP, 就 需要 在 卷 管理 层 之 下 的 Block IO 链条 之 间 插 入 
一 层 ， 也 就 是 图 示 的 块 IO 捕获 虚拟 设备 层 。 

2 ) IO 捕获 虚拟 设备 层 

这 个 组 件 在 卷 管理 层 之 下 生成 了 一 个 虚拟 设备 ， 卷 管理 层 直接 对 这 个 设备 进行 IO ， 从 而 将 
任何 试图 写 入 受 CDP 保护 的 卷 的 IO 操作 截获 ， 与 文件 IO 过 滤 组 件 作 用 方式 相同 ， 根 据 不 同 设 
本 方 式 比如 CoW 或 者 RoW, 将 对 应 的 数据 和 LBA 地 址 段 信息 发 送 到 CDP 服务 器 端 。 这 两 个 组 
件 并 不 是 所 有 IO 都 监控 , 它们 只 会 向 操作 系统 API 注册 受 CDP 保护 的 目录 或 者 卷 的 监控 过 滤 权 
限 ， 上 层 对 未 受 保护 对 象 的 写 IO 操作 均 会 Bypass 掉 这 两 个 层 直 接 写 向 原 有 的 下 层 。 图 中 的 箭头 
明确 标示 了 各 个 层次 之 间 的 关系 。 

3 ) CDP 主 代理 模块 

这 个 模块 是 受 保护 的 客户 端 主 模块 ， 负 责 协 调 与 CDP 服务 器 的 通信 和 数据 传输 ， 以 及 适 配 
上 述 的 两 个 模块 。 如果 说 上 面 两 个 模块 是 两 杆 枪 ， 则 客户 端 主 代理 模块 就 是 前 线 指挥 者 ，CDP 服 
务 器 就 是 后 方 总 指挥 外 加 战俘 集中 营 。 主 代理 模块 还 负责 把 每 个 从 上 面 两 个 模块 接收 到 的 写 IO 
数据 打上 时 间 戳 并 发 送 给 CDP 服务 端 模块 保存 。 

如 果 使 用 RowW 方式 ， 则 上 层 的 每 个 读 IO 也 均 会 经 过 文件 IO 过 滤 驱 动 层 ， 过 滤 驱 动 将 IO 
的 地 址 传送 给 主 代理 模块 ， 主 代理 模块 向 CDP 服务 器 发 出 查询 请 求 (良好 的 设计 情况 下 无 须 每 
次 都 查询 ， 代 理应 当 定时 从 CDP 服务 器 端 将 地 址 统计 表 拉 过 来 做 缓存 ) ， 如 果 这 个 IO 的 地 址 恰 
好 是 以 前 曾经 被 Row 过 的 地 址 ， 则 CDP 服务 器 从 IO 仓库 中 将 这 段 地 址 对 应 的 实际 数据 提取 并 
发 送 给 客户 端 主 代理 ， 代 理 将 收 到 的 数据 传送 给 文件 过 滤 驱 动 ， 然 后 文件 过 滤 驱 动 再 将 数据 传送 
给 上 层 请 求 者 。 可 以 看 出 ，RoW 方式 的 流程 过 多 ， 效 率 非 常 低 下 ， 但 是 可 以 利用 另外 一 种 方式 
来 既 用 到 Row 不 消耗 额外 的 IO 资源 这 个 优势 , 又 能 屏蔽 掉 读 操作 对 主机 的 影响 , 这 种 设计 思路 
将 在 下 文 描述 。 

在 利用 CDP 做 实 恢复 ( 对 应 虚拟 影像 来 讲 ) 的 时 候 ， 主 代理 模块 还 负责 从 CDP 服务 器 提取 
对 应 时 间 点 之 前 的 所 有 被 保存 的 IO 数据 并 将 恢复 的 数据 覆盖 到 对 应 的 目录 或 者 卷 。 在 利用 CDP 
做 虚拟 影像 挂 载 读 写 的 时 候 ， 上 层 针对 虚拟 卷 或 者 目录 的 每 次 读 或 者 写 IO, 都 需要 代理 根据 本 地 
所 缓存 的 地 址 统计 表 来 判断 对 应 IO 的 实际 数据 在 源 目录 / 卷 还 是 位 于 CDP 服务 端的 IO 仓库 中 ， 
并 去 将 数据 取 回 并 返回 给 请 求 者 。 

4) CDP 服务 器 端 

CDP 服务 器 端 是 整个 CDP 系统 的 总 控制 台 和 IO 仓库 。 服 务 端 负 责 监 控 和 记录 所 有 受 保护 
的 客户 端 主机 上 的 代理 程序 状态 以 及 目录 / 卷 的 状态 、 传输 状态 等 。 服务 端 负责 响应 代理 端的 查询 
请 求 并 在 查询 命中 时 将 保存 在 仓库 中 的 IO 数据 返回 给 代理 端 。 服 务 端 还 负责 接收 各 个 代理 端 传 
送 过 来 的 需要 保存 的 IO， 并 将 这 些 IO 数据 加 以 分 类 并 存放 到 本 地 的 存储 空间 中 ， 并 做 好 时 间 错 
索引 /地 址 段 索 引 等 重要 步骤 以 便 提高 查询 速度 。 服 务 端 还 负责 提供 用 户 配置 接口 ， 用 CLI/GUI 
方式 接收 用 户 的 配置 ， 比 如 保存 期 限 、 空 间 配额 、 备 份 策略 、 传 输 模式 、 带 宽 控 制 、 用 户 权 限 控 
制 等 。 
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CDP 服务 端 可 以 是 一 台 普 通 的 服务 器 , 安装 对 应 的 软件 , 也 可 以 是 内 坎 软 件 的 成 品 一 体 化 硬 
件 服务 器 。 至 于 CDP 服务 器 的 存储 空间 ， 则 需要 根据 受 保护 的 总 容量 、 处 理 能 力 和 具体 需求 等 
来 配置 ， 服 务 器 机 箱 内 本 地 磁盘 以 及 通过 FC 或 者 SAS 之 类 的 适 配 卡 连 接 的 外 置 扩展 柜 或 者 第 三 
方 独 立 存储 系统 ， 均 可 作为 IO 仓库 存储 空间 。 
5 ) 源 卷 数据 被 保护 的 详细 步骤 阐述 
有 一 各 主机 ,其 上 有 一 个 100GB 大 小 的 卷 或 者 分 区 ， 需 要 对 其 进行 CDP 连续 保护 ， 保 护 期 
限 为 一 周 ， 也 就 是 说 只 保留 一 周 前 到 现在 的 所 有 变化 数据 即 可 。CDP 服务 器 已 经 安装 配置 完毕 。 
(1 ) 首先 在 这 台 主机 上 安装 CDP 客户 端 代理 模块 ， 安 装 完毕 后 需要 重新 启动 。 重 启 后 ， 对 
这 个 卷 的 IO 更 改 率 进行 评估 ， 得 出 结论 ，IO 仓库 容量 为 源 卷 容量 的 20% 即 可 。 
(2 ) 打开 代理 程序 主 界面 ， 在 其 中 申请 20GB 大 小 的 IO 仓库 ， 并 将 其 分 配给 待 保护 的 卷 。 
配置 确定 后 ,将 其 保存 ， 此 时 代理 与 CDP 服务 器 进行 通信 ， 服 务 器 端 自动 在 其 本 地 存 
储 仓库 内 分 配 了 一 块 20GB 大 小 的 空间 并 记录 这 个 空间 的 使 用 者 和 卷 的 信息 ， 并 且 对 这 
个 空间 做 一 些 元 数据 的 初始 化 操作 ， 等 待 接收 客户 端 发 送 过 来 的 IO 数据 。 
(3 ) 服务 端 完成 配置 后 , 向 客户 端 代理 发 送 成 功 信号 。 客 户 端 代理 在 GUI 界面 中 将 成 功 的 状 
态 显 示 出 来 并 等 待 管理 员 的 下 一 步 指示 。 此 时 ， 数 据 保 护 还 没有 启动 ， 需 要 管理 员 手 动 
启动 。 管 理 员 手 动 将 数据 保护 引擎 启动 ， 此 时 ， 块 IO 捕获 引擎 开始 工作 ， 将 需要 被 保 
护 的 IO 数据 源源 不 断 地 发 送 给 代理 主 模块 , 主 模块 打上 时 间 玲 后 将 IO 数据 传送 到 服务 
端 保 存 。 
(4 ) 服务 端 收 到 对 应 客户 端 代理 的 IO 数据 后 将 其 存放 到 对 应 的 IO 仓库 中 , 按照 设计 的 保存 
格式 将 其 写 入 硬盘 ， 并 做 好 MetaData 的 更 新 。 目 前 几乎 所 有 的 CDP 设计 都 类 似 ， 即 为 
每 个 Block 地 址 形成 一 条 单独 的 数据 块 链条 ， 每 个 针对 源 卷 这 个 地 址 的 写 IO 所 产生 的 
Cow 或 者 Row 出 来 的 块 者 会 被 追加 到 这 个 链条 末尾 并 打 入 时 间 蕉 。 
(5 ) 随 着 客户 端的 IO 数据 不 断 传 来 ，IO 仓库 将 变 得 越 来 越 满 ， 在 仓库 未 全 满 之 前 ,比如 一 
周 之 后 ， 服 务 端 引擎 开始 根据 时 间 滤 来 判断 并 删除 时 间 蕉 早 于 一 周 的 所 有 IO 数据 以 便 
清空 部 分 空间 。 
(6 ) 当 服务 端的 IO 仓库 内 容量 达到 所 设 定 的 阔 值 的 时 候 ， 将 会 产生 告警 信息 提示 管理 员 将 
IO 仓库 扩容 。 当 满仓 之 后 ， 针 对 这 个 卷 的 CDP 引擎 停止 在 当前 的 时 间 点 (Rew 模式 
下 不 可 全 停 ， 因 为 随时 要 响应 上 层 的 读 IO 请 求 ) ， 等 待 管理 员 进 一 步 指示 。 当 管理 员 
删除 一 些 早期 时 间 戳 IO 数据 之 后 ,或 者 扩容 IO 仓库 之 后 ， 重 新 启动 CDP 引擎 ， 停 止 
时 间 点 与 启动 时 间 点 之 间 客 户 端 卷 变化 的 数据 没有 被 记录 ， 所 以 这 段 时 间 是 空白 期 , 数 
据 不 能 回溯 到 这 期 间 的 时 间 点 。 而 且 ， 如 果 使 用 Row 方式 的 话 ， 一 旦 IO 仓库 满仓 ， 
则 不 但 不 能 回溯 到 空白 期 ， 而 且 还 会 发 生 罗 辑 上 的 矛盾 。 
比如 , 满仓 之 后 , 假设 源 卷 有 一 个 写 IO 是 针对 LBA1024 的 , 并 且 LBA1024 在 满仓 之 前 就 已 
经 被 覆盖 过 多 次 ， 所 以 这 个 地 址 的 多 份 IO 数据 被 冠 以 不 同 的 时 间 玲 保存 在 仓库 中 ， 此 时 ， 客 户 
端 代理 由 于 仓库 满仓 而 停止 了 IO 捕获 , 那么 这 个 IO 应 该 如 何 处 理 ? 难道 要 直接 写 到 源 卷 将 原来 
的 数据 覆盖 么 ?如 果 这 样 做 ， 随 后 上 层 发 起 一 个 读 IO 请 求 ， 读 取 LBA1024 的 话 ， 则 客户 端 代理 
经 过 查询 服务 端 后 ， 会 将 服务 端 仓库 中 对 应 这 个 地 址 的 最 后 一 个 时 间 蕉 的 数据 返回 ， 而 忘记 了 这 
个 地 址 的 最 后 一 次 写 动作 其 实 是 直接 写 到 了 源 卷 了 ， 并 没有 RoW， 此 时 如 果 果真 返回 了 仓库 中 
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的 数据 而 不 是 源 卷 上 这 个 地 址 的 数据 , 则 会 对 上 层 应 用 造成 重大 影响 , 轻 则 数据 错乱 , 重 则 崩溃 ， 
这 是 绝对 不 容许 发 生 的 事情 。 

要 解决 也 不 难 ， 客 户 端 代理 在 让 这 个 写 IO 直接 写 到 源 卷 之 前 ， 先 做 一 下 记录 ， 这 份 记录 包 
含 所 有 在 IO 捕获 引擎 停止 之 后 发 生 的 , 并 且 服 务 端 仓库 中 包含 对 应 地 址 的 数据 的 写 IO 信息 , 这 
样 ， 上 层 写 完 之 后 再 发 起 读 这 个 地 址 的 请 求 的 时 候 ， 客 户 端 代理 程序 优先 查询 这 份 记录 ， 匹 配 则 
直接 将 IO 定向 到 源 卷 。 当 服务 端 IO 仓库 有 足够 剩余 空间 之 后 ，CDP 引擎 启动 ， 继 续 接受 RoW 
的 IO 数据 ,一 旦 有 某 个 IO 是 针对 这 份 新 记录 中 的 某 一 条 地 址 的 ， 则 客户 端 代 理 将 IO 打 入 时 间 
截 并 发 送 到 服务 端 仓库 之 后 ， 立 即将 这 条 地 址 从 记录 中 删除 ， 以 后 上 层 针对 这 个 地 址 的 读 IO 便 
会 再 次 被 重 定向 到 服务 端 仓库 里 对 应 这 个 地 址 的 最 后 一 个 时 间 戳 的 数据 。 

提示 : RoW 方式 流程 确实 够 复杂 够 变态 ， 所 以 , 本 模型 宣告 抛弃 这 种 方式 ,全 面 转向 CoW 

方式 , 大 家 可 以 自己 演绎 一 下 , CoW 方式 并 不 会 出 现 上 述 的 问题 , 这 里 就 不 再 具体 论述 了 。 

使 用 RoW 模式 的 情景 会 在 另 一 个 模型 中 介绍 ， 而 且 这 也 是 目前 主流 产品 都 在 使 用 的 模型 。 

6 ) 数据 恢复 /回溯 时 的 详细 步骤 阐述 (基于 CoW 方 式 ) 

(1) 周一 早晨 ， 管 理 员 对 这 个 卷 做 了 一 次 Snapshot。 周二 上 午 , 一 位 员工 小 糊 找 到 管理 员 说 
他 在 周一 下 班 的 时 候 ， 在 编辑 完 这 个 卷 上 保存 的 一 份 重要 文档 之 后 ， 竟 然 稀里糊涂 地 将 其 误 删 除 
了 ， 问 能 不 能 恢复 回来 。 管 理 员 说 ， 恢 复 太 困难 了 ， 得 耽误 很 长 时 间 ， 而 且 很 麻烦 。 小 糊 中 午 请 
管理 员 吃 了 顿 大 餐 。 

(2) 下 午 上 班 ， 管 理 员 首先 想到 了 用 Snapshot 做 恢复 ， 但 是 不 巧 ， 最 后 一 份 Snapshot 是 周 
一 早晨 做 的 , 而 那 老兄 在 周一 下 午 对 它 进行 了 编辑 , 所 以 这 个 Snapshot 并 不 包含 这 份 被 编辑 后 的 
文档 。 幸 好 ， 这 个 卷 正 受 到 CDP 的 保护 ， 就 让 时 光 来 倒流 吧 。 打 电话 询问 了 那 位 糊涂 兄 ， 得 知 编 
辑 完 之 后 大 概 是 周一 下 午 5 点 整 左右 ， 什 么 时 候 删 除 的 ， 他 也 不 知道 ， 他 只 知道 自己 是 5 点 半 下 
班 走 人 的 。 这 可 难为 管理 员 了 ， 不 知道 准确 时 间 的 话 ， 只 能 摸 着 石头 过 河 ， 用 二 分 法 吧 ， 看 来 中 
午 这 顿 饭 吃 对 了 。 

(3) 管理 员 打 开 文件 服务 器 上 的 CDP 客户 端 代理 配置 界面 ， 选 择 了 Rewind Wizard， 然 后 选 
中 要 时 光 倒 流 的 卷 ， 下 一 步 ， 出 现 一 个 滑动 条 ， 管 理 员 首先 将 滑 块 拖 动 到 周一 17 点 15 分 ， 也 就 
是 糊涂 兄 开始 编辑 到 下 班 走 人 这 期 间 的 中 点 。 然 后 单 击 Mount。 当 鼠标 单 击 Mount 的 一 刹那 ， 客 
户 端 代理 迅速 地 将 指令 发 送 给 了 CDP 服务 器 端 ， 告 知 本 代理 需要 提供 服务 ， 请 准备 一 下 相关 的 资 
源 , 缓存 Buffer 进程 线程 都 给 准备 好 , 不 得 总 慢 ! 服务 端 迅速 准备 好 ,然后 通知 代理 : 准备 好 了 ! 
代理 收 到 服务 端 反馈 后 ， 立 即 在 文件 服务 器 上 虚拟 出 一 个 新 卷 并 且 挂 载 到 一 个 盘 符 下 。 

(4) 管理 员 打 开 “ 我 的 电脑 ”， 出 现 了 一 个 新 磁盘 F 盘 ， 总 容量 与 受 保护 的 卷 一 样 ， 一 看 就 
知道 是 源 卷 在 周一 17 点 15 分 时 刻 的 虚拟 影像 了 ， 毫 不 犹 物 地 双击 进去 。 

(5 ) 客户 端 代理 没 想到 管理 员 手 竞 然 这 么 快 ， 刚 挂 载 上 就 要 双击 ， 本 来 想 软 一 阵子 看 来 不 行 
了 ,来 活 了 ! 谁 呀 , 一 看 是 文件 系统 老大 , 这 可 不 敢 总 慢 , 主机 上 的 红 人 啊 ! “ 文 兄 ， 有 何 指 示 ? ” 
代理 点 头 哈 腰 地 说 。“ 咽 ， 老 大 有 指示 ， 让 我 来 视察 一 下 F 区 大 堂 都 有 些 什么 人 儿 啊 ， 我 查 了 查 
地 图 ，F 区 大 堂 在 LBA1024 到 LBA2048 这 段 地 址 上 ， 你 给 我 跑 趟 腿 ， 去 看 看 然后 告诉 我 结果 。” 
代理 赶忙 先 问 了 问 CDP 服务 器 端 仓库 中 对 应 LBA1024 到 LBA2048 这 些 数据 块 的 各 自 链条 中 有 没有 
带 周一 17 点 15 分 的 戳 子 的 ， 有 的 话 全 部 给 发 过 来 。 得 到 CDP 服务 端的 答复 ，LBA1024 到 LBA1096 
有 ， 内 容 也 发 过 来 了 ， 但 是 LBA1097 到 LBA2048， 在 对 应 的 链条 中 没 找到 带 周一 17 点 15 分 改 子 
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的 。 代 理 一 下 明白 了 ， 既 然 对 应 这 个 惟 子 的 数据 不 在 CDP 服务 端 仓库 里 ， 那 一 定 就 在 原 处 了 ， 赶 
紧 去 了 趟 源 卷 ， 把 这 段 地 址 的 数据 也 拿 了 过 来 。 然 后 点 头 哈 腰 地 给 文件 系统 过 目 ， 文 件 系统 拿 到 
数据 后 ， 把 数据 给 了 管理 员 老大 。 

(6) (上 述 情 节 发 生 在 半 秒 钟 前 ) 管 理 员 双击 进去 之 后 , 看 到 其 中 有 个 目录 叫做 “难得 糊涂 ” ， 
想 都 没 想 ， 老 糊 的 那个 文档 一 定 就 在 这 里 面 了 ， 于 是 又 双击 进去 。 

(7 ) 文件 系统 喘 着 粗 气 又 来 到 代理 这 里 ， 上 气 不 接 下 气 地 说 : “竟然 又 让 老子 跑腿 ， 他 就 不 
会 一 次 到 位 么 ! 唉 我 说 ， 你 再 跑 个 腿 ， 老 大 让 我 再 看 看 F 区 下 面 的 难得 糊涂 楼 里 面 都 有 些 什 么 人 
儿 ， 我 查 了 查 , 在 地 址 LBA8192 到 LBA10240 这 段 上 。 ”代理 心 想 ， 你 这 不 也 在 让 我 跑腿 么 ,扯淡 。 
和 上 次 一 样 ， 把 对 应 的 数据 都 给 了 文件 系统 。 老 文 接 过 来 一 看 : “ 空 的 ? ”代理 扭捏 道 : “ 额 ……. 
我 可 看 不 懂 这 些 内 容 。 ” 老 文 一 皱眉 : “你 小 子 ， 骗 我 的 话 有 你 好 看 ! ” 

(8) (上 述 情 节 发 生 在 半 秒 前 ) 管理 员 打开 老 糊 的 这 个 目录 一 看 , 什么 都 没有 ,顿时 明白 了 : 
糊涂 兄 一 定 是 在 17 点 到 17 点 15 之 前 某 个 时 间 把 文档 给 删 了 。 太 背 了 ,还 得 再 用 一 次 。 管理 员 打 
开 代 理 程序 配置 界面 ， 选 中 已 经 Mount 的 虚拟 卷 ， 单 击 Unmount 将 其 卸载 。 之 后 又 打开 Rewind 
Wizard， 清 动 条 拖 到 17 点 07 分 ， 单 击 Mount， 然 后 “我 的 电脑 ”双击 进入 新 挂 载 的 虚拟 卷 ， 进 
入 糊涂 兄 目 录 ， 一 看 ， 很 好 ， 这 次 文档 出 现 了 ， 证 明 糊 涂 兄 一 定 是 在 17 点 07 分 到 17 点 15 分 之 
间 将 其 误 删除 的 。 但 是 07 分 的 这 份 文档 影像 并 不 见得 就 是 删除 前 最 后 的 影像 ,还 得 继续 找 。 定位 
到 17 点 11 分 ， 挂 载 ， 进 入 目录 ， 文 档 存 在 ; 定位 到 17 点 13 分 ， 进入， 文档 存在 ; 定位 到 17 
点 14 分 ， 进 入 ， 文 档 存在 ; 17 点 14 分 30 秒 ， 存 在 ; 14 分 45 秒 ， 存 在 ; 14 分 52 秒 ， 存 在 ; 14 
分 56 秒 ， 存 在 ; 14 分 58 秒 ， 存 在 ; 14 分 59 秒 ， 存 在 …… 噢 ， 小 样 儿 ， 你 挺 能 整 人 儿 啊 ,在 17 
点 14 分 59 秒 和 17 点 15 分 之 问 删除 的 ， 算 你 狠 ， 给 我 出 这 等 难题 。 看 我 的 ! 再 次 打开 滑动 条 ， 
傻眼 了 ， 最 小 单位 是 秒 ， 转 眼 一 看 ， 下 面 有 个 输入 框 ， 旁 边 还 写 着 “请 输入 时 间 点 ， 最 小 单位 ， 
毫秒 ”。 我 算 算 哈 ，1 秒 =1000 毫秒 ， 对 吧 ， 对 。 啊 ! ! ! 二 分 1000， 好 么 ， 谁 怕 谁 ….… 

(9) 文件 系统 跟 跟 踊 踊 来 找 代理 : “我 说 ， 老 兄 ， 大 爷 ， 帮 帮 有 我 …… 快 ， 老 大 发 疯 了 ， 快 去 
给 我 查 查 ……。” 

(10) (两 小 时 后 ) 下 午 下 班 前 ， 管 理 员 精 神 忱 恤 地 来 到 糊涂 兄 面 前 “你 小 子 ， 你 知道 我 
为 了 恢复 你 这 份 破 文档 ， 费 了 多 少 劲 么 ? 啊 ! ”。 糊 涂 兄 拿 过 文档 一 看 ， 一 点 数据 也 没 丢 ， 乐 呵 
呵 说 道 : “小 管 ， 辛 苦 了 啊 ! 会 有 补偿 地 一 一 ”。 管 理 员 一 慢 ， 只 听 背 后 Boss 走 过 来 : “呵呵 ， 
小 管 啊 ， 做 的 不 错 啊 ，CDP 用 得 很 熟练 了 ， 这 份 文 档 如 果 丢 失 ， 将 会 带 来 惨痛 损失 啊 ， 做 的 不 错 ， 
这 月 奖金 多 给 你 50%! ” 小 管 顿时 眼泪 哗 哗 …… 

7 ) 模型 改进 演绎 

细心 的 读者 可 能 已 经 发 现 了 ， 上 面 的 模型 存在 几 个 问题 。 一 是 ， 源 数据 卷 或 者 目录 中 没有 被 
写 覆 盖 的 文件 部 分 或 者 Block, 并 未 被 传送 至 CDP 服务 端 做 备份 , 而 只 是 将 被 覆盖 的 数据 ( CowW ) 
或 者 新 数据 (Row ) 传送 到 CDP 服务 器 。 如 果 被 保护 的 目录 或 者 卷 由 于 某 种 原因 整体 损坏 ,或 
者 整体 被 删除 , 则 CDP 服务 器 上 保存 的 IO 数据 就 会 变 得 无 用 。 虽 然 在 源 卷 或 者 源 目录 完好 的 情 
况 下 ,利用 CDP 可 以 回溯 到 之 前 的 任何 时 间 点 的 状态 , 但 是 由 于 没有 对 源 处 的 数据 进行 备份 ， 
所 以 并 没有 达到 严格 的 备份 和 保护 数据 的 作用 。 第 二 个 问题 , CDP 服务 器 与 客户 机 之 间 只 是 通过 
以 太 网 互联 ， 作 为 数据 存储 系统 的 IO 传输 通道 未 免 有 些 捉襟见肘 。 
基于 以 上 两 个 因素 考虑 , 我 们 把 这 个 模型 做 一 下 改进 , 改进 后 的 模型 拓扑 图 如 图 16-32 所 示 。 


531 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


532 


图 16-32 改进 后 的 模型 

上 图 中 ， 主 机 端 逻 辑 模块 没有 变化 ， 但 是 主 代理 模块 的 功能 有 变 ， 原 来 的 模型 中 ， 主 代理 模 
块 需要 在 恢复 的 过 程 中 负责 在 本 地 主机 虚拟 一 个 对 应 时 间 点 的 卷 影像 ， 并 负责 接收 这 个 卷 的 IO 
并 且 通 过 以 太 网 络 向 CDP 服务 端 引擎 发 起 查询 和 数据 传输 操作 。 新 模型 中 ， 这 个 工作 全 部 被 转 
移 给 了 CDP 服务 端的 虚拟 卷 映射 引擎 来 完成 ， 主 机 端 代理 模块 主要 负责 状态 监控 和 报告 以 及 提 
供用 户 配置 接口 ， 控 制 信息 的 传输 依然 通过 代理 模块 经 过 以 太 网 来 与 服务 端 通信 。 同 时 ， 我 们 可 
以 看 到 CDP 服务 器 在 新 模型 中 也 连接 了 FC 交换 机 ， 目 的 是 让 捕获 的 IO 通过 FC 网 络 而 不 是 以 
太 网 络 来 传输 ， 加 快速 度 。 

运行 在 CDP 服务 端 上 的 虚拟 卷 映 射 管理 引擎 的 作用 有 两 个 。 一 是 在 数据 持续 保护 期 间 ， 生 
成 并 通过 FC 通道 或 者 以 太 网 ISCSI 通道 向 主机 端 映射 一 个 与 源 卷 相同 容量 的 卷 空间 ，IO 捕获 层 
首先 将 源 卷 上 已 经 存在 的 数据 全 部 同步 到 新 映射 的 卷 , 完成 之 后 , 主机 端 针对 源 卷 的 每 个 上 层 IO 
便 会 都 镜像 一 份 ,同时 写 入 源 卷 和 CDP 服务 端 映射 过 来 的 卷 。 此 时 ， 这 个 块 IO 捕获 层 就 充当 了 
类 似 LVM 的 卷 管理 层 。CDP 服务 端 接收 到 每 个 写 IO 之 后 ， 打 入 时 间 戳 ， 并 将 服务 端的 镜像 郑 
中 等 待 被 覆盖 的 BLock 进行 CoW 操作 ， 复 制 至 IO 仓库 中 保存 。 

这 样 算 来 ，CDP 服务 端 所 需要 的 空间 等 于 源 卷 空间 再 加 上 IO 仓库 占用 的 额外 空间 ， 而 第 一 
个 模型 则 只 需要 IO 仓库 空间 。 虚 拟 卷 映射 引擎 的 第 二 个 作用 ， 便 是 在 回溯 恢复 的 过 程 中 提供 对 
应 时 间 点 的 源 卷 的 虚拟 影像 卷 ,也 就 是 提供 第 一 个 模型 中 客户 端 代理 在 恢复 过 程 中 所 执行 的 功能 。 
有 一 点 不 同 的 是 ， 第 一 个 模型 中 的 卷 是 完全 在 本 地 虚拟 ， 而 第 二 个 模型 中 的 卷 则 是 在 CDP 服务 
端 虚拟 的 ,通过 FC 通道 或 者 以 太 网 ISCSI 通道 映射 给 主机 ; 其 次 , 虚拟 卷 映 射 引擎 向 IO 仓库 管 
理 引擎 发 出 查询 等 通信 的 过 程 均 无 须 经 过 任何 外 部 网 络 , 直接 在 内 存 中 进行 , 与 第 一 个 模型 相 比 ， 
速度 和 效率 相对 提升 。 

上 述 均 以 卷 级 CDP 为 基础 , 对 于 文件 级 的 IO 过 滤 捕 获 , 还 是 通过 以 太 网 来 传递 比较 好 控制 ， 
如 果 非 要 将 文件 级 IO 数据 也 通过 FC 网 络 进行 传输 , 不 是 不 可 以 ,而 是 开发 起 来 相对 复杂 ,毕竟 
基于 以 太 网 的 TCPIP 是 比较 开放 和 成 熟 的 接口 。 而 SCSI Block 级 别 的 捕获 由 于 FC 协议 栈 已 经 提 
供 了 完善 的 FCP 层 支 持 ， 所 以 开发 起 来 相对 方便 。 

经 过 改进 之 后 的 模型 ,优点 是 达到 了 对 数据 全 部 保护 万 无 一 失 的 要 求 , 并 且 提 升 了 数据 传输 
速度 ， 而 且 降 低 了 主机 资源 的 耗费 。 不 足 则 是 CDP 服务 端 需要 比 源 卷 更 大 的 存储 空间 。 这 种 架 
构 还 能 够 实现 一 个 非常 实用 的 功能 ， 就 是 裸 机 恢复 。 比 如 ,用 CDP 来 保护 主机 操作 系统 所 在 的 
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磁盘 或 者 分 区 , 一 旦 某 时 刻 , 主机 操作 系统 崩溃 , 或 者 中 毒 已 深 , 或 者 一 些 重要 配置 比如 Domain 
配置 给 倒 腾 废 了 ， 如 果 没有 CDP 保护 ， 重 装 个 系统 加 上 应 用 程序 安装 配置 怎么 也 得 半天 时 间 ; 
有 了 CDP 保护 ， 就 大 不 相同 了 ， 此 时 在 CDP 服务 端 上 将 系统 源 卷 在 崩溃 前 某 时 间 点 的 一 份 可 写 
的 影像 通过 FC 通道 Map 给 这 台 主 机 的 FC 适 配 卡 的 WWPN 地 址 ,然后 主机 在 BIOS 中 设置 通过 
FC 卡 启动 ， 完 毕 后 重启 ， 即 可 从 CDP 服务 端的 这 份 虚拟 影像 卷 来 启动 操作 系统 ， 启 动 后 的 状态 
与 月 溃 之 前 完全 一 致 。 

操作 系统 启动 之 后 ， 通 过 配置 主机 代理 或 者 操作 系统 自身 的 卷 管理 软件 ， 将 当前 的 系统 盘 ， 
也 就 是 CDP 服务 器 上 的 虚拟 影像 ， 镜 像 回 本 地 系统 磁盘 ， 镜 像 同 步 完成 之 后 ， 重 新 启动 主机 。 
BIOS 设 为 本 地 硬盘 启动 ， 启 动 系统 之 后 ， 重 新 初始 化 CDP 引擎 ， 系 统 运行 如 初 。 这 整个 过 程 所 
耗费 的 时 间 很 得， 操作 熟练 的 话 ， 几 分 钟 之 内 就 能 将 一 台 崩 溃 的 主机 重新 启动 起 来 。 

8 ) 二 次 改进 模型 

IO 捕获 模块 运行 在 受 保护 的 主机 上 ， ee 定量 的 耗费 ， 尤 其 是 这 个 模块 处 
于 比较 低层 的 位 置 ， 处 理 IO, 延迟 是 首要 考虑 的 事情 ， 产生 瓶颈 的 话 ， 就 会 对 主机 整体 性 能 
产生 很 大 影响 。 应 该 考虑 将 其 移出 主机 内 部 ， nl 实现 对 IO 的 捕获 镜像 而 主机 客 
户 端 只 运行 一 个 主 代理 模块 即 可 , 用 于 监控 以 及 提供 配置 界面 而 且 用 于 Snapshot 管理 等 。 主机 IO 
ey ] 就 是 FC 交换 机 了 ， 如 果 可 以 在 交换 机 上 实现 一 种 类 似 端口 镜像 同时 又 比 简单 
镜像 更 智能 的 写 IO 镜像 的 话 ， 那 么 这 个 问题 也 就 解决 了 。 

幸好 ， FC 交换 机 生产 商 Cisco 和 Brocade 均 已 经 开发 了 这 个 功能 ， 分 别称 为 SANTap 
Service 和 Brocade Storage Application Services。 这 两 种 功能 在 原理 上 是 一 样 的 ， 只 不 过 分 别 由 两 家 
公司 各 自 开 发 。 其 基本 原理 是 : 通过 在 交换 机 上 运行 一 个 智能 的 IO 处 理 程序 ， 其 生成 一 个 或 者 
多 个 虚拟 的 Target LUN 和 虚拟 的 Initiator, 受 保护 的 主机 所 连接 的 LUN 其 实 是 这 个 虚拟 的 Target， 
这 样 主机 针对 源 LUN 的 写 IO 便 会 被 Virtual Target 截获 ， 然 后 通过 Virtual Initiator 将 这 份 写 IO 
同时 发 送 给 源 LUN 和 镜像 LUN， 镜 像 LUN 就 是 位 于 CDP 服务 器 端的 存储 空间 。CDP 服务 器 
需要 通过 FC 链 路 向 运行 在 交换 机 上 的 SANTap Service 或 者 Brocade Storage Application Services 注 
册 所 要 保护 的 源 LUN， 注 册 成 功 之 后 ， 写 IO 才能 持续 的 镜像 到 CDP LUN。 

如 图 16-33 所 示 为 Brocade 公司 两 款 支持 Brocade Storage Application Services 的 产品 。 


图 16-33 支持 BSAS 的 两 款 博 科 产品 
图 16-34 所 示 为 两 款 Cisco 公司 生产 的 支持 SANTap Service 的 产品 


< ~ 


图 16-34 支持 SANTap Service 的 思科 产品 
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二 次 改进 之 后 的 模型 拓扑 图 如 图 16-35 所 示 。 可 以 看 到 块 IO 捕获 虚拟 设备 已 经 不 再 捕获 FC 
SAN 上 的 磁盘 的 IO ， 而 只 负责 捕获 针对 本 地 磁盘 的 写 IO 了 。 文件 IO 过 滤 层 依然 存在 ， 因 为 需 
要 满足 文件 级 CDP 的 需求 。 


磁盘 阵列 


若 深 冰 避 站 二 
Wl 


Nl 
Wl 


FC 交换 机 支持 SANTap Service 或 者 Brocade Storage Application Services 
图 16-35 二 次 改进 模型 


4. CDP 所 面临 的 最 大 技术 难题 : 如 何 保证 时 序 一 致 性 


如 果 说 Snapshot 是 普通 照相 机 的 话 ，NearCDP ( 准 CDP ) 就 好 比 是 快速 连 拍照 相机 ，CDP 
则 是 带 移动 侦 测 功能 的 摄像 机 。CDP 之 所 以 能 够 比 Snapshot 的 回溯 粒度 更 细 ， 就 是 因为 Snapshot 
是 Copy on First Write， 在 Snapshot 做 成 之 后 被 覆盖 过 的 Block， 当 再 次 被 覆盖 的 时 候 ， 被 覆盖 的 
数据 就 不 会 再 被 Copy 出 来 了 ， 而 CDP 则 依然 会 Copy， 每 多 一 个 写 操作 就 会 多 占用 一 份额 外 的 
IO 仓库 空间 。 再 就 是 时 间 戳 ， 因 为 用 户 决定 CDP 恢复 的 时 候 只 会 给 出 要 恢复 的 时 间 点 的 数据 ， 
每 个 IO 数据 都 需要 记录 时 间 戳 , 恢复 的 时 候 根 据 时 间 戳 做 统计 。 而 Snapshot 并 不 对 每 个 IO 都 打 
入 时 间 改 信息 。 再 就 是 回溯 之 后 的 数据 一 致 性 问题 ， 这 个 非常 重要 ， 下 文 讨论 。 

1) CDP 和 Snapshot 数据 一 致 性 讨论 

对 这 个 话题 进行 论述 之 前 ， 先 介绍 一 下 所 谓 “ 数 据 一 致 性 ”。 举 例 说 明 什么 是 数据 一 致 性 : 
比如 有 某 个 程序 正在 运行 ， 它 的 工作 是 计算 1+1=2， 不 停 地 计算 ， 并 将 结果 以 “1+1=2” 的 字 串 
形式 记录 到 一 个 文件 中 ， 并 且 假 设 这 个 程序 在 记录 的 时 候 是 一 个 字 节 一 个 字 节 地 写 入 的 ， 比 如 先 
写 入 “1”， 接 着 是 “+”， 接着 “1”， 再 “=”， 然 后 “2”。 某 时 刻 ， 程 序 运算 这 个 加 法 完 
成 了 ,立即 开始 向 文件 中 写 入 记录 ， 当 刚 写 完 “=” 的 时 候 ， 存储 系统 触发 了 一 个 Snapshot， 谁 也 
没 通 知 ， 而 恰好 在 Snapshot 之 前 一 瞬间 ， 文 件 系 统 也 刚好 将 “=” 这 个 数据 成 功 写 到 了 磁盘 上 。 

在 这 份 Snapshot 中 , 对 应 这 个 程序 生成 的 文件 中 的 最 后 一 条 记录 将 会 是 这 样 的 “1+1=”, 这 
就 是 数据 不 一 致 的 表现 。 不 一 致 的 数据 会 带 来 什么 后 果 呢 ? 某 时 刻 ， 存 储 管 理 员 将 这 份 Snapshot 
影像 做 了 Restore, 重新 挂 载 了 该 卷 之 后 ,这 个 应 用 程序 启动 , 它 需 要 将 之 前 的 数据 结果 读 出 并 显 
示 到 显示 器 上 ， 当 它 逐 条 扫描 之 后 ,直到 最 后 一 条 它 发 现 竟然 只 有 等 式 的 左边 ,结果 没 了 。 此 时 ， 
根据 程序 的 设计 好 坏 会 做 出 对 应 的 反应 ， 如 果 由 于 某 些 bug 导致 设计 者 根本 没有 考虑 到 这 种 只 有 
左边 没有 右边 的 情况 , 很 有 可 能 造成 程序 出演 。 崩 演 还 算 负 责任 的 , 如 果 遇 到 不 负责 任 的 程序 员 ， 
不 管 三 七 二 十 一 ， 凡 是 遇 到 这 种 情况 ， 结 果 都 是 0， 那 就 毁 了 ， 自 己 玩 玩 还 行 ， 拿 到 桌面 上 搞 那 
可 是 要 出 大 事情 的 。 而 设计 良好 的 程序 ， 就 会 充分 考虑 每 一 个 细节 ， 比 如 一 旦 发 现 这 种 不 完整 的 
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算式 ， 立 即将 其 删 掉 ， 不 再 处 理 ， 并 且 报 出 具体 错误 。 后 者 又 称 为 一 致 性 检查 。 数 据 库 、 文 件 系 
统 均 有 这 种 机 制 。 所 以 , 直接 在 存储 设备 上 随机 生成 的 Snapshot, 多 数 时 候 都 是 不 一 致 的 , Restore 
之 后 一 般 都 要 经 过 一 层 层 的 一 致 性 检查 之 后 才能 最 终 被 应 用 程序 所 使 用 。 

还 有 一 点 很 重要 ， 即 “数据 一 致 性 ”和 “数据 丢失 ”的 关系 。 数 据 一 致 ， 并 不 代表 数据 没有 丢 
失 ， 而 数据 没 丢 失 并 不 代表 数据 就 是 一 致 的。 如 果 理 解 起 来 困难 ， 就 看 看 上 面 那个 例子 ， 最 后 一 条 
运算 的 结果 很 显然 在 那个 Snapshot 被 Restore 之 后 就 丢失 了 , 但 是 通过 程序 的 一 致 性 检查 过 程 之 后 ， 
不 完整 的 记录 被 删 掉 ， 此 时 数据 就 变 得 一 致 了 。 所 以 说 ,数据 一 致 并 不 代表 数据 没有 丢失 。 那 么 数 
据 没有 丢失 ， 是 否 就 代表 数据 一 定 一 致 呢 ? 非 也 ， 看 看 数据 库 系统 就 知道 了 ， 数 据 库 对 数据 文件 的 
每 一 笔 Update 都 会 记录 到 日 志 中 , 丢 不 掉 , 但 是 最 终 有 意义 的 却 是 每 笔 Transaction。 每 笔 Transaction 
又 由 多 笔 Update 形成 ， 只 有 当 最 后 一 笔 Update 完成 ， 并 且 应 用 程序 向 数据 库 提 起 Commit 请 求 ， 
数据 库 成 功 地 将 Commit 点 写 入 日 志文 件 ， 此 时 这 笔 Transaction 才 算 真正 完成 。 如 果 在 Commit 点 
被 写 入 日 志文 件 之 前 ， 系 统 Down 机 ， 虽 然 这 笔 Transaction 包含 的 每 一 笔 Update 都 还 在 ， 数 据 都 
没有 丢失 ， 但 是 Commit 点 不 存在 ， 此 时 数据 库 在 Replay 的 时 候 无 法 判断 这 些 Update 是 否 能 形成 
一 笔 完 整 的 Tmansacion， 所 以 此 时 ， 数 据 就 是 不 一 致 的 ， 这 些 Update 只 能 被 Undo 回 退 。 数 据 没有 
丢失 但 是 不 一 致 的 情况 是 比较 理想 的 情况 ， 通 过 Replay， 总 可 以 回溯 到 一 致 状态 。 


数据 丢失 


关于 数据 丢失 ， 这 里 还 需要 理解 一 点 上 文中 说 过 ， 存储 端 随机 生成 的 Snapshot 无 异 于 一 份 
系统 突然 掉 电 时 刻 硬盘 上 的 数据 影像 ,那么 有 人 问 了 , 系统 Down 机 的 情况 , 随时 随地 都 在 发 生 着 ， 
而 且 根据 上 面 的 例子 来 判断 ， 每 次 Down 机 都 很 有 可 能 丢失 些 数据 了 ? 这 个 问题 要 从 多 方面 来 看 ， 
不 仅 涉及 底层 数据 是 否 丢失 ， 最 重要 的 是 系统 后 端 与 前 端的 沟通 ， 以 及 终端 操作 员 的 判断 和 最 终 
人 为 的 介入 。 我 们 来 演绎 一 个 场景 。 

你 去 银行 提现 1 万 元 ， 把 银行 卡 交 给 操作 员 ， 操 作 员 首 先 需要 刷卡 调 出 你 的 信息 ， 然 后 会 输 
入 要 提取 的 数值 ， 然 后 会 单 击 提取 。 此 时 ， 这 个 动作 将 会 被 传送 至 应 用 服务 器 端 ， 应 用 程序 将 会 
在 你 当前 的 余额 上 减 掉 1 万 元 ， 然 后 将 更 新 的 数据 发 送 给 数据 库 服务 器 ， 命 令 数据 库 服务 器 更 新 
这 条 新 记录 ， 而 且 最 重要 的 一 步 是 需要 对 本 次 操作 进行 Commit， 也 就 是 提交 操作 。 只 有 Commit 
之 后 ， 数 据 库 服务 器 才 会 将 这 条 记录 写 入 日 志 永久 保存 于 磁盘 ， 而 且 是 同步 写 入 ， 不 允许 文 件 系 
统 将 数据 缓存 到 内 存 而 实际 却 不 写 入 硬盘 。 当 文件 系统 向 数据 库 返 回 写 入 成 功 的 消息 之 后 ， 数 据 
库 此 时 才 会 向 正在 等 待 Commit 结果 的 应 用 程序 返回 Commit 结束 ， 此 时 应 用 程序 便 知道 ， 记 录 百 
分 之 百 已 经 写 入 了 磁盘 ， 掉 电 也 不 会 丢失 数据 了 。 所 以 这 时 候 ， 操 作 员 终 端 机 上 才 会 提示 存 入 成 
功 ， 这 时 你 才 可 以 离 去 。 如 果 在 数据 库 成 功 向 日 志 中 写 入 了 Commit 点 ， 正 准备 向 应 用 程序 通告 
Commit 成 功 通知 之 前 ， 数 据 库 系统 Down 机 ， 此 时 操作 员 终端 机 长 时 间 没有 收 到 回应 之 后 将 提示 
通信 失败 ， 未 能 提现 .而 此 时 ， 数 据 库 确实 已 经 将 余额 减少 了 1 万 。 数 据 库 服务 器 重启 之 后 ， 系 
统 恢复 ， 操 作 员 重新 尝试 提现 1 万 元 的 操作 ， 而 此 时 操作 员 并 没有 关注 账户 中 的 余额 其 实 已 经 相 
对 刚才 减少 了 1 万 ， 这 次 提现 成 功 了 。 最 终 实际 情况 就 是 ， 你 只 拿 到 了 1 万 ， 而 系统 却 将 余额 减 
少 了 2 万 ， 你 损失 了 1 万 元 。 如 果 是 换 成 你 存款 1 万 元 ， 按 照 刚才 的 场景 演绎 ， 操 作 员 没有 关注 
余额 的 变化 ， 而 进行 了 两 次 重复 操作 ， 给 你 多 存 了 1 万 进去 。 

所 以 ,数据 一 致 性 问题 是 所 有 层次 都 要 关心 的 ( VM，FS，APP ) ， 而 数据 丢失 和 误 操作 ， 不 是 
数据 存储 层 或 者 数据 库 层 的 问题 ,而 是 一 种 沟通 问题 和 应 用 程序 设计 问题 ,同时 ， 也 是 最 重要 的 
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就 是 人 的 问题 。 如 果 操作 员 仔 细 一 点 ， 就 不 会 出 现 重复 操作 。 然 而 话 又 说 回来 ， 计 算 机 本 来 就 是 
用 来 帮助 人 来 实现 人 的 需求 的 ， 如 果 需 要 让 人 来 随时 监控 计算 机 所 做 的 事情 ， 如 果 每 一 笔 都 仔细 
核对 ， 那 没什么 问题 ， 但 终究 不 是 好 办 法 。 是 不 是 存在 人 也 无 法 探知 的 潜在 数据 丢失 呢 ? 很 有 可 
能 ， 一 笔记 录 丢 了 可 以 对 一 对 ， 如 果 底 层 某 个 数据 的 丢失 并 没有 通过 某 种 渠道 被 业务 层 感知 ， 或 
者 丢失 之 后 到 被 感知 的 时 间 过 长 以 至 于 业务 层 也 无 法 调查 了 ， 这 是 否 就 是 死 账 形成 的 原因 之 一 
呢 ? 答案 是 : 人 为 因素 + 系统 因素 。 

现在 , 我 们 对 比 一 下 Snapshot 和 CDP 的 数据 一 致 性 方面 。 先 说 说 Snapshot 的 一 致 性 。 比 如 ， 
摄影 师 给 你 拍照 之 前 ， 你 总 得 摆好 姿势 后 才能 拍 ， 也 就 是 说 你 预先 知道 你 要 被 拍 了 ， 已 经 摆 出 了 
最 佳 姿势 了 ， 此 时 应 保持 僵硬 的 笑容 不 许 动 、 不 许 奴 眼 ,摄影 师 按 下 快门 。 这 就 好 比 Application 
Aware Snapshot 和 FS Aware Snapshot， 即 能 够 感知 应 用 程序 和 文件 系统 对 数据 的 操作 此 时 已 经 
处 于 一 个 完整 一 致 的 状态 ， 缓 存 中 没有 留存 的 只 向 磁 栓 中 保存 了 一 半 结 果 数 据 的 运算 ， 此 时 立即 
对 底层 卷 触发 一 个 Snapshot， 此 时 的 卷 影像 上 的 数据 就 是 一 致 的 。 即 ， 用 这 个 Snapshot 进行 回 
济 /Restor 之 后 ， 应 用 程序 将 对 应 的 数据 读 出 之 后 ， 不 会 产生 异常 结果 。 

这 种 方式 需要 在 主机 端 安装 一 个 Agent 来 负责 将 主机 的 状态 告知 存储 系统 从 而 在 正确 的 时 机 
生成 Snapshot， 或 者 由 人 为 干预 ， 在 生成 Snapshot 之 前 将 应 用 程序 退出 或 者 静默 。 如 果 你 不 想 
受到 约束 ， 要 求 摄影 师 随机 拍照 ， 拍 完 之 后 再 一 张 一 张 挑选 姿势 恰好 的 ， 那 么 也 没有 问题 ， 这 就 
对 应 了 在 存储 端 随机 生成 Snapshot， 乱 放 枪 ， 打 着 赚 了 ， 打 不 着 也 不 浪费 什么 但 是 要 查看 哪个 
Snapshot 是 一 致 的 , 哪个 是 不 一 致 的 , 那 可 就 难 了 。Snapshot 毕 竞 不 是 可 以 拿 在 手中 端详 的 照片 ， 
除非 另外 部 署 一 套 应 用 系统 ,一 个 一 个 地 挂 载 Snapshot 卷 ,一 次 一 次 地 启动 应 用 程序 判断 ， 这 也 
属于 无 事 生 非 。 至 于 抓拍 偷拍 ， 目 前 的 存储 系统 可 没有 这 个 能 力 来 直接 感知 应 用 层 什么 时 候 处 于 
一 致 状态 ， 再 说 也 用 不 着 这 样 ， 做 个 Snapshot 还 得 藏 着 掖 着 不 让 人 知道 。 

再 来 说 说 CDP 的 一 致 性 。 看 照片 是 看 瞬间 的 姿势 ， 看 电影 则 是 看 情节 ， 电 影 的 情节 是 一 段 一 
段 的 ， 漏 下 一 段 没 看 的 话 ， 就 感觉 很 不 灾 了 。 此 时 你 需要 将 播放 器 的 滑动 条 往 回 拖 ， 拖 一 拖 ， 看 
一 看 ， 再 拖 一 拖 ， 再 看 一 看 ， 直 到 你 有 记忆 的 地 方 为 止 ， 接 着 往 下 看 。 这 个 场景 恰好 对 应 了 糊涂 
兄 让 小 管 恢复 数据 的 那个 场景 ， 小 管用 二 分 法 尝试 了 N 次 才 找 到 那 份 文档 的 最 后 时 间 点 的 影像 。 
但 即便 是 这 样 ， 我 们 仍然 无 法 确定 哪个 时 刻 的 影像 是 对 于 应 用 层 一 致 的 ， 因 为 底层 的 处 理 根 本 就 
无 法 感知 上 层 的 逻辑 ,除非 一 次 一 次 的 尝试 , 但 是 这 样 做 却 是 费时 费力 而 且 也 失去 了 CDP 的 意义 。 
所 以 说 ，CDP 虽然 在 回溯 时 间 粒 度 上 比 Snapshot 强大 ， 但 是 在 保证 数据 一 致 性 方面 ， 却 不 如 
Snapshot。 在 后 面 的 产品 介绍 章节 中 我 们 就 会 看 到 ， 存 储 产品 厂家 是 深刻 意识 到 这 一 点 的 ， 所 以 
它们 结合 了 CDP 和 Snapshot 的 优点 ， 将 二 者 整合 起 来 使 用 。 

利用 CDP 随机 回溯 到 任何 一 个 时 间 点 之 后 所 得 到 的 数据 影像 ， 很 大 几率 上 都 是 不 一 致 的 ， 
此 时 ， 影 像 被 挂 载 到 主机 端 之 后 ， 一 定 要 经 过 一 层 层 的 一 致 性 检查 。 一 致 性 检查 会 在 下 面 几 个 层 
次 上 依次 进行 : VM 卷 管理 层 , 文件 系统 层 ， 最 后 是 应 用 层 。 首 先是 VM 层 ，VM 是 一 个 程序 ， 
它 自身 需要 向 硬盘 上 写 入 MetaData 元 数据 用 以 记录 虚拟 换 和 物理 卷 地 址 的 映射 关系 , 如 果 这 些 数 
据 变 得 不 一 致 或 者 丢失 ， 轻 则 无 法 挂 载 ( 这 也 是 为 何 Down 机 经 常 导致 操作 系统 无 法 启动 或 者 不 
认 卷 、 无 法 挂 载 卷 的 原因 ) ， 重 则 卷 边界 错乱 以 假 乱 真 。 所 以 VM 在 挂 载 某 个 卷 之 前 一 定 要 对 其 
进行 数据 一 致 性 检查 。VM 层 之 上 是 文件 系统 层 , 与 VM 同样 的 道理 , 文件 系统 MetaData 同样 要 
经 过 一 致 性 检查 的 步骤 ,检查 完成 之 后 方 可 被 挂 载 。 最 后 就 是 应 用 层 了 ， 应 用 层 逻 辑 上 的 不 一 致 
只 能 够 靠 应 用 程序 自身 解决 。 在 一 层 层 一 致 性 检查 完成 之 后 ， 系 统 方 可 恢复 工作 。 
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2 ) 一 致 性 组 技术 

设想 这 样 一 个 应 用 程序 ， 它 需要 将 数据 存放 在 多 个 不 同 的 卷 中 ， 而 且 这 多 个 卷 中 的 数据 有 相 
互 依存 关系 ， 哪 个 卷 中 的 数据 发 生 不 一 致 或 者 丢失 ， 其 他 卷 中 的 数据 也 就 不 再 可 用 。 要 对 这 样 的 
环境 做 Snapshot 或 者 CDP 数据 保护 ， 需 要 考虑 额外 的 步骤 ， 即 必须 保持 这 多 个 卷 在 相同 的 时 刻 
同时 被 触发 APP&FS Aware Snapshot， 保 证 APP 和 FS 层面 的 一 臻 性。 那么 对 于 CDP 来 说 ， 由 于 
CDP 的 先天 优势 ， 即 IO 时 间 戳 ， 既 然 每 个 卷 的 IO 都 被 打 入 时 间 惟 ， 那 么 只 要 给 出 一 个 时 间 点 ， 
CDP 所 遍历 出 的 卷 影 像 , 其 上 的 IO 写 入 时 序 一 定 是 可 以 保证 严格 按照 时 间 的 行进 排列 的 。 比 如 ， 
T1 时刻 应 用 向 卷 1 写 入 了 数据 , 然后 T2 时 刻 又 向 卷 2 写 入 了 数据 , 当 用 CDP 恢复 卷 1 到 T1 时 
刻 之 后 ,， 卷 2 则 必须 也 恢复 到 T1 时 刻 。 虽 然 CDP 不 能 保证 任意 时 间 点 的 应 用 层 一 致 性 ,但 是 它 
起 码 可 以 保证 底层 的 一 致 性 ， 然 后 靠 应 用 的 Replay 过 程 来 完成 最 终 一 致 性 恢复 。 

一 致 性 组 技术 对 于 Snapshot 和 CDP 来 讲 其 实 并 不 需要 多 么 复杂 的 额外 设计 ， 只 需要 将 相互 
关联 的 多 个 卷 组 成 逻辑 组 , 做 Snapshot 的 时 候 保证 同时 触发 即 可 , CDP 则 更 是 无 须 做 什么 本 质 改 
变 ， 只 需要 在 程序 界面 中 告诉 操作 员 哪些 卷 在 一 个 组 中 即 可 。 

而 真正 需要 大 动 干戈 的 是 远程 异步 数据 复制 容 灾 系 统 ， 多 个 关联 卷 的 数据 一 致 性 问题 的 解决 
需要 引入 更 复杂 的 一 致 性 组 技术 。 在 DR 系统 中 ，“ 一 致 性 组 ”将 有 两 个 含义 ， 下 文 以 及 本 书后 
面 章节 会 详细 介绍 一 致 性 组 技术 的 细节 原理 。 

3 ) 关于 CDP 的 回溯 粒度 问题 的 论述 

不 少 人 认为 CDP 既然 连续 捕获 了 每 个 写 IO 并 且 打 入 时 间 惟 ,那么 CDP 的 回溯 粒度 最 小 可 
以 达到 一 个 IO 的 级 别 。 这 种 看 法 是 错误 的 ， 持 有 这 种 观点 的 人 忽略 了 一 个 问题 ， 即 时 间 的 最 小 
粒度 和 上 层 的 IOPS 数 。 本 书 第 3 章 中 的 3.1.3 小 节 中 曾经 得 到 结论 ， 即 时 间 是 没有 最 小 单位 的 ， 
在 目前 的 认 知 领域 中 可 以 认为 其 是 无 限 连续 的 。 

设想 这 样 一 种 情景 , 某 CDP 设备 所 接收 到 的 写 IOPS 为 每 秒 10000 次 , 也 就 是 说 平均 每 毫秒 
会 有 10 次 IO。 如 果 这 个 CDP 设备 的 恢复 粒度 可 以 达到 一 个 IO 的 级 别 ， 即 分 辨 出 这 1 毫秒 之 内 
发 生 的 所 有 IO 的 先后 顺序 , 那么 它 的 额定 时 间 戳 粒度 就 必须 至 少 设置 为 0.1 毫秒 级 别 。 如 果 收 到 
的 写 IOPS 每 秒 100 万 次 ( 当然 目前 现 有 存储 系统 可 以 达到 这 种 级 别 ，CDP 产品 就 更 别提 了 ， 这 
里 只 是 理论 推导 ) ， 则 要 达到 回溯 每 个 IO 的 粒度 ， 时 间 截 设 定 粒度 就 要 设置 为 微 秒 级 别 了 ， 以 
此 类 推 。 时 间 惟 粒度 越 细 ， 维 护 的 开销 就 要 越 大 ， 耗 费 资源 越 大 ， 效 率 也 就 越 低 。 但 是 如 果 非 要 
实现 单个 IO 级 别 的 区 分 ， 也 不 是 没有 办 法 ， 如 果 对 每 个 IO 标记 一 个 自然 数 序号 而 不 是 时 间 堆 ， 
那么 就 可 以 完全 分 开 每 个 IO 了 (这 种 方法 同样 可 以 用 于 容 灾 技 术 中 的 一 致 性 组 技术 中 ， 参 考 本 
书后 面 章节 ) 。 此 外 ，IO 序号 的 功能 不 仅仅 是 区 分 每 个 IO 先后 ， 而 且 它 的 另 一 个 重要 作用 则 是 
对 乱 序 接受 的 IO 进行 重 排 和 丢 包 监测 ( 见 容 灾 一 章 中 一 致 性 组 一 节 ) 。 由 于 数据 包 在 网 络 上 传 
输 的 时 候 有 可 能 是 乱 序 到 来 的 , 如果 将 乱 序 的 IO 按照 顺序 追加 到 CDP 日 志 链 未 尾 , 那么 所 保存 
的 IO 也 是 乱 序 的 ， 这 样 不 管 怎么 搞 都 不 可 能 做 到 时 序 一 致 。 

话 又 说 回来 ， 既然 CDP 随机 回溯 后 的 数据 一 致 性 本 来 就 几乎 不 可 能 保证 ， 没 有 人 能 够 判断 
在 哪 两 个 IO 之 间 切 开 时 数据 是 一 致 的 , 所 以 以 每 个 IO 为 回溯 粒度 , 不 仅 没有 必要 而 且 也 没有 意 
义 。 通 常 时 间 惟 粒度 设置 为 毫秒 级 别 已 经 足够 。 


注意 : 只 用 时 间 惟 而 不 使 用 自然 数 序号 来 标记 IO 的 情况 下 ， 不 能 够 保证 单个 IO 的 时 序 一 
致 性 ( 见 本 书后 面 章 节 对 一 致 性 组 技术 的 讨论 ) ,所 以 生成 的 LUN 影像 也 将 会 是 时 序 不 一 


537 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


538 


致 的 ， 而 这 种 不 一 致 是 最 严重 的 一 种 ， 可 以 导致 数据 库 类 应 用 程序 甚至 操作 系统 都 无 法 启 
动 。 所 以 , 一 个 CDP 系统 设计 是 否 考虑 了 数据 一 致 性 ， 是 非常 重要 的 考量 指标 。 所 以 ， 同 
时 使 用 序号 和 时 间 戳 才 是 解决 数据 时 序 一 致 性 错乱 的 有 效 方法 ,序号 用 于 区 分 单个 IO 的 时 
序 ， 时 间 改 则 只 用 来 定位 用 户 给 出 的 大 致 的 影像 时 间 点 。 


然而 ,即便 是 同时 使 用 时 间 惟 和 序号 也 只 能 够 保证 全 局 日 志 连 模式 ( 见 下 文 ) 的 CDP。 对 于 
每 个 块 均 对 应 一 个 日 志 链 的 CDP 系统 ， 由 于 块 与 块 之 间 的 日 志 链 之 间 互 相 独 立 ， 当 用 户 要 求 某 
时 间 点 的 卷 影像 的 时 候 : CDP 系统 就 需要 在 每 个 块 的 日 志 链 中 找到 用 户 所 要 求 的 这 个 时 间 点 所 对 
应 的 块 ， 此 时 问题 就 出 现 了 : 每 个 块 日 志 链 的 序号 如 果 都 各 自 计数 的 话 ， 那 么 就 无 法 分 状 块 与 块 
之 间 的 先后 顺序 了 ( 不 像 全 局 日 志 链 ) 。 此 时 的 解决 办 法 就 是 全 局 计数 ， 不 管 所 接收 到 的 IO 目 
标 是 哪个 块 ， 每 接收 到 一 个 IO 计数 器 就 加 1 并 且 将 序号 保留 在 对 应 块 的 日 志 链 中 。 

同时 使 用 IO 序号 和 时 间 惟 必定 会 耗费 不 少 资源 ， 为 了 提高 效率 ， 有 些 厂 商定 时 在 每 个 块 的 
日 志 链 中 做 标记 。 

理想 : 有 若干 条 豆腐 传送 带 ， 每 条 传送 带 上 接收 到 的 豆腐 速率 不 同 ， 形 状 也 不 同 ， 间 隔 也 

不 同 , 如 果 要 区 分 所 有 传送 带 上 的 所 有 豆腐 的 到 达 先 后 , 是 很 复杂 的 。 但 是 如 果 降 低 粒 度 ， 

比如 每 秒 记 录 一 次 ， 保 证 秒 与 秒 之 间 肯 定 是 先后 排列 的 ,但 是 一 秒 之 内 所 接收 的 豆腐 无 法 

分 辩 其 先后 顺序 ， 这 也 不 失 为 一 种 变通 方法 。 所 以 ， 在 这 些 传送 带 上 方 放 一 把 闸 刀 ， 每 秒 

切 下 一 次 ， 这 样 豆 腐 不 管 是 什么 形状 ， 以 什么 速率 到 达 ， 豆 腐 块 之 间 间 隔 多 少 ， 只 要 闻 刀 

一 落下 ， 所 有 传送 带 上 的 豆腐 此 时 都 被 定型 ， 每 秒 定 一 次 型 。 当 数据 回溯 的 时 候 ， 只 能 恢 

复 到 每 次 定型 的 时 候 。 这 个 思想 就 是 “一 致 性 组 ”的 思想 。 (一 致 性 组 的 具体 内 容 可 以 在 

容 灾 一 章 中 阅读 。 ) 


CDP 即便 是 从 理论 上 来 讲 ， 也 不 可 能 做 到 每 个 应 用 程序 的 写 IO 都 不 遗漏 。 因 为 有 缓存 机 制 
的 存储 系统 层 都 有 一 种 所 谓 Delay Write 的 机 制 , 比如 文件 系统 层 , 某 时 刻 应 用 程序 要 求 更 改 文件 
名 A 为 B， 这 个 要 求 被 文件 系统 收 到 ,文件 系统 会 读 出 这 个 文件 的 元 数据 ， 然 后 将 对 应 的 部 分 更 
改 。 但 是 更 改 之 后 的 dirty 数据 块 先 不 急于 写 入 磁盘 , 会 缓存 一 段 时间 , 一 旦 在 这 段 时 间 内 ,应 用 
程序 再 次 发 起 请 求 ， 要 求 将 B 青 改 为 C, 文件 系统 接收 到 请 求 之 后 会 发 现 这 个 文件 的 元 数据 所 对 
应 的 最 新 数据 块 已 经 在 缓存 中 的 某 个 dirty 块 中 ， 则 文件 系统 直接 再 次 更 改 这 个 dirty 块 使 其 二 次 
dirty， 直 到 文件 系统 将 dirty 块 写 盘 之 前 ， 任 何 再 次 的 更 改 请 求 都 会 直接 更 改 。 这 种 情景 为 “ 写 命 
中 ”的 一 种 情况 ( 其 他 情况 见 本 书后 面 章节 ) 。 这 样 ， 应 用 程序 的 多 次 写 IO 请 求 ， 在 底层 却 只 
表现 为 文件 系统 的 一 次 写 IO 请 求 , 如 果 CDP 是 作用 在 文件 系统 及 之 下 的 层次 , 那么 这 样 的 CDP 
系统 就 不 能 截获 每 个 应 用 层 的 IO 了 。 

能 做 到 真正 意义 的 应 用 层 一 致 性 保障 的 以 及 最 细 粒 度 的 CDP 其 实 就 是 基于 应 用 层 的 基于 
Transaction 日 志 链 记录 的 CDP 系统 , 每 一 笔 改变 都 不 会 丢掉 , 而且 占 用 存储 空间 少 , 只 不 过 针对 
应 用 层 的 CDP 需要 针对 每 个 应 用 来 开发 ,不 像 底层 CDP 一 样 具备 通用 性 。 在 此 是 否 可 以 大 胆 想 
象 一 下 : 今后 可 能 会 出 现 类 似 VSS 公共 快照 服务 一 样 的 公共 CDP 日 志 中 间 件 。 

通过 记录 日 志 的 方法 很 容易 做 到 一 致 性 保证 , 但 是 对 于 使 用 分 块 日 志 链 的 卷 级 的 CDP, 由 于 
为 了 保证 任意 历史 版 本 可 以 瞬间 挂 载 读 写 ， 不 可 能 采取 全 局 日 志 链 ( 见 下 文 ) 的 方式 ， 必 须 保 证 
每 个 块 的 历史 版 本 都 可 迅速 定位 寻 址 。 这 样 的 话 ， 如 何在 这 些 众多 的 块 日 志 链 中 迅速 地 抓 取出 一 
份 具有 时 序 一 致 性 的 块 链 出 来 ， 成 了 一 大 技术 难题 。 下 面 我 们 来 看 一 下 CDP 是 如 何 攻破 这 个 技 
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术 难 题 的 。 
4) 自演 绎 的 一 招 -一 疾风 铂 月 斩 
从 上 文中 的 “ 切 豆腐 ”思想 ， 作 自己 推演 出 了 一 个 保证 CDP 回溯 时 时 序 一 致 性 的 模型 。 
说 明 : 此 模型 完全 为 个 人 演绎 ,如 与 某 专利 或 者 厂商 实现 雷同 , 纯 属 巧合 , 请 勿 对 号 人 座 。 
在 如 图 16-36 所 示 的 二 维 象限 中 , 横 轴 是 8 
时 间 轴 , 纵 轴 上 的 每 个 点 代表 某 个 LUN 或 者 卷 
中 的 一 个 Block/Sector/Cluster， 具 体 粒 度 是 块 / 。 ss. 
签 还 是 肩 区 可 以 人 为 选择 ,一 般 使 用 Block 作为 。 。 
Bu 
世 


最 小 单位 。 这 里 只 示意 了 8 个 块 ， 并 不 表示 实 
际 情 况 。 

在 没有 引入 CDP 之前, 这 个 LUN 是 没有 
时 间 轴 的 , 此 时 整个 LUN 就 是 一 个 线性 的 由 所 
有 Block 所 串 起 来 的 一 维 直 线 , 不 可 回溯 。 当 引入 CDP 后 , 时 间 轴 被 拉 开 , 将 一 维 直线 拉 成 了 二 
维 的 平面 ， 这 个 平面 就 是 图 16-36 所 示 的 二 维 象限 。 这 个 象限 中 的 每 个 点 B ( Tn,Bn ) 表示 卷 中 
对 应 的 Block 在 某 时 刻 的 内 容 , 这 个 象限 的 本 质 其 实 就 是 一 个 CDP 分 块 日 志 链 。 每 个 块 每 次 的 写 
IO 内 容 都 被 记录 了 下 来 , 每 个 块 在 每 个 时 间 点 都 有 它 对 应 的 内 容 。T0 时 刻 表示 CDP 引 掌 启动 之 
后 对 应 的 卷 影 像 时 刻 , 即 尚未 有 任何 变化 的 时 刻 , Tw 时 刻 表示 当前 最 新 时 刻 。 采 用 Cow 模式 的 
CDP 系统 中 , 当前 时 刻 的 源 卷 影像 就 是 最 新 的 卷 影像 。Tn 表示 任何 一 个 介 于 TO 和 当前 时 刻 之 间 
的 时 刻 ， 即 任 一 历史 时 刻 。 

F 这 个 函数 关系 没有 规律 可 循 ， 因 为 IO 顺序 、 间 隔 都 是 无 规律 可 循 的 。 正 因 如 此 ， 可 以 看 
到 所 有 块 日 志 链 中 的 历史 块 的 存在 形式 是 凌乱 而 没有 规律 的 ， 除了 To 时刻 的 块 纵向 链 之 外 。 因 
为 T0 时 刻 是 一 个 确定 的 时 刻 ，CDP 系统 做 好 准备 接收 卷 IO 的 那 一 刻 ， 就 是 T0 时 刻 。 但 是 随后 
的 时 间 中 ，IO 可 以 在 任意 时 间 点 到 达 任 意 块 ， 所 以 从 T0 之 后 就 再 也 没有 规律 可 循 。 只 要 对 应 的 
块 有 写 IO， 那 么 第 一 个 被 Cow 出 来 的 块 就 是 TO 时 刻 的 历史 块 ， 所 以 可 以 看 到 这 个 时 刻 的 纵向 
块 链 是 整齐 排列 的 。 另外， 由 于 B3 这 个 块 从 未 被 修改 过 ,所 以 它 的 日 志 链 为 空 ， 当 前 的 B3 块 的 
内 容 等 于 T0 时 刻 的 B3 内 容 。 

上 文中 多 次 说 过 ， 面 对 高 IOPS 数 的 情况 下 ， 系 统 可 能 对 一 个 块 日 志 链 中 先后 来 到 的 多 个 其 
至 上 干 个 被 CoW 出 来 的 历史 块 打 入 同一 个 时 间 戳 ( 或 者 使 用 时 间 戳 + 全 局 序号 法 来 避免 这 个 问 
题 ， 但 是 消耗 资源 太 大 ) ， 那 么 此 时 整个 系统 就 不 可 能 分 辨 出 纵向 的 块 与 块 之 间 的 时 序 先后 性 了 
(横向 依然 可 以 分 辨 , 但 是 没有 意义 ) 。 上 文 也 提 到 过 , 解决 这 个 问题 的 一 个 变通 方法 就 是 定时 地 
在 所 有 块 日 志 链 中 做 标记 以 划 清 时 间 线 。 

那么 大 家 来 看 一 下 ， 何 时 、 何 地 、 怎 么 来 做 标记 呢 ?” 如 果 这 个 做 标记 的 动作 发 生 在 后 台 ， 即 
前 台 源源 不 断 地 将 历史 块 存 入 日 志 链 之 后 再 做 标记 的 话 ， 一 定 行 不 通 ， 因 为 此 时 你 已 经 无 法 分 清 
到 底 该 在 哪 两 个 块 之 间 切 开 了 ， 具 有 相同 时 间 戳 的 块 随处 可 见 ， 此 时 再 做 标记 已 经 晚 了 。 那 就 只 
能 在 前 台 做 标记 ， 也 就 是 说 在 被 CoW 出 来 的 历史 块 尚未 写 到 日 志 链 之 前 ， 用 一 把 闻 刀 纵向 地 在 
所 有 块 日 志 链 上 挥 斩 一 下 ， 被 斩 到 的 块 便 被 做 上 对 应 时 刻 的 标记 ， 之 后 这 些 已 经 标记 的 块 便 被 写 
入 对 应 的 日 志 链 。 以 不 同 的 频率 挥 刀 抢 斩 ， 就 可 以 做 到 不 同 粒度 的 CDP 回溯 。 

我 们 假设 Cow 出 来 的 块 会 按照 图 示 的 顺序 和 间隔 到 达 , 如 图 16-37 所 示 。Ta 时 刻 系 统 做 了 


图 16-36 疾风 铂 月 斩 关 系 模 型 
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一 次 斩 断 ( 对 应 到 专业 说 法 是 “采集 ”或 
者 “采样 ”) ,其 中 B0、B2、B7 这 三 个 日 
志 链 都 斩 中 了 块 ， 而 剩余 的 日 志 链 斩 空 。 
对 于 斩 中 的 块 ， 系 统 对 其 做 时 间 线 标记 然 
后 追加 到 日 志 链 未 尾 。 对 于 斩 空 的 日 志 链 ， 
可 以 认为 当前 时 间 点 对 应 的 块 内 容 与 本 日 
志 链 下 一 个 即将 到 来 的 块 相同 ， 此 时 系统 
可 以 沿 着 日 志 链 的 上 游 方向 监测 ， 如 果 在 
线程 监测 的 时 间 段 内 恰好 有 刚 被 Cow 出 
来 的 块 准备 存 入 该 日 志 链 ， 则 线程 将 其 标记 纳入 本 次 斩 断 的 时 间 线 ; 如 果 在 监测 时 间 段 内 没有 新 
块 被 追加 到 该 日 志 链 ,那么 线程 需要 从 源 卷 将 对 应 的 块 内 容 读 出 ( 注意 读 取 对 应 的 块 时 需要 考虑 
线程 竞争 互 斥 ， 必 须 锁 定 该 块 防止 新 数据 将 其 覆盖 ) ， 然 后 做 标记 纳入 本 次 时 间 线 ， 然 后 追加 到 
日 志 链 末尾 存放 。 

然而 ,对 于 那些 更 新 频率 很 小 的 源 卷 块 来 讲 ,每 次 斩 断 均 需 要 读 取 源 卷 , 每 次 读 出 的 内 容 都 
相同 ， 除 非 对 应 块 被 更 改 ， 这 样 的 话 日 志 链 中 将 会 有 很 多 元 余数 据 并 且 耗 费 额外 的 读 操作 。 对 于 
这 个 问题 , 可 以 使 用 另外 的 方法 来 解决 , 比如 对 每 个 由 于 斩 空 而 从 源 卷 读 出 并 追加 到 日 志 链 的 块 ， 
除了 做 时 间 线 标记 之 外 ， 再 做 一 个 特殊 标记 来 表明 它 的 特殊 性 ， 这 样 ， 当 下 一 次 斩 断 时 刻 到 来 的 
时 候 ， 系 统 检查 日 志 链 末尾 ， 如 果 末 尾 的 块 被 标记 为 这 种 特殊 块 ， 那 么 系统 只 需要 完成 日 志 链 上 
游 巡 检 ( 其 实 就 是 向 Cow 线程 进行 查询 ) 阶 段 即 可 。 如 果 巡 检 完 成 之 后 未 发 现 已 被 CoW 出 的 块 ， 
那么 本 次 斩 断 时 间 线 可 以 直接 指向 日 志 链 未 尾 的 那个 块 而 无 须 再 次 复制 ， 节 约 了 资源 。 

在 图 16-37 中 , 标记 为 C 的 块 意味 着 此 块 是 从 当前 的 源 卷 中 复制 出 来 的 , 可 以 看 到 由 于 B3、 
B4、B5 这 三 条 日 志 链 在 挥 刀 抢 斩 的 时 刻 并 没有 Cow 出 的 块 到 来 ， 所 以 Ta 时 刻 对 应 的 块 的 内 容 
就 是 源 卷 对 应 块 的 内 容 ， 因 此 系统 从 源 卷 将 这 三 个 块 读 了 出 来 追加 到 日 志 链 未 尾 存放 并 做 时 间 线 
标记 和 特殊 标记 。 被 标记 为 W 的 块 表示 相关 线程 沿 日 志 链 上 游 方 向 巡查 时 一 定 会 遇 到 该 块 , 所 以 
系统 会 等 待 ( W ) 该 块 的 到 来 ， 届 时 会 将 其 作 时 间 线 标记 ( 不 做 特殊 标记 ) 。 这 里 的 所 谓 “ 等 待 
其 实 并 不 是 真正 的 去 等 待 ,而 是 采样 线程 主动 地 查询 CoW 线程 去 探测 是 否 已 经 有 CoW 出 的 块 正 
等 待 写 入 日 志 链 ， 如 果 有 则 去 获取 ， 没 有 则 按照 上 文 所 述 的 逻辑 继续 处 理 。 

依 此 类 推 , 在 Ta+b 和 Ta+c 时 刻 ， 系 统 又 做 了 两 次 斩 断 。 可 以 看 到 ，B3、B4、B5 三 个 块 被 
公用 了 ， 节 约 了 IO 资源 ， 如 图 16-38 所 示 。 

我 们 对 图 16-38 做 一 些 抽象 工作 。 对 于 每 个 时 间 线 ， 沿 着 时 间 线 所 跨越 的 块 的 右边 界 划 线 ， 
如 图 16-39 所 示 。 


图 16-37 Ta 时 刻 挥 刀 抢 斩 
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图 16-39“ 划 定时 间 线 


第 16 章 未雨绸缪 一 数据 保护 和 备份 技术 @ 


然后 ， 将 凡是 右边 界 不 贴 线 的 所 有 块 进 行 铁 空 ， 剔 除 它 们 ， 只 留 下 被 时 间 线 跨越 的 块 ， 如 
图 16-40 所 示 。 

然后 我 们 再 将 被 时 间 线 所 跨越 的 块 也 全 部 删 掉 ， 如 图 16-41 所 示 。 这 样 ， 这 个 象限 中 只 剩 下 
了 我 们 所 画 的 线条 。 可 以 将 这 个 线条 称 做 “回溯 线 ”。 只 有 右 侧 边 紧 邻 回溯 线 的 块 才 可 以 被 回溯 ， 
也 就 是 图 16-40 中 所 包含 的 那些 块 。 
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图 16-40 镁 空 不 可 回潮 的 块 图 16-41 回溯 线 

回溯 线 是 纵向 延伸 、 横 向 上 有 所 浮动 的 线 ， 理 想 情 况 下 ,每 次 斩 断 所 生成 的 回溯 线 不 交叉 不 
重合 ,便于 分 辨 ,但 是 一 旦 遇 到 共享 块 ， 那 么 多 条 回溯 线 便 会 有 所 重合 和 交叉 。 回 溯 线 是 在 纵向 
方向 上 将 这 一 时 间 点 的 所 有 块 的 内 容 连接 成 为 一 个 完整 的 卷 影像 的 脉络 线 。 如 果 利 用 快刀 斩 乱 麻 
的 方式 来 鲁莽 地 将 日 志 链 切 分 ， 那么 得 到 的 虽然 是 个 光滑 表面 ,但 是 这 个 光滑 的 表面 是 毫 无 用 处 
的 ， 不 能 保证 时 序 一 致 性 ， 而 利用 疾风 铁 月 斩 所 生成 的 虽然 是 一 条 曲 多 拐弯 的 坑 洼 表 面 ， 但 是 依 
附 在 这 个 表面 上 的 数据 块 都 是 带 有 时 序 一 致 性 的 。 

每 次 进行 回溯 的 时 候 ， 系统 会 根据 用 户 所 指定 的 时 间 点 来 寻找 系统 中 离 用 户 给 出 的 时 间 点 最 
为 接近 的 斩 断 点 ， 然 后 将 数据 回溯 到 此 处 ， 这 样 即 可 保证 整个 卷 所 有 块 之 间 的 时 序 一 致 性 了 。 

另外 ,本 招 之 所 以 被 称 为 “疾风 铁 月 斩 ”,， 不 但 是 因为 其 像 疾 风 一 样 迅 速 ， 而 且 还 因为 它 可 
以 将 日 志 链 中 不 可 回溯 的 无 用 块 剔除 掉 以 节省 空间 。 

5 ) 改进 之 后 的 招式 一 一 迅雷 幻影 手 

疾风 铁 月 斩 在 斩 断 点 之 间 保 存 了 大 量 的 无 用 历史 块 ， 写 入 这 些 块 需要 耗费 额外 的 IO 资源 。 
与 其 先 写 入 再 铁 空 ， 为 何不 干脆 就 不 要 将 这 些 明 知 后 来 将 要 被 铁 空 掉 的 块 写 到 日 志 链 中 呢 ? 

思考 : 想象 一 下 ， 有 成 千 上 万 串 的 IO0 在 不 断 的 下 落 ， 速度 非常 快 ， 此 时 有 一 只 手 ， 它 能 

够 以 迅雷 不 及 掩 耳 的 速度 将 某 个 时 间 点 的 某 个 固定 横向 方向 上 的 正在 下 落 的 IO 抓 取出 来 ， 

没 被 抓 取 的 IO 块 随后 就 被 潭 灭 了 ， 只 保留 那些 被 抓 取 出 来 的 块 。 

是 的 ,在 疾风 铁 月 斩 一 招 中 ， 负 责 斩 断 的 线程 和 负责 写 日 志 的 线程 之 间 沟 通 的 不 够 ， 导 致 效 
率 低下 。 如 果 让 斩 断 线程 作用 于 写 日 志 线 程 之 前 ,日 志 写 线程 只 写 入 那些 被 保留 的 数据 块 并 且 做 
相应 标记 ， 这 样 就 可 以 大 大 提高 效率 。 

且慢 ! 仔细 考虑 考虑 。 如 果 这 样 做 的 话 ， 那 么 在 两 次 采样 的 间隙 中 所 发 生 的 更 改 块 就 不 会 被 
保留 ， 可 能 在 某 个 采样 间隙 之 中 ， 某 个 块 已 经 有 了 多 次 更 改 ， 而 都 没有 被 记录 下 来 。 这 样 ， 当 下 
一 次 采样 点 时 ， 如 果 恰 巧 没 有 采 到 针对 这 个 块 的 更 新 块 ， 而 上 一 次 采样 时 的 块 是 从 源 卷 复制 而 来 
的 ， 那 么 本 次 采样 依然 会 将 回溯 线 贴 附 到 日 志 链 结尾 的 上 一 次 采样 点 对 应 的 块 中 。 而 这 样 显然 是 
错误 的 ， 因 为 这 个 块 在 之 前 的 间隙 中 已 经 有 了 多 次 更 新 ， 而 晚 于 这 些 更 新 时 间 点 的 采样 却 错误 地 


541 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


542 


认为 采样 点 对 应 的 块 与 上 次 采样 相同 。 

所 以 ， 迅 雷 幻 影 手 这 一 招 ， 用 不 得 ! 只 能 先 留 底 ， 所 有 IO 一 个 都 不 能 少 ， 后 删除 ， 后 台 处 
理 ， 先 斩 后 奏 ! 

6 ) 一 次 修炼 之 后 的 新 套路 

之 前 的 招 法 都 是 基于 CoW 模式 来 设计 的 ，CDP 服务 端 不 停 的 CoW， 这 样 的 话 如 何 保证 性 
能 ? 由 于 产生 额外 的 2 倍 写 惩罚 , 相当 于 IOPS 和 带宽 耗费 变 为 不 启动 CDP 时 的 3 倍 ! 这 怎么 可 
以 让 人 接受 呢 ? 必须 无 条 件 转向 RoW 模式 ， 有 再 大 的 技术 难题 ， 也 要 攻克 ! 我 们 之 前 曾经 讨论 
过 CoW 与 RoW 方式 的 对 比 , RoW 耗费 IO 资源 , 但 是 后 续 的 所 有 访问 会 一 直 持续 地 计算 资源 ， 
但 是 这 个 结论 对 于 CDP 环境 就 不 成 立 了 ,主机 发 起 的 读 操 作 不 会 落 到 CDP 镜像 卷 上 ， 而 是 落 在 
了 源 卷 ， 这 样 根本 不 需要 CDP 来 处 理 什么。 既然 这 样 ， 如 果 在 CDP 环境 下 使 用 Row 模式 ， 那 
么 将 不 会 影响 到 主机 IO。RoWw 模式 虽然 不 适合 大 部 分 快照 设计 ， 但 却 非常 适合 CDP 设计 ! 

此 外 ， 可 以 看 到 在 疾风 铁 月 斩 招 法 中 ， 首 次 采样 时 如 果 遇 到 某 个 块 从 来 没 被 CoW 过 ， 那 么 
需要 从 镜像 卷 中 将 其 复制 出 来 放 到 日 志 链 中 ， 而 第 一 次 采样 时 基本 上 大 部 分 的 块 都 是 尚未 被 覆盖 
过 的 ， 那 岂 不 是 等 于 需要 复制 出 镜像 卷 中 大 部 分 的 数据 块 到 日 志 链 中 ? 几乎 等 于 再 将 镜像 卷 又 镜 
像 了 一 份 ! 在 首次 采样 的 短 短 时 间 之 内 需要 做 这 么 大 量 的 事情 ， 从 空间 和 性 能 上 都 不 能 接受 ， 是 
否 可 以 只 用 指针 来 指向 镜像 卷 对 应 的 块 地 址 呢 ? 其 实 ， 首 次 复制 这 个 动作 是 有 苦 圳 的 。 

试想 一 下 ,一 旦 CDP 引擎 (Cow 或 者 Row 引擎 ) 发 生 故 障 ， 中 断 工作 ， 而 源 卷 可 不 管 你 
CDP 是 否 故障 ， 它 还 是 在 不 断 地 被 写 入 。 

那么 此 时 有 两 种 处 理 办 法 。 第 一 种 处 理 方式 是 主机 端的 IO 镜像 器 停止 向 CDP 服务 端 发 送 IO 
数据 ， 等 CDP 恢复 之 后 再 次 发 送 ， 如 果 这 样 的 话 ， 从 故障 到 恢复 这 期 间 的 数据 变化 就 无 法 被 同 
步 到 CDP 上 的 镜像 卷 了 7。 就算 CDP 恢复 之 后 ， 再 次 采样 ， 那 么 所 生成 的 历史 时 刻 影 像 就 是 不 一 
致 的 ,因为 缺失 了 一 段 历史 , 在 采集 之 前 必须 补 回来 才 可 以 。 解 决 这 个 问题 的 办 法 是 在 主机 端 IO 
镜像 器 设计 一 个 位 图 用 于 追踪 断 开 与 恢复 之 间 的 数据 变化 ， 当 恢复 之 后 ， 首 先 利 用 这 个 追踪 位 图 
将 这 些 变化 的 块 不 断 地 传送 到 CDP 端 覆 盖 到 镜像 卷 ， 同 时 不 断 地 记录 正在 发 生 的 源 卷 改变 ， 之 
后 不 断 地 追赶 ， 最 终 达 到 收 玖 状态 ， 双 方 严格 同步 ， 然 后 再 启动 采样 进程 开始 采样 。 但 是 恢复 之 
后 的 采样 进程 在 首次 采样 时 也 依然 需要 将 镜像 卷 中 对 应 的 块 复制 出 来 放 到 日 志 链 中 ， 这 又 会 占用 
大 量 的 存储 空间 。 


提示 : 这 样 做 的 好 处 是 : CDP 故障 之 前 的 历史 版 本 都 还 可 用 ， 因 为 当时 首次 采样 时 做 了 复 
制 留 底 而 不 是 用 指针 指向 镜像 卷 ， 所 以 ，CDP 故障 期 间 所 丢失 的 历史 时 刻 数据 仅仅 是 故障 
到 恢复 期 间 这 有 段 时 间 的 历史 。 所 以 ， 如果 首次 采样 时 只 用 指针 指向 镜像 卷 对 应 的 块 ， 那 么 
当 镜 像 卷 上 的 某 些 块 发 生 覆 盖 的 时 候 ， 指 针 就 无 效 了 ， 之 前 的 历史 版 本 数据 也 就 都 随 之 潭 
灭 了 。 


第 二 种 处 理 方式 是 : 当 CDP 引擎 发 生 故 障 时 ， 主 机 端 IO 镜像 器 依然 源源 不 断 地 将 写 IO 发 
送 过 来 ， 此 时 这 些 IO 会 直接 覆盖 镜像 卷 上 对 应 的 块 ， 因 为 此 时 由 于 CDP 故障 而 做 不 了 拷 出 或 者 
重 定向 动作 了 ， 如 果 当 初 没有 首次 采样 复制 而 只 是 用 了 指针 ， 那 么 之 前 的 指针 与 现在 的 实际 数据 
的 时 序 一 致 性 将 无 法 得 到 保证 了 ， 因 为 镜像 卷 已 经 受到 了 “污染 ”。 所 以 ， 之 前 所 有 的 历史 版 本 
数据 此 时 也 同样 都 将 不 再 可 用 。 
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如 果 使 用 指针 ， 那 么 故障 之 后 当 CDP 引擎 恢复 时 ， 就 必须 从 头 开始 ， 之 前 所 有 保存 的 历史 
数据 版 本 都 不 可 用 。 而 如 果 首 次 采样 时 复制 一 份 基线 版 本 出 来 ， 那 么 就 算 CDP 引擎 暂时 停止 工 
作 ， 也 只 是 导致 从 停止 那 一 刻 到 恢复 那 一 刻 起 这 之 间 的 历史 时 刻 不 可 回溯 ， 再 往 前 或 者 再 往 后 的 
版 本 都 可 以 回溯 。 另 外 ， 不 管用 指针 还 是 首次 复制 方式 ， 当 CDP 引擎 恢复 之 后 ， 需 要 以 当前 时 
刻 的 镜像 卷 为 基线 版 本 重新 开始 采样 ， 这 也 就 意味 着 不 能 与 之 前 首次 复制 的 块 公 用 了 。 这 样 做 显 
然 是 非常 浪费 空间 的 ， 可 以 估算 日 志 卷 至 少 是 源 卷 的 一 倍 大 小 ， 这 是 至 少 。 要 真正 跑 起 来 ， 恐 怕 
得 1.5 倍 而 且 还 得 期 望 CDP 引擎 不 要 中 断 , 中 断 了 再 恢复 如 果 还 想 保留 以 前 的 历史 版 本 的 话 那 就 
得 2 倍 起 了 。 

鉴于 首次 复制 方式 太 过 浪费 空间 ， 也 无 法 让 人 承受 ， 只 好 退 而 求 其 次 ， 一旦 CDP 故障 或 者 
中 断 ， 那 么 在 CDP 恢复 之 前 ， 用 户 可 以 选择 将 某 几 个 关键 时 间 点 的 数据 影像 备份 下 来 ， 然 后 再 
恢复 CDP 运行 。 恢 复 之 后 ， 所 有 历史 版 本 数据 将 被 删除 重 来 ， 但 是 CDP 服务 端的 镜像 卷 可 以 保 
留 ， 主 机 端的 IO 镜像 器 可 以 在 CDP 
中 断 工作 期 间 记录 变更 位 图 , 当 CDP 
再 次 启动 之 后 , 主机 端 可 以 只 将 变更 
的 块 再 次 同步 过 来 即 可 。 

经 过 上 面 两 层 的 修炼 之 后 , 我 们 
有 了 结论 : 必须 使 用 Row 方式 ， 必 
须 抛弃 首次 复制 的 做 法 ， 改 用 指针 。 
我 们 下 面 看 一 下 RowW+ 首 次 指针 模 
式 下 CDP 引 敬 的 工作 流程 。 

如 图 16-42 所 示 为 RoW+ 无 首 
次 复制 模式 下 采样 示意 图 。 


en 从 王 避 和 吏 志保 
DP 引 擎 开始 采集 瞬间 的 基线 版 本 。 国 己 确 认 需要 等 待 采集 的 块 


T0 时 刻 的 块 链 ( 卷 ) ， 也 就 是 后 续 的 每 一 个 RoW 块 版 本 国 被 多 个 采样 点 共享 的 块 
图 中 所 示 的 CDP 引擎 开始 采集 的 那 图 16-42 RoW+ 无 首次 复制 模式 下 采样 示意 图 


一 瞬间 的 基线 卷 版 本 。 当 采集 尚未 开 

始 时 ， 所 有 对 这 个 卷 的 更 新 会 直接 覆盖 于 其 上 ， 不 产生 RoW 动作 。 一 旦 采集 线程 开始 工作 时 ， 
那 一 瞬间 的 卷 版 本 即 被 冻 住 ， 随 后 针对 这 个 卷 任 何 块 的 更 改 内 容 均 被 RoW 追加 到 每 个 块 的 日 志 
链 中 。 每 隔 一 段 时 间 ， 采 样 线程 触发 采样 。 

T1 时 刻 触发 一 个 采样 点 ， 采 样 线程 首先 向 日 志 链 写 线程 发 起 查询 以 确认 是 否 当前 时 刻 存在 
即将 被 Row 入 日 志 链 的 数据 块 ,也 就 日 志 写 线程 已 经 对 外 面 返 回 ACK 写成 功 信号 但 尚未 写 到 日 
志 中 的 数据 块 。 如 果 得 到 日 志 写 线程 的 回馈 说 没有 , 那么 采样 线程 直接 对 日 志 链 尾部 的 块 做 标记 ， 
将 其 标记 为 本 次 采样 的 命中 块 。 

本 例 中 , 对 于 B0、B1、B2、B5、B6 这 5 个 块 的 日 志 链 , 采样 线程 并 没有 查询 到 有 即将 被 写 
入 的 RoW 块 , 并 且 在 日 志 链 尾部 也 并 没有 之 前 的 RoWw 的 块 (本 例 中 T1 时 刻 这 几 个 块 的 日 志 链 
为 空 ) ， 所 以 采样 线程 直接 指向 To 时 刻 卷 对 应 的 块 上 (在 日 志 链 未 尾 生 成 一 个 指针 记录 ) ; 对 
于 B3、B7 的 日 志 链 ， 采样 点 时 恰好 采 到 了 日 志 链 末尾 的 一 个 RowW 过 来 的 块 ， 标 记 之 ; 对 于 B4 
的 日 志 链 ,采样 点 时 刻 并 未 发 现 日 志 链 末尾 有 RoW 的 块 ， 但 是 通过 查询 日 志 链 写 线程 ， 得 到 
馈 ， 正 有 一 个 Row 的 块 要 被 写 入 日 志 链 ， 所 以 采样 线程 等 待 日 志 写 线程 成 功 将 这 个 块 写 入 日 志 
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链 之 后 ， 对 其 进行 标记 。 至 此 ，T1 时 刻 采样 完成 。 

T2 时 刻 再 次 触发 采样 。 同 样 ， 采 样 线程 首先 查询 日 志 写 线程 得 到 有 哪些 块 的 日 志 链 将 要 有 
RoW 的 块 被 写 入 , 对 于 那些 有 RoW 块 即将 被 写 入 的 日 志 链 , 采样 线程 就 等 待 其 写 入 ; 对 于 那些 
没有 RoW 即将 被 写 入 的 日 志 链 ， 采样 线程 直接 对 日 志 链 末尾 的 块 进行 标记 ,标记 为 本 次 采样 的 
命中 块 。 如 果 遇 到 尚 为 空 的 日 志 链 ， 则 在 日 志 链 尾部 生成 指针 指向 To 时 刻 源 卷 对 应 的 块 。 

之 后 的 所 有 采样 点 都 依 此 类 推 ， 执 行 同样 的 过 程 。 同 时 ， 系 统 可 以 启动 一 个 后 台 进程 ， 专 门 
对 日 志 链 中 没有 被 采样 点 采 中 的 块 进行 炙 空 操作 ， 将 其 删 掉 以 节 约 空间 。 删 掉 之 后 就 变 成 了 如 图 
16-43 所 示 的 样子 ， 每 条 采样 线 粘 住 的 块 链 就 是 这 个 时 刻 这 个 卷 的 历史 影像 了 。 经 过 再 次 抽象 ， 
将 粘 住 的 块 也 腐蚀 掉 之 后 ， 只 剩 下 了 抽象 的 回溯 线 ， 系 统 只 能 回溯 到 这 些 线 所 代表 的 时 刻 以 及 块 
链 ， 也 就 意味 着 只 有 右 侧 紧 贴 回溯 线 的 块 才 可 以 被 回溯 。 


图 16-43 先 斩 后 链 及 铁 空 后 显现 出 来 的 回 湖 线 


CDP 引擎 必须 作用 于 整个 CDP 服务 端的 总 IO Queue 之 下 ， 缓 存 之 前 。 即 在 Queue 这 个 水 
渠 处 做 拘 断 ， 这 样 才 可 以 分 辨 出 每 个 IO 的 时 序 先后 然后 严格 按照 时 序 下 发 到 日 志 链 中 ， 从 而 让 
采样 线程 中 相关 时 序 逻 辑 的 作用 结果 达到 预期 。 如 果 等 到 所 有 IO 都 进入 了 缓存 ， 然 后 再 将 各 个 
块 内 容 下 发 到 日 志 链 ， 那 么 此 时 就 像 大 海 捞 针 一 样 ， 无 法 分 辨 出 时 序 ， 所 下 发 的 IO 都 是 乱 序 的 。 
日 志 写 线程 为 了 保证 每 个 IO 被 按照 顺序 写 入 日 志 链 ， 也 要 耗费 一 定 资源 ， 比 如 在 写 入 数据 之 前 ， 
需要 把 所 有 待 写 入 的 IO 数据 块 做 成 一 条 按时 间 先 后 排列 的 链 ， 然 后 依次 下 发 ， 这 样 是 非常 低 效 
的 ， 必 须 进 行 流程 优化 。 

进一步 优化 流程 : 在 总 Queue 的 尾部 处 执行 Suspend 暂 挂 ， 当 然 暂 挂 期 间 ， 主 机 的 IO 依然 
可 以 下 发 ，Queue 不 断 充满 。 当 拘 住 点 之 下 的 IO 全 部 写 到 日 志 链 中 之 后 ， 采 集 线 程 立刻 做 采集 ， 
采集 完毕 ， 回 溯 线 生成 之 后 ， 总 Queue 解除 暂 挂 。 这 样 ， 数 据 按照 批 次 来 写 入 日 志 链 ， 这 一 个 批 
次 之 内 的 IO 不 需要 分 辨 时 序 ， 但 是 批 次 与 批 次 之 间 是 严格 按照 时 序 先后 发 生 的 ， 每 一 批 次 的 IO 
被 写 入 日 志 链 之 后 ， 再 进行 采集 。 这 样 做 ， 不 但 可 以 简化 日 志 写 线程 的 设计 以 及 流程 ， 同 时 也 简 
化 了 采集 线程 的 设计 与 流程 ， 因 为 采集 线程 此 时 不 需要 沿 着 日 志 链 向 上 游 巡 查 了 ， 也 就 是 说 采集 
线程 在 采集 时 不 需要 向 日 志 写 线程 进行 查询 操作 了 。 

此 外 , 除了 在 CDP 服务 端 存储 阵列 的 总 IO Queue 处 实现 暂 挂 外 , 还 可 以 定期 的 在 主机 端 相 
应 的 层次 ， 比 如 文件 系统 处 、 各 种 应 用 程序 处 实现 一 致 性 刷 盘 暂 挂 ， 待 CDP 采集 线程 采集 标记 
完 后 解除 暂 挂 ， 这 样 就 可 以 实现 完全 应 用 层 的 一 致 性 了 ， 这 些 采 样 点 便 是 应 用 层 一 致 的 。 不 过 这 
种 采样 不 可 多 做 ， 因 为 会 对 应 用 产生 影响 ， 定 期 做 即 可 。 这 样 ， 在 日 志 链 中 既 可 以 保证 若干 份 应 
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用 层 一 致 的 影像 ， 又 可 以 保证 一 致 性 层次 较 低 的 大 量 其 他 历史 时 刻 的 影像 。 

批量 IO 以 保证 时 序 一 致 性 的 做 法 是 个 通用 做 法 ,已 经 用 于 数据 远程 复制 技术 中 。 这 种 技术 
又 被 称 为 “一 致 性 组 ”技术 ， 关于 这 一 技术 更 详细 的 六 述 请 见 本 书后 面 的 章节 。 

经 过 这 样 的 流程 优化 之 后 ， 系 统 就 可 以 利用 有 限 的 资源 生成 更 高 频率 的 采样 ， 降 低 CDP 的 
溯 粒 度 到 秒 级 甚至 更 低 。 

7) 二 次 修炼 之 后 的 最 终 招 式 一 于 心 铁 月 幻影 斩 

之 前 所 列 出 的 招式 ,无 一 例外 都 需要 在 块 日 志 链 中 做 动作 ， 标 记 对 应 的 块 。 但 是 仔细 思考 一 
下 之 前 的 模型 ， 每 个 块 都 有 一 条 物理 上 的 日 志 链 ， 那 么 一 开始 要 为 每 个 块 的 日 志 链 分 配 多 少 空间 
呢 ? 如 果 某 个 块 频繁 被 更 新 导致 其 日 志 链 迅速 充满 ， 此 时 如 何 解 决 ? 另 外 一 个 问题 是 ， 每 次 采样 
时 需要 对 所 有 的 块 做 标记 ， 需 要 做 大 量 的 写 入 动作 ， 而 且 这 些 写 入 都 属于 随机 IO 类 型 ， 那 么 此 
时 如 何 保证 IO 性 能 ? 针对 以 上 两 个 问题 ， 虽 然 可 以 有 各 种 技术 手段 解决 ， 但 是 其 效率 将 会 是 非 
常 低 的 , 尤其 是 IO 效率 上 , 将 会 使 整个 
系统 运行 缓慢 。 

如 图 16-44 所 示 为 分 块 日 志 链 与 全 

局 日 志 链 的 物理 结构 比较 ， 很 显然 ， 对 
分 块 日 志 链 的 写 入 动作 将 会 非常 耗费 资 
源 ， 但 是 写 入 全 局 日 志 链 就 不 用 考虑 那 
么 多 了 ， 所 有 分 块 的 Row 的 IO 只 要 追 
加 到 日 志 链 末尾 即 可 。 但 是 这 样 做 又 不 
利于 快速 寻 址 ， 也 就 不 可 能 实现 瞬间 挂 
载 历史 时 刻 的 影像 。 那 么 有 没有 什么 办 
法 将 这 两 种 模式 的 优点 相 结合 呢 ? 

答案 似乎 已 经 浮 出 水 面 了 。 如 果 把 
分 块 日 志 链 的 这 个 框架 全 部 搬 到 内 存 
中 ， 做 成 一 张 分 块 日 志 链 表 ， 而 底层 实 
际 数据 的 存储 使 用 全 局 日 志 链 的 模式 来 
存储 ， 在 分 块 日 志 链 表 中 不 保留 实际 数 
据 块 而 只 保留 数据 块 在 全 局 日 志 空间 的 
地 址 指针 ， 那 么 就 可 以 完美 地 解决 效率 
问题 了 。 

如 图 16-45 所 示 为 全 局 日 志 链 存储 
结构 与 分 块 日 志 元 数据 链 结合 之 后 的 新 
模型 。 通 俗 一 点 说 , 每 个 块 的 Row 的 IO 
到 来 之 后 全 部 顺序 追加 到 日 志 空间 末 
尾 ， 属 于 一 种 完全 连续 IO， 同 时 在 分 块 
eet RoW 块 被 写 入 

志 空 间 内 的 地 址 指针 记录 下 来 并 且 -一 
sme :元 数据 链 的 未 尾 ， 由 图 16-45 全 局 日 志 链 存储 + 分 块 元 数据 链表 


加 


分 块 日 志 链 


545 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


546 


于 这 个 动作 是 在 内 存 中 完成 ， 不 需要 对 磁盘 进行 额外 IO 操作 ， 所 以 可 以 保证 性 能 。 

在 每 次 采样 点 时 ， 系 统 也 只 会 在 分 块 元 数据 日 志 链 中 做 标记 ， 而 不 需要 去 日 志 存 储 空间 内 相 
应 的 块 上 做 标记 了 ， 也 避免 了 无 谓 的 磁盘 IO 消耗 。 采 样 点 之 间 的 无 用 块 可 以 在 后 台 将 其 铂 空 掉 
以 降低 日 志 空 间 的 耗费 ， 同 时 分 块 元 数据 链 中 的 对 应 这 些 无 用 块 的 指针 也 可 以 被 删 掉 以 降低 元 数 
据 链 的 容量 和 复杂 度 , 加 速 寻 址 速度 。 RoW 线程 维护 一 个 对 日 志 空 间 的 Space Bitmap 来 充分 利用 
被 删除 的 无 用 块 后 所 腾 出 来 的 空余 空间 。 分 块 元 数据 日 志 链 相当 于 给 无 法 直接 迅速 寻 址 的 、 顺 序 
保存 的 RoW 数据 块 空间 创建 了 一 份 类 似 于 文件 系统 思想 的 、 可 迅速 寻 址 的 元 数据 链 。 全 局 日 志 
链 底层 的 每 个 RoW 数据 块 都 是 完全 随机 排 布 的 ， 没 有 按照 每 个 块 来 划分 ， 但 是 这 不 重要 。 正 像 
文件 系统 中 的 文件 在 底层 也 可 以 是 完全 随机 分 布 一 样 ， 只 要 有 一 条 清 清楚 楚 的 元 数据 链 图 纸 ， 按 
图 索 怠 就 可 以 将 对 应 的 块 串 成 一 条 按照 历史 时 间 先后 顺序 排列 的 链 了 。 

相对 于 之 前 的 “疾风 匀 月 斩 ” 所 用 的 带 内 元 数据 记录 方式 ( 直接 将 日 志 链 按照 分 块 来 排 布 而 
不 是 全 局 排 布 ， 并 且 直 接 在 分 块 日 志 链 的 数据 块 上 增加 标记 ) ，“ 雕 心 铂 月 幻影 怕 ” 则 属于 一 种 
带 外 元 数据 记录 方式 ， 其 好 处 是 对 实际 数据 的 排 布 方式 没有 限制 ， 可 以 按照 最 优 的 模式 来 排 布 。 

分 块 元 数据 链表 虽然 存放 的 全 部 都 是 地 址 指针 以 及 相应 的 标记 ， 容 量 远 小 于 实际 数据 日 志 ， 
但 是 其 容量 也 是 不 可 忽视 的 ， 需 要 为 其 提供 一 个 专门 的 存储 空间 。 为 了 保证 性 能 ， 元 数据 链 全 部 
载 入 内 存 ， 所 有 的 更 改 在 内 存 中 进行 ， 刷 盘 时 间 可 以 适当 提高 而 不 必 频 繁 刷 盘 。 频 繁 刷 盘 意义 不 
大 ， 因 为 如 果 CDP 服务 嚣 发生 故障 、 宕 机 之 后 ,需要 做 重新 同步 ， 同 步 之 后 ， 之 前 所 有 的 历史 
时 刻 影像 均 会 被 抹 除 。 
挂 载 某 历史 采样 点 的 影像 之 后 ， 针 对 影像 中 某 个 块 的 IO 操作 ， 均 需要 查询 分 块 元 数据 链 来 
寻找 对 应 采样 点 回溯 线 上 对 应 的 块 的 地 址 指针 ， 然 后 通过 这 个 指针 到 全 局 日 志 链 中 将 对 应 地 址 的 
块 内 容 读 出 并 且 返 回 给 主机 端 。 如 果 遇 到 针对 这 份 虚拟 影像 的 写 操作 ， 那 么 就 像 之 前 一 样 ， 再 次 
对 这 些 二 次 写 操作 进行 RowW， 形 成 新 的 日 志 链 ， 也 就 是 日 志 链 上 某 个 历史 时 刻 的 分 支 日 志 链 ， 
也 就 相当 于 历史 回 退 之 后 ， 从 回 退 点 再 次 向 前 发 展 ， 将 所 有 的 发 展 用 相同 的 方法 记录 下 来 ， 从 而 
使 得 对 虚拟 影像 的 变更 也 可 以 回 退 。 或 者 选择 将 当前 的 虚拟 影像 同步 到 一 个 新 存储 空间 ， 比 如 主 
机 直接 从 这 份 虚拟 影像 启动 , 然后 将 这 份 影像 同步 到 本 地 启动 盘 , 同步 之 后 再 切换 到 本 地 盘 启 动 ， 
这 就 是 一 个 典型 的 本 地 操作 系统 或 者 物理 故障 之 后 的 迅速 恢复 过 程 。 

从 上 面 的 模型 不 难看 出 ， 对 CDP 虚拟 影像 卷 的 读 IO 操作 为 完全 随机 的 IO 类 型 ， 因 为 历史 
时 刻 的 块 是 完全 随机 分 布 在 全 局 块 日 志 链 中 各 个 位 置 的 ， 这 也 就 会 导致 性 能 很 低 ， 请 意识 到 这 一 
点 。 但 是 对 其 的 写 入 操作 由 于 会 被 不 断 地 追加 到 日 志 链 末尾 ， 属 于 一 种 连续 IO 类 型 ， 所 以 上 层 
的 写 IO 不 管 原生 状态 有 多 么 离散 随机 , 到 了 地 层 全 部 变 为 连续 IO， 从 这 种 角度 来 看 ，CDP 服务 
端 至 少 不 会 被 随机 写 IO 所 拖 慢 ， 反 而 还 可 能 比 主 存储 的 响应 时 间 更 快 。 不 仅 对 虚拟 影像 的 写 入 
操作 时 如 此 , 所 有 CDP 所 接收 的 写 IO 在 底层 均 被 连续 化 处 理 , 充分 屏蔽 了 写 IO 的 原生 随机 性 ， 
这 样 就 可 以 大 大 降低 随机 IO 对 系统 性 能 的 影响 ， 随 机 度 完 全 被 体现 在 分 块 元 数据 链 中 。 

8 ) CDP 和 快照 的 生态 关系 

我 们 回头 看 一 看 16.2.3 节 中 对 快照 底层 的 演绎 ， 发 现 CDP 和 快照 其 实 本 是 同根 生 ， 快 照 是 
用 一 个 全 局 IO 仓库 卷 和 多 份 映射 表 来 维持 块 映射 关系 , 而 CDP 则 是 用 多 份 日 志 链 和 多 个 回溯 线 
来 维持 块 映射 关系 。CDP 中 的 回溯 线 相当 于 快照 系统 中 的 块 映射 表 , 每 次 生成 一 份 快照 都 需要 新 
建 一 份 新 映射 表 ， 同样 ,每 次 生成 一 个 可 回溯 点 ， 也 需要 生成 一 条 回溯 线 。 快 照 是 个 照相 机 ， 而 
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CDP 则 是 个 摄像 机 , 摄像 机 与 照相 机 的 区 别 就 是 摄像 机 每 秒 可 以 过 24 张 胶 片 ， 生 成 每 秒 24 帧 的 
可 以 骗 过 观众 眼睛 的 影片 。 电 影 尚且 有 每 秒 24 帧 的 粒度 ， 那 么 CDP 是 不 是 也 可 以 使 用 某 种 粒度 
来 满足 用 户 需求 呢 ? 一 个 道理 ， 没 有 必要 记录 到 自然 界 的 每 一 个 微小 的 位 移 ， 就 像 没 有 必要 记录 
每 一 个 IO 一 样 。 

CDP 的 主要 价值 还 是 体现 在 本 地 和 远程 容 灾 ，CDP 自身 这 个 技术 只 是 一 个 刚 子 。 两 分 钟 做 
一 个 快照 , 保留 30 份 或 60 份 , 也 就 是 可 以 以 两 分 钟 的 粒度 回溯 最 近 一 个 或 者 两 个 小 时 内 的 数据 ， 
或 者 比如 半分 钟 一 次 快照 ， 保 留 一 个 小 时 的 ， 再 早 的 通过 磁带 等 其 他 备份 介质 来 恢复 ， 这 样 算 不 
算 CDP? 也 差不多 。 


思考 : 以 特定 频率 生成 回溯 线 的 CDP 系统 ， 就 是 所 谓 Near CDP。 本 质 上 其 实 就 相当 于 高 

频 度 的 快照 。 所 以 说 ,我 们 经 过 这 场 游历 之 后 ， 最 终 发 现 : CDP 是 快照 的 进化 形态 ， 粒 度 

的 大 小 是 评价 它 是 快照 还 是 Near CDP 或 者 是 Pure CDP 的 唯一 标准 , 粒度 并 没有 一 个 界限 ， 

正 因 如 此 ，CDP 和 快照 之 间 是 一 个 随 着 粒度 变化 而 连续 变化 的 形态 。CDP 相对 于 快照 并 没 

有 本 质 上 的 进化 。 所 以 , 目前 市 场 上 的 CDP 产品 本 质 上 都 是 Near CDP。 如 果 有 人 宣称 他 可 

以 回溯 每 个 I0 做 到 真正 的 Pure CDP， 基 本 上 是 在 忽悠 你 ， 因 为 就 算 底层 实现 了 回溯 每 个 

IO， 用 户 也 不 可 能 一 个 I0 一 个 I0 的 来 回 湖 ， 没 有 实现 的 必要 。 

9 ) CDP 产品 对 应 用 层 一 致 性 的 解决 办 法 

上 文中 给 出 了 解决 IO 时 序 一 致 性 的 方法 。 然 厕 ， 仅 仅 保 证 时 序 一 致 性 已 经 无 法 满足 用 户 需 
求 了 。 保 证 了 时 序 一 致 性 ， 与 突然 宕 机 没有 本 质 区 别 ， 突 然 宕 机 之 后 硬盘 上 的 数据 也 是 具有 时 序 
一 致 性 的 , 但 是 对 于 数据 库 等 应 用 来 讲 , 宕 机 10 次 , 大 概 会 有 2 次 导致 数据 库 无 法 启动 , 需要 从 
备份 中 恢复 。 所 以 ，CDP 系统 最 好 可 以 提供 应 用 层 一 致 性 解决 办 法 。 

要 解决 应 用 层 一 致 性 问题 , 必须 与 应 用 层 来 交互 , 也 就 是 说 必须 在 主机 端 安装 一 个 代理 程序 。 
有 两 种 办 法 来 解决 : 第 一 种 是 代理 程序 监控 文件 系统 的 Flush 点 ,在 每 次 Flush 完成 之 后 ， 立 即 通 
知 CDP 系统 ，CDP 引擎 便 在 当前 日 志 链 中 对 当前 时 间 点 进行 标记 ; 第 二 种 办 法 则 是 直接 与 应 用 
程序 进行 交互 , 比如 代理 程序 向 对 应 的 应 用 程序 发 送 Clear-Up/Flush 请 求 , 完成 之 后 便 通知 CDP 
引擎 在 日 志 链 当前 点 上 做 标记 。 这 两 种 方式 中 ， 后 者 对 应 用 系统 有 一 定 影响 ， 随 着 标记 点 的 频 度 
提高 ， 应 用 的 Flush 频 度 也 越 高 ; 前 者 则 具有 一 定 的 普 适 性 ， 作 用 在 文件 系统 处 ， 至 少 能 够 保证 
文件 系统 这 一 层 的 一 致 性 ， 但 是 仍然 不 能 彻底 保证 应 用 一 致 性 ， 只 有 后 者 才能 做 到 真正 端 到 端的 
一 致 性 。 用 户 进行 回溯 的 时 候 ， 可 以 选择 回溯 到 这 些 列 出 的 一 致 点 处 。 

保证 应 用 层 一 致 性 就 像 在 观看 视频 时 所 执行 的 回溯 动作 ,回溯 点 处 所 对 应 的 图 像 巾 所 表达 的 
意义 ， 可 能 是 杂乱 无 章 的 。 比 如 某 人 的 手 正 处 于 半空 中 想 要 做 些 什么 ， 但 是 观众 单 从 这 一 帧 图 像 
来 判断 的 话 可 能 根本 无 法 预测 这 个 人 要 干什么 ， 此 时 这 一 帧 图 像 对 于 观众 来 讲 就 是 不 一 致 的 。 如 
果 将 视频 回溯 到 这 个 点 ， 让 视频 中 的 事件 从 这 个 点 开始 继续 演化 ， 那 么 此 时 系统 就 无 法 判断 出 这 
个 人 的 手 为 何 此 时 处 于 半空 中 ， 他 是 想 抬 起 来 还 是 想 放 下 去 呢 ? 更 不 知道 这 个 人 此 时 有 具体 想 要 做 
什么 。 但 是 如 果 将 回溯 点 向 未 来 再 推进 一 些 ， 那 么 此 时 对 应 的 这 帧 图 像 可 能 恰好 停留 在 此 人 抬 起 
手 担 住 一 肩 门 的 把 手 ， 那 么 此 时 这 个 事件 就 具有 标志 性 意义 ， 也 就 相当 于 数据 系统 中 此 时 的 数据 
状态 是 一 致 的 ， 业 务 系统 应 用 程序 可 以 根据 这 个 状态 继续 演变 下 去 ， 比 如 产生 多 种 情节 : 

(1) 此 人 推 开 门 走 了 进去 ， 看 到 某 某 场景 ; 

(2 ) 此 人 突然 想到 了 什么 ， 狭 瑚 了 一 下 ， 又 把 手 放 了 下 来 走 了 ; 
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(3 ) 僵 住 了 ， 一 直 握 着 把 手 不 放 ; 

(4) 其 他 各 种 发 展 路 径 ， 这 也 就 对 应 了 平行 宇宙 理论 所 设想 的 。 

但 是 有 人 会 有 疑问 : 如 果 回 溯 到 刚才 那个 不 一 致 的 历史 时 间 点 ,难道 此 时 应 用 系统 不 能 够 针 
对 这 个 人 的 手 自己 选择 几 种 场景 继续 发 展 么 ? 比如 : @ 手 继续 向 上 抬 起 ; @ 手 向 下 放下 ; @ 僵 
在 那 不 动 了 。 其 实 ， 提 出 这 个 疑问 的 人 自身 已 经 回答 了 这 个 问题 ， 也 就 是 说 ， 此 时 世界 针对 这 个 
人 的 手 的 发 展 路 径 只 给 出 了 三 种 选择 : 向 上 、 向 下 、 不 动 。 而 第 三 种 情况 ， 也 就 是 静止 不 动 的 场 
景 下 ， 其 随后 的 发 展 要 么 也 是 向 上 或 者 向 下 ， 如 果 永 远 不 动 了 ， 那 么 就 证 明 系统 出 现 问题 了 ， 这 
个 人 的 路 径 已 经 无 法 再 继续 发 展 了 。 

所 以 ， 这 个 人 的 手 最 终 还 是 要 向 上 或 者 向 下 发 展 到 一 定 的 程度 才 可 以 体现 出 具体 标志 性 意 
义 ， 比 如 向 上 抬 起 握 住 把 手 或 者 返 了 返 头 发 ， 抑 或 向 下 垂 到 了 腿 边 。“ 抬 起 来 、 授 了 返 头 发 ”， 
这 个 动作 包含 两 个 子 动作 ， 第 一 个 是 “ 抬 起 手 ”， 第 二 个 是 “ 放 到 头 上 ”， 第 三 个 是 “ 返 头 发 ”。 
完成 这 一 次 对 于 观众 有 意义 的 动作 ， 需 要 完成 多 个 子 动作 才 可 以 ， 而 这 其 中 任何 一 个 子 动作 都 是 
无 法 单独 让 观众 看 懂 的 ， 必 须 结合 起 来 。 而 对 于 应 用 系统 ， 也 是 这 样 的 。 每 一 笔 业务 逻辑 ( 或 称 
事务 、 交 易 ，Transaction ) 是 由 多 个 原子 操作 ( Atomic Operation ) 组 成 的 ， 要 完成 一 个 有 意义 的 
业务 逻辑 ， 必 须 完成 其 包含 的 所 有 原子 操作 。 而 如 果 在 一 连 串 的 原子 操作 之 间 出 现 问题 ， 系 统 停 
机 ， 那 么 这 些 原 子 操作 在 系统 重新 启动 之 后 就 必须 进行 前 滚 或 者 回 滚 从 而 保证 一 致 性 。 

前 滚 就 是 将 原本 应 该 完成 而 未 完成 的 原子 操作 继续 执行 完毕 ; 而 回 滚 则 是 指 将 自从 上 一 次 业 
务 逻 辑 操作 之 后 发 生 的 原子 操作 全 部 回 退 ， 恢 复 到 上 一 个 业务 逻辑 完成 时 刻 的 状态 ， 从 而 保证 数 
据 一 致 性 。 系 统 根据 日 志 中 所 记录 的 所 有 操作 以 及 状态 来 判断 是 需要 前 滚 还 是 回 滚 。 也 就 是 说 ， 
电影 里 的 那 只 手 要 么 就 向 上 发 展 到 一 定 标志 性 时 间 点 ， 比 如 抬 起 来 握 住 把 手 ， 要 么 就 向 下 回 淹 回 
之 前 的 标志 性 时 间 点 ， 也 就 是 未 抬 起 之 前 的 状态 ， 比 如 垂 在 两 腿 边 。 

那么 , 对 于 一 个 CDP 系统 ,回溯 时 最 好 可 以 保证 应 用 一 致 性 以 避免 应 用 挂 起 这 份 CDP 影像 
之 后 所 经 历 的 前 滚 或 者 回 滚 过 程 。 而 保证 应 用 层 一 致 性 的 方法 ， 只 能 靠 应 用 层 解 决 ， 比 如 应 用 系 
统 每 提交 一 份 Transaction 之 后 ， 利 用 某 种 手段 将 这 个 事件 通知 CDP 系统 ， 后 者 从 而 可 以 做 好 相 
应 的 回溯 标记 。 这 也 就 对 应 着 观众 在 看 电影 时 ， 对 关键 时 间 点 做 标记 ， 当 回溯 的 时 候 ， 只 要 回溯 
到 这 些 标志 性 时 间 点 就 可 以 得 到 一 个 可 感知 其 意义 的 图 像 。 


5. CDP 的 适用 场合 


作为 真正 的 “数据 时 光 机 ”，CDP 以 其 叹为观止 的 技术 革新 , 成 功 实现 了 人 类 梦 寨 以 求 的 时 
光 回 溯 技 术 ， 甚 至 可 以 改写 数据 历史 ( 下 文中 有 详细 描述 ) ， 当 然 只 是 在 计算 机 数据 存储 领域 。 
然而 ， 这 项 技术 的 价值 也 是 不 菲 的 ， 企 业 部 署 起 来 也 应 综合 考虑 。 

首先 要 考虑 的 一 定 是 RPO。 没 有 任何 技术 所 提供 的 RPO 可 以 媲美 CDP 了 。 从 纯 底 层 角度 
来 看 ，CDP 的 RPO 绝对 等 于 0， 即 数据 0 丢失 。 这 是 理所当然 的 ， 每 一 个 写 IO 都 被 同步 到 了 
CDP 服务 端 ， 有 什么 理由 RPO 大 于 0 呢 ? 如 果 非 要 说 大 于 0， 也 只 能 是 上 层 不 争气 ， 就 如 上 文 
中 对 于 数据 丢失 的 讨论 一 样 。 

然后 还 需要 考虑 RTO。 值得 肯定 的 是 , 目前 的 这 种 CDP 解决 方案 架构 , 其 所 提供 的 RTO 也 是 
相当 惊人 的 。 不 管 是 系统 灾难 还 是 个 别 文件 等 数据 灾难 , CDP 所 能 提供 的 RTO 都 可 以 达到 几 分 钟 级 
别 。CDP 基于 磁盘 的 数据 镜像 及 SnapshottCDP 后 处 理 ， 已 经 注定 了 它 所 能 提供 的 RTO。 恢 复 单个 
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文件 只 需 在 主机 端 将 对 应 时 间 点 的 影像 挂 载 即 可 , 主机 无 须 重启 。 恢 复 整 机 操作 系统 也 只 需要 将 虚拟 
卷 影像 映射 给 相应 主机 并 在 主机 端 配置 为 SAN Boot 即 可 。 试 问 哪 种 方案 还 能 够 如 此 方便 呢 ? 

CDP 架构 也 不 是 完美 无 缺 的 , 首先 它 需要 比 受 保护 的 数据 源 的 存储 容量 更 大 的 容量 , 相 比 多 
余 的 部 分 被 用 作 IO 仓库 以 保存 持续 的 写 IO 数据 。 其 次 ， 由 于 写 IO 的 持续 镜像 操作 ， 势 必 会 对 
主机 性 能 造成 一 定 的 影响 ， 如 果 CDP 服务 器 使 用 的 后 端 存储 性 能 远 低 于 数据 源 所 用 的 存储 性 能 
的 话 ， 这 种 影响 将 会 变 得 更 显著 。 再 次 ，CDP 方案 绝 不 适合 大 数据 量 改动 的 场合 ， 比 如 经 常 有 大 
文件 被 高 速 上 传 到 受 保护 的 卷 ， 用 不 了 多 久 便 被 删除 ,然后 再 上 传 新 文件 。 这 种 情况 下 ,CDP 服 
务 端 很 快 便 会 被 塞 满 ， 而 且 数 据 高 速写 入 数据 源 ， 也 就 同样 需要 高 速 被 同步 到 CDP 服务 端 ， 如 
果 是 基于 主机 的 IO 捕获 ， 则 其 对 资源 的 耗费 将 不 得 不 考虑 进去 。 

CDP 到 底 适 合 什么 样 的 场景 呢 ? 总 结 如 下 : 

， ”对 RTO 和 RPO 要 求 甚 是 苛刻 ; 

= ”对 源 卷 的 数据 更 新 IO 尺寸 较 小 但 是 每 一 笔 都 很 重要 ; 

， ”强烈 需要 极 细 粒 度 的 时 光 回 溯 或 者 历史 改写 ， 比 如 需要 创建 N 个 平行 影像 卷 进行 测试 

等 情景 ; 

”关键 业务 宕 机 频繁 ; 

"不 差 钱 。 

符合 上 述 几 个 要 求 的 场合 ， 部 署 CDP 将 会 得 到 很 高 的 投资 回报 率 。 


6.CDP 与 VTL 


同样 都 是 使 用 磁盘 作为 Online 存储 介质 , 当 VTL 遇见 CDP, 就 像 是 小 鸡 遇 见 凤凰 一 般 。 VTL 
算 个 什么 呀 ? 就 一 虚拟 磁带 库 ， 立 着 磁带 库 的 牌坊 却 用 硬盘 来 当 存储 介质 ， 浑 身 都 透 着 假 。 说 它 
容量 大 ， 物 理 磁带 库 就 笑 了 ; 说 它 耗 电 少 ， 物 理 磁带 库 又 笑 了 ， 磁 盘 一 直 转 能 不 耗 电 么 ? 说 它 备 
份 和 恢复 速度 快 , 连 本 地 磁盘 和 NAS 都 笑 啦 ! 能 快 到 哪 去 ? 备份 格式 都 和 磁带 一 样 , 恢复 之 前 还 
得 嘿嘿 味 号 扫 描 一 大 堆 索 引 ， 创建 一 大 堆 文 件 列 表 。 那 它 到 底 能 干什么 呢 ? 大 家 都 笑 啦 ， 异 口 同 
声 地 说 : “给 物理 带 库 当 个 缓冲 呐 ! ” 

VTIL 的 处 境 正如 它 实际 的 作用 一 样 ， 确 实 很 尴 婉 。 

你 说 都 是 同样 的 柜子 同样 的 磁盘 同样 的 接口 ， 这 同 处 一 个 机 房 的 两 个 东西 ， 它 差别 咋 就 这 么 
大 ? 买 CDP 吧 , 不 差 钱 儿 ! 

思考 : 可 以 将 所 有 级 别 的 CDP 理解 为 Database-Like。 即 任何 操作 均 记录 于 日 志 中 , 日 志 

可 以 前 滚 或 者 回 滚 ,每 条 记录 都 有 时 间 戳 或 者 序号 。 本 地 CDP 设备 的 容 灾 就 可 以 考虑 为 

类 似 Oracle Dataguard 或 者 DB2 HADR 的 架构 ， 其 实 本 质 上 就 是 这 样 的 。 但 是 CDP 的 日 

志 有 具体 实现 起 来 与 数据 库 的 日 志 还 是 有 很 大 差别 的 。 因 为 CDP 可 以 瞬间 提供 任意 时 间 点 
的 直接 可 访问 影像 ， 如 果 使 用 数据 库 类 日 志 记录 方式 ， 实 现 这 个 功能 是 绝对 不 可 能 的 ， 
因为 数据 库 日 志 的 恢复 需要 Replay 过 程 ， 而 这 个 过 程 将 会 耗费 一 定时 间 。CDP 的 日 志 是 
针对 每 个 LBA 或 者 LBA 段 ( Block ) 都 保存 一 个 日 志 链 条 ， 而 不 是 全 局 的 事件 日 志 ， 这 
样 可 以 保证 RTO。 此 外 , 也 不 排除 有 些 CDP 设计 为 了 简化 操作 和 效率 而 直接 使 用 数据 库 
方式 日 志 , 恢复 时 ，CDP 根据 给 出 的 时 间 点 ， 将 时 间 点 之 前 的 所 有 日 志 进 行 Replay, 但 
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是 又 不 能 将 日 志 中 的 数据 操作 直接 覆盖 了 源 卷 ( 源 卷 需 要 保留 以 使 得 可 以 放弃 当前 影 
像 ) ,所 以 只 能 将 日 志 Replay 到 另外 的 存储 空间 ,而 且 必须 以 LBA 为 顺序 来 排放 以 便 查 
找 (日 志 中 只 包含 被 写 过 的 块 ， 对 于 没有 被 写 过 的 块 ， 依 然 存放 于 源 卷 中 ， 所 以 Replay 
出 去 的 块 只 是 那些 被 写 过 的 块 ,整个 LUN 影像 是 由 源 卷 中 未 被 写 过 的 块 和 被 Replay 的 块 
共同 组 成 的 ， 所 以 针对 每 个 针对 生成 影像 的 读 I0 ， 都 需要 先 查 找 Replay 出 去 的 块 ) , 也 
就 是 将 无 序 的 日 志 处 理 成 有 序 的 LBA 与 数据 的 对 应 表 。 所 以 本 质 上 来 讲 ，CDP 最 终 都 要 
实现 以 LBA 或 者 Block 为 单位 的 数据 链条 ， 如 果 使 用 类 数据 库 日 志 的 方式 也 只 是 拆 东 墙 
补 西 墙 ， 看 似 写 人 日 志 的 时 候 简单 ， 但 是 最 后 恢复 的 时 候 却 要 将 节约 的 时 间 再 拿 出 来 ， 
而 且 还 得 贴 上 一 部 分 存储 空间 。 时 间 、 空 间 、 性 能 总 是 两 两 矛盾 。 所 以 说 万 物 同 源 ， 虽 
处 于 不 同 层次 却 拥有 相同 的 本 质 。 


7. CDP 与 传统 备份 系统 的 比较 


1) 传统 备份 所 面临 的 挑战 

传统 的 备份 方法 已 经 在 企业 中 根深 蒂 固 地 使 用 了 很 长 一 段 时 期 了 。 在 主机 端 安装 对 应 应 用 程 
序 的 备份 代理 ， 然 后 通过 代理 程序 ， 将 需要 备份 的 数据 传送 给 磁带 机 或 者 磁带 库 。 备 份 任务 一 般 
每 天 都 要 执行 ， 如 果 遇 到 数据 量 很 大 的 情况 ， 甚 至 在 一 次 备份 窗口 所 能 够 提供 的 时 间 之 内 ， 比 如 
有 10 点 到 早 6 点 ,备份 可 能 都 并 没有 执行 完 ,备份 速度 已 经 成 为 传统 备份 系统 的 一 个 主要 瓶颈 了 。 
其 次 ， 在 企业 所 制定 的 备份 策略 中 ， 全 备份 一 般 都 需要 定期 执行 ， 比 如 一 周 执行 一 次 ， 如 果 是 大 
型 企业 ， 可 能 还 需要 保留 数 周 甚至 数 月 、 数 年 之 内 的 每 次 全 备份 磁带 。 在 这 种 情况 下 ， 多 次 保留 
的 全 备份 中 ， 就 会 有 相当 一 部 分 数据 是 重复 的 ， 如 果 打 算 节省 空间 ， 那 么 就 得 引入 重复 数据 删除 
等 数据 缩减 技术 ， 这 又 是 一 笔 额外 开销 。 

另外 ， 用 磁带 来 备份 大 量 小 文件 ， 此 时 将 会 是 梦 魔 。 备 份 数据 时 ， 备 份 软件 都 会 预先 生成 待 
备份 文件 的 索引 以 及 其 他 的 元 数据 ， 如 果 备 份 的 目标 是 大 量 小 文件 ， 比 如 十 万 个 小 文件 ,那么 光 
是 索引 阶段 就 要 耗费 掉 大 量 的 时 间 ， 有 的 时 候 甚 至 可 以 持续 数 小 时 。 

在 需要 做 数据 恢复 的 时 候 , 传统 的 基于 磁带 的 备份 系统 又 会 表现 出 多 个 问题 。 比 如 恢复 速度 
慢 ， 恢 复 之 后 不 能 立即 可 用 ， 由 于 磁带 介质 或 者 磁带 驱动 器 机 械 故 障 导 致 的 恢复 失败 ， 恢 复 大 量 
小 文件 速度 极 慢 等 ， 这 些 问题 都 是 实 实在 在 摆 在 眼前 的 ， 时 常会 让 备份 管理 员 痛 心 疾 首 。 

2) VTL， 加 速 传 统 备份 

为 了 缓解 磁带 备份 的 弊端 , VTL 被 发 明了 出 来 。 VTL 是 为 了 解决 备份 和 恢复 速度 慢 的 问题 而 
生 的 。 它 利用 磁盘 来 虚拟 成 一 盘 一 盘 的 磁带 ， 利 用 软件 来 虚拟 一 个 或 者 多 个 厂商 的 多 种 磁带 驱动 
器 和 机 械 臂 ， 从 而 替代 了 传统 的 物理 磁带 库 。 由 于 使 用 了 磁盘 而 不 是 磁带 来 作为 存储 介质 ， 其 表 
现 出 的 速度 也 有 了 很 大 提升 。 当 然 单 块 磁盘 的 顺序 读 写 速度 有 时 甚至 赶不上 一 盘 LTO4 磁带 ,但 
是 如 果 将 磁盘 组 成 Raid 之 后 ,所 表现 出 来 的 速度 就 远 超过 LTO 磁带 了 。 

然而 ,VTL 并 没有 脱离 备份 软件 成 为 一 个 独立 的 系统 , 它 只 是 替代 了 传统 的 物理 磁带 库 而 已 。 
底层 使 用 硬盘 作为 存储 介质 ， 而 上 层 却 并 没有 表现 出 硬盘 随机 快速 寻 址 的 优势 ， 对 外 还 是 表现 为 
一 种 流 式 的 顺序 访问 设备 。 其 表层 并 未 进化 , 这 也 是 VIL 的 关键 限制 , 除了 速度 加 快 、 管 理 简单 
了 之 外 ，VTL 相对 于 传统 物理 带 库 并 没有 本 质 上 的 进化 ， 也 并 没有 颠覆 传统 的 备份 系统 。 

并 且 , VIL 虽然 使 用 磁盘 作为 备份 介质 , 但 是 它 却 并 没有 加 速 大 量 小 文件 情况 下 的 备份 , 备 
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份 软件 的 索引 过 程 依然 需要 执行 。 
3 ) CDP， 彻 底 颠 履 了 传统 备份 架构 
CDP 意 为 Continuous Data Protection， 即 连续 数据 保护 。CDP 会 记录 主机 对 源 数 据 所 作 的 每 
一 笔 更 改 , 并 且 将 更 改 的 内 容 记录 下 来 。 这 样 , 就 可 以 恢复 到 任何 一 个 时 间 点 时 候 的 数据 影像 了 。 
目前 市 场 上 的 CDP 产品 ， 几 乎 都 是 相同 的 架构 ， 即 在 主机 端 安装 一 个 底层 IO 过 滤 驱 动 ,将 所 有 
针对 目标 数据 的 写 IO 镜像 写 到 CDP 服务 端 设备 上 保存 , CDP 服务 端 会 为 每 个 Block 保存 一 条 日 
志 链 ， 每 次 针对 这 个 块 的 写 IO 内 容 都 被 追加 到 链条 末尾 ， 并 记录 对 应 的 元 数据 映射 。 
CDP 保存 了 源 数 据 的 每 一 次 改动 , 但 是 它 与 写 镜像 不 同 : 写 镜像 情况 下 , 针对 一 个 块 的 后 一 
次 的 写 会 覆盖 之 前 的 内 容 ;而 CDP 却 不 会 ,针对 每 次 写 ， CDP 相当 于 都 做 了 Row 操作 。 这 样 ， 
就 可 以 恢复 到 任何 一 个 指定 的 时 间 的 数据 影像 了 。 也 就 是 说 ，CDP 是 一 个 高 级 的 、 可 回溯 的 实时 
镜像 系统 。 
这 种 把 数据 变化 实时 镜像 保存 的 方法 ， 彻 底 颠 覆 了 传统 的 磁带 备份 系统 。 由 于 CDP 的 本 质 
进化 ， 被 镜像 之 后 的 数据 中 几乎 没有 重复 元 余数 据 。 而 且 ， 更 为 神奇 的 是 ， 在 灾难 发 生 之 后 ， 主 
机 可 以 直接 从 CDP 服务 端 来 挂 载 任意 时 刻 的 卷 影像 , 或 者 直接 挂 载 系统 盘 对 应 的 卷 , 直接 从 SAN 
网 络 启动 主机 ， 整 个 恢复 过 程 非常 快 ， 远 非 传统 备份 可 比 。 
由 于 CDP 作用 于 块 级 别 ， 所 以 与 文件 层面 无 关 ， 纵 使 文件 再 小 ， 数 量 再 大 ， 镜 像 和 恢复 的 
过 程 中 也 丝毫 不 会 影响 速度 。 
4) CDP 将 会 是 VIL 的 替代 品 么 ? 
CDP 完全 脱离 了 各 种 备份 软件 , 它 只 需要 在 主机 端 安装 一 个 过 滤 驱 动 或 者 客户 端 管理 界面 程 
序 。 而 VIL 可 以 说 是 一 个 四 不 像 的 东西 ， 并 没有 发 挥 出 磁盘 本 来 的 优势 。 从 这 一 点 来 讲 ，CDP 
完胜 VTL。 但 是 由 于 传统 备份 的 根深 蒂 回 ， 以 及 CDP 产品 被 认 知 和 接受 的 程度 还 有 待 推 进 ， 还 
有 成 本 等 因素 的 制约 ， 所以， 短 时 间 内 CDP 并 不 会 完全 替代 VTL， 或 者 说 并 不 能 彻底 颠覆 传统 
备份 架构 。 但 是 长 期 来 看 ， 随 着 企业 对 数据 安全 以 及 RPO 和 RTO 的 要 求 越 来 越 高 ，CDP 将 会 
逐渐 打开 并 且 占 领 备份 市 场 的 大 部 江山 。 
CDP 产品 基本 上 有 两 种 形式 : 一 个 是 纯 软件 ， 另 一 个 是 捆绑 了 CDP 软件 的 硬件 。 不 管 是 硬 
件 还 是 软件 ， 它 们 最 终 其 实 都 是 软件 ， 将 软件 安装 在 某 x86 服务 器 上 ， 后 端 使 用 各 种 扩展 卡 连 接 
若干 JBOD, 便 成 了 CDP 硬件 。 
5 ) CDP 相 比 传统 备份 所 具有 的 优点 
根据 目前 的 CDP 模型 ， 数据 从 源 到 目的 是 一 个 实时 同步 镜像 过 程 ， 所 以 这 种 模式 如 果 称 其 
为 备份 的 话 ， 那 么 就 是 一 种 最 彻底 最 纯粹 的 备份 。 它 相 比 传统 的 备份 有 如 下 优点 。 
， 0 备份 窗口 : 数据 实时 的 同步 复制 ， 源 端的 任何 变化 都 同步 地 体现 在 备份 端 。 再 加 上 备 
份 端的 CDP 和 Snapshot 功能 ， 一 个 一 致 的 备份 瞬间 就 可 以 生成 。 

， ”接近 0 的 恢复 窗口 : 可 以 直接 从 备份 端 将 某 时 刻 的 卷 挂 载 ， 直 接 使 用 。 这 个 过 程 操 作 非 
常 简单 ， 耗 费时 间 也 相当 于 点 几 下 鼠标 。 

" ”具备 实时 容 灾 功 能 : 传统 备份 系统 只 能 将 数据 备份 下 来 之 后 再 传输 到 远程 ，CDP 系统 
则 可 以 直接 充当 实时 容 灾 系 统 。 

， 面 对 大 量 小 文件 的 备份 具有 天 生 优势 : 传统 备份 系统 在 备份 大 量 小 文件 的 时 候 性 能 很 
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差 ， 耗费 时间 过 多 ; 而 CDP 则 是 在 块 级 别 运作 ， 而 且 是 实时 同步 ， 与 文件 的 种 类 、 大 
小 等 都 没有 关系 。 

回溯 粒度 能 够 达到 秒 级 甚至 更 低 ， 当 然 为 了 充分 保证 一 致 性 , 通常 恢复 时 都 是 选择 一 个 
一 致 点 来 恢复 。 

部 署 方便 : 主机 端 代理 无 须 复杂 配置 ， 无 须 与 各 种 应 用 相 耦 合 。 可 以 实现 不 停机 部 署 。 
数据 重复 率 低 : 未 变化 的 块 都 是 共享 的 ， 而 传统 备份 中 ， 相 同 的 块 会 被 保存 多 份 。 
大 量 小 文件 的 情况 下 ，CDP 有 着 根本 性 的 优势 。 


6) CDP 到 底 适 合 什么 样 的 场景 呢 ? 

CDP 虽 好 ， 但 也 不 是 完全 适合 任何 环境 的 。 比 如 ， 如 果 源 数据 端的 写 入 流量 非常 大 ， 比 如 
200MB 每 秒 , 那么 此 时 使 用 CDP 就 显得 不 合 时 宜 了 , 会 对 主机 端的 IO 性 能 产生 一 定 影响 , 并 且 
CDP 服务 端 也 会 吃不消 。 

总 体 来 讲 ， 具 有 下 列 特点 的 环境 ， 可 以 考虑 部 署 CDP: 


=。 ”对 RTO 和 RPO 要 求 甚 是 苛刻 ; 

" ”对 源 卷 的 数据 更 新 IO 尺寸 较 小 但 是 每 一 笔 都 很 重要 ; 

"强烈 需要 极 细 粒 度 的 时 光 回 溯 或 者 历史 改写 ， 比 如 需要 创建 N 个 平行 影像 卷 进行 测试 
等 情景 ; 

”关键 业务 宕 机 频繁 ; 

， ”预算 充足 ; 

=。 ， 源 数据 端 写 入 流量 不 是 很 大 ， 或 者 大 量 小 文件 的 环境 下 。 

当然 , 与 传统 备份 相 比 ，CDP 系统 在 成 本 方面 也 将 是 投入 巨大 的 。 究 竟 选 择 哪 一 个 , 还 要 看 


预算 和 需求 的 平衡 结果 


8. CDP 产品 简介 ( EMC RecoverPoint ) 


目前 CDP 市 场 上 的 主打 产品 有 两 个 ， 一 个 是 存储 行业 巨头 EMC 经 过 收购 之 后 推出 的 
RecoverPoint， 另 一 个 则 是 顶级 存储 软件 提供 商 飞 康 ( Falconstor ) 自 研 发 的 IPstor CDP。 两 个 的 
CDP 解决 方案 ,其 架构 如 出 一 略 ， 在 使 用 方式 上 也 类 似 。 前 文中 所 提供 的 几 个 CDP 架构 模型 均 
是 从 这 两 家 的 CDP 产品 架构 中 提炼 抽象 而 来 ， 所 以 读者 看 过 前 文 之 后 ， 就 相当 于 已 经 了 解 了 实 


际 产品 的 架构 。 这 里 只 对 EMC 的 RecoverPoint 产品 做 一 个 简要 的 介绍 。 
如 医 


16-46 所 示 ， 左 右 分 别 为 RecoverPoint CDP 服务 器 硬件 的 前 视图 和 后 视图 。 


图 16-46 RP 服务 器 
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这 个 硬件 其 实 是 一 台 Dell R610 lu 服务 器 ， 配 有 两 个 干 兆 以 太 网 口 和 4 个 4Gb/s 的 FC 接 
口 ( 一 张 4 口 QLogic FC HBA ) 。 操 作 系 统 为 Linux Based。CDP 功能 实现 于 其 上 的 核心 应 用 程 
序 软件 。 

如 图 16-47 所 示 的 是 RecoverPoint 的 回溯 粒度 与 普通 的 日 备份 和 Snapshot 的 对 比 。 前 文中 曾 
经 提 到 过 ， 由 于 CDP 在 数据 一 致 性 方面 不 如 Snapshot 可 控 性 好 ， 可 以 说 根本 不 可 控 ， 这 确实 是 
个 问题 。 但 是 ReconverPoint 则 提供 了 一 种 机 制 ， 即 让 用 户 自 己 记录 对 应 的 时 间 点 都 干 了 什么 ， 
回溯 的 时 候 就 会 有 个 参考 。 甚 至 通过 安装 App Aware Agent 的 方式 ， 还 可 以 自动 获取 被 监视 的 应 
用 程序 目前 所 处 的 状态 ， 比 如 ，Database Agent， 一 旦 监控 到 数据 库 此 时 做 了 CheckPoint， 则 会 通 
知 CDP 服务 端 将 当前 的 时 间 点 做 一 个 Bookmark， 以 便 在 回溯 恢复 的 时 候 让 用 户 知道 这 个 时 间 点 
的 影像 对 数据 库 来 说 是 一 致 的 。RecoverPoint 还 可 以 监视 其 他 多 种 应 用 ， 比 如 Windows 下 的 VSS 
模块 、MS SQL Server VDI 等 。 


国 日 各 份 基于 磁带 或 者 磁盘 
人 快照 比 日 备份 频 度 更 高 ， 完 全 基于 磁盘 
全 任意 时 间 点 RecoverPoint 可 以 实现 


A 重要 时 刻 标记 的 时 间 点 。 ”RecoverPointi 以 实现 


快照 mm 
日 备份 一 一 
局 24 小 时 e| 
昨天 午夜 现在 


图 16-47 CDP 与 Snapshot 

如 图 16-48 所 示 的 窗口 中 就 显示 了 这 些 显 
式 的 重要 时 间 点 以 及 对 应 的 事件 。 

另外 , RecoverPoint 不 仅 可 以 实现 本 地 CDP 
数据 保护 , 还 可 以 实现 跨越 广域网 实现 异地 CDP 
数据 保护 。 其 本 质 原理 实际 上 是 在 本 地 和 远程 各 
部 署 一 台 CDP 服务 器 , 本 地 的 CDP 此 时 除了 将 
IO 镜像 到 自身 的 存储 空间 然后 进行 
Snapshot+CDP 后 处 理 之 外 (或 者 自身 没有 存储 
空间 , 只 作为 IO 转发 器 ) , 还 作为 一 个 IO 转发 
器 ， 将 收 到 的 IO 数据 通过 广域网 同步 到 远程 站 图 16-48 一致 性 标记 
点 的 RecoverPoint 服务 器 ， 由 远程 CDP 服务 器 
来 处 理 镜像 的 数据 。 这 样 ， 一 旦 本 地 站 点 整体 灾难 ， 远 程 站 点 依然 可 以 保存 一 份 可 用 的 数据 。 远 
程 Disaster Recovery 功能 在 飞 康 IPstor CDP 产品 中 同样 提供 。 其 整体 架构 如 图 16-49 所 示 。 
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1. 人 
的 任何 一 和 到 本 地 


Reo 器 上 


S. 至 据 按照 顺序 并 且 
被 附 以 校 验 信息 ， 
而 且 被 压缩 之 后 通 
被 复制 到 远程 的 
RecoverPoint 服 


8. 数据 再 从 IO 仓库 中 被 
让 入 天 性 的 写 写 入 存储 
间 


图 16-49 整体 架构 
9. CDP 产品 配置 实例 


上 文中 介绍 了 EMC 的 Recover Point 产品 。 本 节 中 我 们 改 用 飞 康 IPstor CDP 来 为 大 家 做 一 个 


CDP 具体 配置 演示 。 


IPstor CDP 同样 也 支持 基于 主机 端的 IO 镜像 和 基于 Fabric API 的 FC 网 络 层 IO 镜像 ， 这 里 


我 们 只 给 出 基于 WIndows 操作 系统 的 主机 端 IO 镜像 的 演示 。IPstor CDP 运 


云 行 于 主机 端的 代理 程 


序 叫做 “DiskSafe”， 这 个 代理 程序 模块 不 但 操控 IO 镜像 ， 还 负责 创建 Snapshot 和 挂 载 Snapshot。 


(1) 如 图 16-50 所 示 ， 打开 DiskSafe 主 界面 ， 左 边 的 项 目 很 简单 ， 分 别 为 Disk、 


Group、 


Snapshot、 Event。 其 中 Group 中 定义 的 就 是 任意 多 个 卷 的 组 合 ， 形 成 一 致 性 组 。 首 先 
右 击 Disk， 从 弹出 的 快捷 菜单 中 单 击 Protect 命令 
(2 ) 出 现 如 图 16-51 所 示 的 窗口 ， 窗 口中 列 出 所 有 这 台 主 机 上 的 磁盘 以 及 分 区 。 可 以 针对 整 
盘 或 者 某 分 区 进行 镜像 保护 。 在 此 我 们 选中 Disk0 准备 对 其 进行 整 盘 保护 ， 
按钮 继续 。 


单 击 Next 


Primary Storage Selection 
Select the disk or partiion to be protected. You can ether protect a disk nts 
ertirety. or ndividual pariions on the dk separately 


Ebgble primaty storage 


Disk 0Patiton 1 -[CN] 3026B 
Disk OPation2-New Yome DY 3806B 


Detais. Rehesh 


ee Eo 


图 16-50 主 界 面 图 16-51 选择 要 镜像 的 盘 
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(3 ) 如 图 16-52 所 示 ， 代 理 程序 便 会 与 CDP 服务 器 端 通信 以 便 查 询 是 否 服务 器 端 存在 已 经 
创建 好 的 镜像 存储 空间 。 本 例 中 ， 新 出 现 的 窗口 为 空 ， 所 以 我 们 需要 在 CDP 服务 端 新 
建 一 个 镜像 存储 空间 ， 单 击 New Disk 按钮 。 


(4) 如 图 16-53 所 示 , 出现 Allocate Disk 对 话 框 。 上 半 部 分 的 窗口 显示 了 目前 所 连接 的 CDP 
服务 器 端的 名 称 和 地 址 ， 下 半 部 分 则 显示 了 镜像 卷 的 大 小 。 本 例 中 大 小 与 源 卷 相同 ， 并 
且 这 个 镜像 卷 挂 载 到 主机 的 方式 是 使 用 iSCSI, 由 于 本 机 没有 安装 FC 卡 , 所 以 FC 方式 
不 可 用 。ThinProvision 默认 启用 ， 即 镜像 卷 占用 的 空间 会 随 着 实际 源 卷 的 IO 不 断 同步 
逐渐 增加 ， 而 不 是 一 开始 就 占用 所 设 定 的 空间 ， 空 间 渐 增 分 配 单 位 设 定 为 1024MB。 


E 


Mror storage Selecton 
Seect adakta be the nmor possble, vac 9 dakthat appaoty adranced 


图 16-52 在 服务 器 上 创建 镜像 盘 图 16-53 创建 新 盘 
(5) 如 图 16-54 所 示 ， 单 击 OK 按钮 之 后 ，CDP 服务 器 端 便 开 始 创 建 这 个 镜像 卷 。 创 建 完 
成 之 后 便 会 出 现 如 图 16-55 所 示 的 窗口 ， 此 时 ， 新 卷 已 经 出 现在 了 窗口 中 。 选 中 它 后 ， 
单 击 Next 按钮 继续 。 


me ms | cme | 
图 16-55 选择 新 建 的 盘 
(6 ) 出 现 如 图 16-56 所 示 的 窗口 。 在 这 个 窗口 中 , 提供 了 一 些 可 以 调节 的 参数 , 比如 实时 IO 


图 16-54 创建 过 程 
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镜像 模式 (Continuous mode ) ， 即 每 个 对 源 卷 的 写 IO 都 同步 传输 到 CDP 服务 端 镜像 
卷 之 后 才 允 许 后 续 的 源 卷 写 IO; 周期 性 镜像 同步 模式 ( Periodic mode ) ， 即 本 地 先 将 一 
段 时 间 之 内 (比如 几 秘 钟 ) 的 源 卷 所 有 写 IO 的 数据 复制 暂 存在 本 地 ， 然 后 一 批 一 批 地 
镜像 到 CDP 服务 端 , 相当 于 异步 镜像 。 前 者 对 本 地 IO 性 能 有 较 大 影响 ,而 后 者 则 影响 
较 小 , 但 是 存在 数据 丢失 的 风险 。 我 们 用 默认 的 参数 即 可 。 另 外 值得 一 提 的 是 ,代理 端 
不 但 可 以 进行 全 卷 扇 区 对 扇 区 的 完整 镜像 ， 而 且 还 可 以 识别 源 卷 中 的 NTES 文件 系统 ， 
而 只 对 文件 实际 占用 的 那 部 分 空间 数据 进行 镜像 操作 ， 这 将 会 大 大 降低 不 必要 的 传输 ， 
降低 初次 同步 时 间 。 单 击 Next 按钮 继续 。 


Saectthe mmormode 


图 16-56 参数 选择 

(7 ) 如 图 16-57 所 示 ， 这 个 窗口 中 可 以 设 定 对 镜像 卷 做 Snapshot 的 自动 触发 时 刻 表 , 每 当 一 
个 Snapshot 被 触发 ， 代 理 模块 便 会 通知 OS 层面 将 FS 缓存 写 入 源 卷 ， 或 者 调用 VSS 服 
务 对 相关 的 应 用 进行 Freeze。 之 后 代理 通知 CDP 服 务 端 对 对 应 镜像 卷 生 成 一 份 Snapshot， 
而 这 个 Snapshot 总 是 一 致 的 。 


Continueus Mode Snapshot Sehedule_ i 
Mh pou went lo te rafshet ni cortin pu rode, cick Schedie Diheruie ce yo went to tahe pnepihalin cornuous mode, cick Schedule Orerwire, cick 
Neat ji 


中 [Eee 


图 16-57 选择 Snapshot 时 刻 表 
(8 ) 还 可 以 对 Snapshot 做 一 些 高 级 设 定 ， 如 图 16-58 所 示 。 
(9 ) 当 完 成 Snapshot Schedule 设 定之 后 ， 出 现 Summary 窗口 ， 单 击 Finish 按钮 ， 如 图 16-59 


556 


所 示 。 


Mivanced 
Speiy advanced napahort opticns here er dick Nodte scoept the cotank 


TT Teka uc 和 NE 
aee of falre The iemrporag mapsharF automatrca daeied 
Echonieaian 


nveke nepsiet ageni ev PD sheduedanopshol 


Snapdhet 
6 Kop fuednmber ol aehoe [2 习 
C Keep ind number of napshots fer each evel 
Number of rapshots ec 一 一 一 


一 FT we TT No TT 
区 | 


au [Rs eu | 


第 16 章 未 雨 绸 缪 一 数据 保护 和 备份 技术 @ 


Completing the Disk Protection 
Wizard 


To snabie poiecton and dose he wzard, dick Finish, 


| 


图 16-58 时刻 表 高 级 设 定 


图 16-59 完成 


(10 ) 此 时 , 在 代理 主 窗口 中 的 Disk 项 目 右 边 就 会 显示 出 这 个 受 保护 的 Disk0， 状态 显示 为 
Protection Initializing ， 正 在 执行 同步 镜像 初始 化 操作 。 稍 等 片刻 ， 状 态 就 会 变 为 
Synchronizing 状态 ， 即 首先 将 源 卷 上 已 经 存在 的 数据 同步 到 镜像 卷 。 当 a 完成 之 
后 ， 便 进入 了 持续 同步 期 ， 即 源 卷 不 断 接收 的 写 IO 被 不 断 同步 到 镜像 卷 。 这 个 过 程 如 


图 16-60 所 示 。 
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图 16-60 同步 过 程 


Contnuousy Mromg (0.004 Mes) om 


(11 ) 镜像 卷 在 主机 端 表现 为 一 个 物理 卷 ， 此 时 干 万 不 要 在 操作 系统 自 带 的 卷 管理 工具 中 对 
这 个 卷 进行 任何 操作 ， 因 为 此 时 是 由 代理 模块 在 管理 这 个 卷 ， 如 图 16-61 所 示 。 
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图 16-61 镜像 卷 的 状态 
( 12 ) 在 代理 主 界面 中 ,按照 图 16-62 所 示 的 方法 来 手动 创建 一 个 Snapshot。 


C13) 


当 需 要 从 Snapshot 中 恢复 文件 的 时 候 ， 则 在 左边 窗口 定位 到 Snapshot 项 目下 ， 找 到 对 
应 的 Disk0， 在 右边 的 窗口 中 会 出 现 系统 针对 Disk0 所 做 的 所 有 Snapshot。 选 中 需要 恢 
复 的 时 间 点 Snapshot, 右 击 , 从 弹出 的 快捷 菜单 中 选择 Mount Snapshot 命令 ,如 图 16-63 
所 示 。 


图 16-62 创建 Snapshot 图 16-63 挂 载 Snapshot 


( 14 ) Mount Snapshot 之 后 ， 打 开 磁 盘 管 理 器 ， 此 时 会 发 现 这 份 Snapshot 对 应 的 虚拟 影像 已 经 


被 挂 载 到 了 主机 上 , 代理 会 自动 为 其 分 配 一 个 盘 符 ( 本 例 中 为 E 盘 ) ,如 图 16-64 所 示 。 
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图 16-64 快照 影像 卷 


此 时 便 可 以 浏览 这 个 影像 磁盘 中 的 内 容 ， 将 需要 恢复 的 文件 复制 出 来 了 。 
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(15 ) 如 果 需 要 整 卷 恢复 ， 则 更 加 方便 ， 直 接 在 对 应 的 Snapshot 上 右 击 ， 从 弹出 的 快捷 菜单 
中 单 击 Restore 命令 ， 如 图 16-65 所 示 。 


图 16-65 Restore 快照 
(16 ) 在 出 现 的 窗口 中 ， 单 击 Next 按钮 ， 如 图 16-66 所 示 。 
(17 ) 在 出 现 的 窗口 中 ,选择 Disk or Partition 单 选 按钮 ， 单 击 Next 按钮 ， 如 图 16-67 所 示 。 


ean rd da ent 
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er 


图 16-66 单 击 “ 下 一 步 ” 

(18) 如 图 16-68 所 示 , 在 出 现 的 窗口 中 , 我 们 选择 恢复 一 个 Snapshot, 选中 对 应 的 Snapshot， 
然后 单 击 Next 按钮 。 出 现 如 图 16-69 所 示 的 窗口 。 这 里 我 们 选择 将 Snapshot 直接 覆盖 
恢复 到 源 卷 ， 即 Original primary disk， 然 后 单 击 Next 按钮 。 


lalyl 


a restore your hadap iab 
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图 16-68 选择 Snapshot 图 16-69 选择 覆盖 方式 
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(19 ) 在 图 16-70 所 示 的 Summary 窗口 中 单 击 Finish 按钮 ， 此 时 会 出 现 恢复 进度 窗口 ， 如 图 
16-71 所 示 。 整 盘 Restore 并 且 Restore 到 源 卷 的 过 程 ， 与 直接 挂 载 Snapshot 影像 不 同 ， 
前 者 是 实体 数据 的 恢复 ， 即 从 位 于 CDP 服务 端的 IO 仓库 中 ,参考 对 应 的 Snapshot 与 
时 间 戳 信息 ， 将 这 份 Snapshot 中 的 所 有 数据 覆盖 到 源 卷 。 


Completing the Restore Wizard 


图 16-70 完成 


图 16-71 恢复 过 程 


疑问 : 源 卷 中 有 部 分 数据 可 能 并 不 需要 被 覆 
羔 ， 为 何不 能 直接 重 定向 指针 直接 指向 
Snapshot 入 口 呢 ? 无 能 为 力 ， 因 为 ,我们 现 
在 是 对 源 卷 进 行 恢复 , 而 Snapshot 和 CDP 都 
是 针对 源 卷 的 一 份 镜像 卷 来 生成 的 ， 这 份 镜 
像 卷 是 在 CDP 服务 器 上 的 , CDP 服务 端 并 不 
维护 任何 源 卷 的 地 址 指针 ， 所 以 此 时 只 能 是 
将 目标 恢复 时 间 点 之 前 所 有 被 CoW 的 数据 
块 蓝 盖 到 源 卷 才 可 以 。 图 16-72 所 示 的 是 恢 
复 结束 时 的 状态 。 


图 16-72 恢复 完成 
10. CDP 优化 设计 


1) 日 志 链 空间 压缩 


CDP 作为 一 种 数据 连续 保护 设计 思想 , 其 功能 无 疑 是 强大 的 , 但 是 其 效率 和 空间 占用 也 是 让 
人 头疼 的 问题 。 尤 其 是 空间 占用 , 保存 每 个 写 IO, 可 想 而 知 其 所 耗费 的 空间 总 量 有 多 大 。 如 果 能 
够 采用 一 种 用 时 间 来 换 空间 的 方法 来 达到 节能 降 耗 的 话 ， 也 不 失 为 一 种 好 办 法 。 在 这 方面 ,我国 
华中 科技 大 学 的 一 项 发 明 专利 (公开 号 : CN101430657A ) 便 非常 巧妙 地 实现 了 这 个 目的 , 而 且 
其 算法 并 不 复杂 。 下 面 对 这 个 专利 进行 演绎 ， 以 便 让 大 家 在 理解 这 个 专利 的 基础 上 对 CDP 本 身 
达到 更 加 深刻 的 理解 。 


专利 : 这 项 专利 的 核心 思想 和 出 发 点 是 “ 读 写 IO 具有 局 部 性 ”。 怎 么 理解 ? 比如 某 个 应 
用 程序 , 拿 记事 本 来 当 作 例子 , 记事 本 打开 某 文 本 文件 , 文件 中 保存 的 是 a~z 这 26 个 字符 ， 
总 容量 也 没有 超过 一 个 扇 区 的 大 小 。 当 打开 文件 时 ,文件 系统 会 从 磁盘 上 将 这 个 文件 实体 
内 容 对 应 的 整个 扇 区 读 人 缓存 ， 并 且 复 制 到 记事 本 程序 的 缓存 中 。 之 后 ， 你 用 记事 本 将 其 
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中 的 头 几 个 字符 ， 比 如 a、b、c、d 更 改 为 1、2、3、4 这 四 个 字符 ， 并 且 保 存 。 此 时 , 文 
件 系统 会 将 这 整个 扇 区 的 数据 再 写 回覆 盖 到 磁盘 上 对 应 的 扇 区 ， 而 此 时 这 个 扇 区 所 变化 的 
内 容 只 有 4 字 节 ， 其 他 均 未 变 。 这 就 是 “ 读 写 局 部 性 原理 ”， 即 应 用 程序 在 读 或 者 写 某 份 
数据 的 时 候 ， 其 实 只 是 想 要 改变 其 中 的 5%~20% 的 数据 。 


如 果 按照 CDP 的 做 法 , 将 会 保存 着 整个 写 IO 而 不 能 判断 只 保存 这 个 扇 区 中 的 前 4 字 节 。 这 
只 是 用 一 个 扇 区 来 举例 , 实际 中 各 种 文件 系统 几乎 都 是 以 簇 为 单位 进行 读 写 的 , 一 个 簇 比如 4KB、 
8KB 甚至 16KB 或 者 更 高 ， 如 果 仅仅 改变 了 几 个 字 节 就 要 将 整个 簇 覆 盖 到 原 有 扇 区 的 话 ， 那 其 中 
的 无 用 功 就 太 多 了 。 当 然 , 文件 系统 这 么 做 也 是 必需 的 ， 我 们 不 可 能 去 改变 文件 系统 ， 况 日 一 般 
文件 系统 每 次 覆盖 都 不 会 去 CoW 出 被 覆盖 的 簇 进行 保存 ， 所 以 文件 系统 的 这 种 行为 在 对 空间 的 
浪费 的 影像 上 还 是 比较 轻 的 ， 并 不 具有 累积 性 质 。 但 是 对 于 CDP 来 说 就 不 同 了 ， 每 次 都 保存 了 
大 量 不 必要 的 内 容 ， 具 有 累积 性 ， 实 在 是 浪费 。 好 在 我 们 可 以 在 镜像 卷 上 来 实现 任何 想法 。 

得 想 一 种 办 法 , 让 CDP 保存 每 个 写 IO 的 时 候 只 保存 变化 的 数据 , 或 者 用 某 种 办 法 来 实现 类 
似 的 思想 。 但 是 , 用 传统 扫描 的 方法 去 比 对 每 个 IO 相对 于 前 一 个 IO 的 变化 量 而 只 保存 变化 的 部 
分 ， 这 样 做 是 不 太 好 了 ， 因 为 效率 太 低 ， 会 影像 性 能 。 有 一 种 既 简单 又 成 熟 的 算法 能 够 快速 地 比 
对 两 份 数据 中 的 异同 ， 这 就 是 XOR 算法 ，1 XOR 1=0，1 XOR 0=1，0XOR 0=0。 即 相同 的 数 
据 互 相 XOR 之 后 的 结果 为 0, 不同 的 数据 则 为 1。 如 果 将 两 份 扇 区 中 的 内 容 进行 XOR 运算 之 后 ， 
按照 “ 读 写 局 部 性 原理 ”， 理 想 情况 下 ( 结尾 会 举 出 一 个 很 不 理想 的 情况 ) ， 结 果 中 会 有 80% ~ 
95% 的 连续 0， 而 剩余 的 部 分 则 会 是 不 规则 的 0 和 !1 排列 。 此 时 ， 再 使 用 压缩 工具 对 这 些 连 续 的 0 
进行 压缩 ， 效 率 将 会 大 大 提高 。 


疑问 : 有 人 会 质疑 ， 既 然 两 份 扇 区 中 的 内 容 大 部 分 相同 ， 那 么 为 何不 直接 使 用 压缩 算法 对 
其 进行 压缩 呢 ? 难道 压缩 连续 的 0 比 压缩 乱 序 排列 但 是 局 部 相同 的 1 和 0 更 为 高 效 么 ? 
XOR 是 否 是 多 余 的 一 步 ? 非 也 。 压 缩 算法 的 局 限 性 是 很 大 的 ， 举 例 来 讲 吧 ， 随 便 找 一 份 视 
频 文件 ， 复制 一 份 ， 然 后 用 某 压 缩 工 具 对 这 两 份 文件 打包 压缩 ， 压 缩 完毕 后 你 会 发 现 ， 其 
结果 等 于 单独 压缩 每 份 文件 的 结果 之 和 。 


而 最 理想 的 情况 应 该 是 压缩 之 后 的 结果 仅 为 一 份 文件 的 空间 。 既 然 两 份 文件 内 容 完 全 相同 ， 
为 何 得 到 的 压缩 率 却 远大 于 50% 呢 ? 究 其 原因 就 是 因为 压缩 算法 的 局 限 性 ， 即 一 般 压 缩 算法 会 设 
定 一 个 滑动 窗口 ， 每 次 只 读 取 待 压缩 目标 文件 的 一 定 长 度 的 数据 ， 在 这 份 数据 中 进行 重复 数据 的 
搜索 和 压缩 ， 将 结果 保存 ， 然 后 将 窗口 往 前 移动 ， 再 读 取 接 下 来 的 定 长 数据 ， 再 压缩 ， 然 后 结果 
追加 到 先前 结果 之 后 ， 最 终 达到 文件 未 尾 ， 压 缩 完成 。 为 了 保持 一 定 的 效率 ， 窗 口 不 可 能 太 大 ， 
比如 先 扫描 整个 文件 以 找 出 重复 的 数据 ， 甚 至 扫描 所 有 给 出 的 文件 ， 找 出 全 局 重复 的 部 分 然后 压 
缩 ， 如 果 按 照 上 两 者 的 思想 ， 则 其 压缩 比 将 会 显著 提高 ， 但 是 随 之 而 来 的 是 所 耗费 的 时 间 以 及 系 
统 资源 也 将 会 显著 提高 ， 这 两 个 矛盾 平衡 之 后 的 结果 是 ， 人 们 宁愿 策 牲 一 些 空间 以 换取 效率 的 提 
高 。 本 书 其 他 章节 中 会 介绍 一 种 在 全 局 数据 空间 内 消除 重复 数据 的 方法 。 

在 论述 XOR 之 后 为 何 压缩 的 效率 和 压缩 比 会 更 高 的 原因 之 前 , 我 们 先 来 论述 一 下 专利 CDP 
对 IO 的 处 理 过 程 。 

2 ) 专利 中 的 CDP 引擎 处 理 写 IO 的 过 程 

(1) 假设 T1 时 刻 CDP 镜像 卷 某 地 址 对 应 的 Block 内 容 为 “abcabcabcabcabcabcabcabc”, 即 8 

个 abc 字 串 串 联 。 这 份 数 据 用 Btl 表示 。T1 时 刻 系统 示意 图 如 图 16-73 所 示 。 
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图 16-73 Tl 时 刻 

(2) T2 时 刻 某 写 IO 欲 将 数据 覆盖 为 “xyzxyzabcabcabcabcabcabc”， 即 头 两 个 abc 被 更 改 为 
xyz。 设 这 份 新 Block 为 B2。CDP 截获 这 个 写 IO， 然 后 用 新 IO 与 CoW 出 来 的 T1 时 
刻 的 数据 内 容 Btl 作 XOR 运算 ， Be"Btl=Pt2=“111111000000000000000000” (示意 结 
果 , 并 非 二 进 制 结果 ， 下 同 ) 。 此 时 ，CDP 引擎 首先 将 T1 时 刻 的 数据 内 容 Btl 写 入 一 
个 叫做 “ 校 验 值 链 条 ”结构 的 首部 ， 然 后 再 将 XOR 的 结果 Pt2 追加 到 “ 校 验 值 链条 ” 
中 Btl 之 后 ， 并 将 Bt2 写 到 镜像 卷 中 ， 即 覆盖 Btl1。 这 样 ， 在 时 光 回 溯 过 程 中 ， 利 用 公 
式 Pt2*Bt1=Bt2, 便 可 反 运 算出 Be 的 实际 内 容 。T2 时 刻 系统 示意 图 如 图 16-74 所 示 。 


16-74 T2 时 刻 

(3 ) T3 时 刻 ， 另 一 个 写 IO 即 Be3 到 来 ， 内 容 为 “xyzxyzabcabcabcabcdefdef”， 此 时 CDP 引 
擎 将 镜像 卷 中 对 应 地 址 的 数据 Bt2 进行 CoW 出 来 , 然后 进行 XOR 运算 , Ba"Bt2=Pt3= 
“000000000000000000111111”， 将 这 个 结果 追加 到 “ 校 验 值 链条 ”中 最 后 一 个 结果 也 就 
是 Pt2 之 后 ， 同 时 将 Bt3 写 入 镜像 卷 。 这 样 ， 在 回溯 时 利用 公式 Pt3*( Pt2"Btl ) =Bt3 就 
可 以 反 运 算出 BG3 的 实际 数据 内 容 。T3 时 刻 系统 示意 图 如 图 16-75 所 示 。 


图 16-75 T3 时 刻 
随后 的 写 IO 依 此 类 推 。T6 时 刻 的 系统 示意 图 如 图 16-76 所 示 。 


图 16-76 T6 时 刻 
然而 ,虽然 可 以 用 一 份 基准 Block， 即 Bt1， 随 后 的 写 IO 轮流 永远 相互 XOR 下 去 ,但 是 这 
样 做 容易 导致 XOR 链条 过 长 ， 在 数据 恢复 反 运算 的 时 候 ， 需 要 XOR 的 次 数 也 就 相应 过 多 了 ， 
所 以 XOR 链条 过 长 就 会 影响 回溯 时 候 的 性 能 。 因 此 在 下 一 步 中 ,流程 有 了 变化 。 
(4) 假设, 在 T7 时 刻 , CDP 截获 了 写 IO 数据 Bt7， 此 时， CDP 引擎 依然 是 先 Cow 出 Bt6， 
然后 进行 运算 Bt7*Bt6=Pt7, 依然 将 Pt7 追加 到 Pt6 后 面 。 然后, 关键 的 一 步 ，CDP 引擎 
此 时 把 Bt 追加 到 Pt7 之 后 , 同时 将 Bt7 写 入 镜像 卷 覆盖 Bt6。 这 一 步 结束 之 后 , 系统 的 
示意 图 如 图 16-77 所 示 。 


图 16-77 77 时 刻 
从 第 (1) 步 到 第 (3 ) 步 ， 是 一 个 周期 轮回 ， 第 (4 ) 步 则 是 新 一 个 周期 的 开始 。 镜 像 卷 上 
的 每 个 扇 区 地 址 都 会 对 应 着 这 样 一 个 数据 链条 ， 链 条 中 的 每 一 个 周期 中 的 第 一 个 Block 总 是 为 对 
应 时 间 点 的 写 IO 数据 实体 内 容 的 复制 ， 后 来 进入 的 写 IO 将 与 前 一 份 写 IO 进行 XOR 操作 并 将 
结果 再 追加 到 链条 中 ， 循 环 执行 。 每 个 周期 的 时 间 可 调 ， 并 且 可 以 根据 系统 的 负载 等 情况 做 到 动 
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态 可 调 ， 比 如 负载 很 小 ， 则 可 以 适当 将 周期 变 长 ， 负 载 很 大 ， 则 周期 适当 缩短 。 
3 ) 专利 中 的 CDP 引擎 在 进行 时 光 回 溯 时 的 处 理 流程 
(1 ) 假设 , 用 户 输入 回溯 时 间 点 T3， 并 且 要 求 将 T3 时 刻 的 源 卷 影像 以 虚拟 卷 的 方式 挂 载 到 
主机 端 。 CDP 引擎 收 到 这 个 事件 之 后 , 便 开始 准备 相关 资源 和 相关 进程 ,并且 立 即 向 主 

机 端 客户 端 映射 出 一 个 虚拟 卷 ， 其 大 小 与 源 卷 相同 。 此 映射 过 程 中 不 涉及 对 源 卷 中 任何 

地 址 的 映射 操作 。 

(2 ) 主机 端 开始 对 这 个 虚拟 卷发 起 读 IO 操作 ， 假 设 主机 端 需要 读 出 Bt3 这 个 Block，CDP 
引擎 接收 到 这 个 IO 请 求 之 后 ， 立 即 比 对 T1 和 T7 时 刻 哪个 时 间距 离 T3 时 刻 近 ， 本 例 
中 T1 时 刻 被 选中 , 则 引擎 立即 从 对 应 BG3 这 个 Block 地 址 所 对 应 的 校 验 值 数 据 链 中 根据 
时 间 戳 定位 并 读 出 Btl 、Pt2、Pt3 这 三 个 相 邻 的 Block， 按 照 正 向 恢复 公式 Bt3=Pt3” 
(Pt2"Btl ) 来 计算 出 Bt3 的 实际 数据 ， 然 后 立即 发 送 给 主机 客户 端 。 同 理 ， 引 擎 接收 到 
针对 其 他 任何 地 址 (比如 ce、De 等 ) 的 Block 的 读 请 求 后 ， 都 会 根据 相同 的 步骤 读 取 
对 应 地 址 的 Block 所 对 应 的 数据 链 中 的 相关 的 Block 和 Parity Block 进行 XOR 反 运 算 ， 
并 且 将 结果 发 送 给 主机 。 

(3 ) 假设 ， 用 户 输入 回溯 时 间 点 为 T5， 并 且 要 求 以 虚拟 影像 方式 直接 挂 载 此 时 刻 的 虚拟 卷 。 
CDP 接收 到 这 个 事件 后 , 做 与 第 @ 步 相同 的 工作 。 之 后 , 主机 端 发 起 针对 Bt5 的 读 请 求 ， 
CDP 引擎 接收 到 这 个 IO 之 后 ， 判 断 出 T5 时 刻 距离 T7 时 刻 比 较 近 ， 所 以 CDP 引擎 根 
据 时 间 惟 定位 并 读 出 Bt7、Pt7、Pt6、Pt5 这 4 个 相 邻 的 Block, 按照 反 向 恢复 公式 Bt5=Pt6* 
( Pt7*Bt7 ) 计算 出 Bt5 的 实际 数据 并 发 送 给 主机 。 

(4) (本 步 在 专利 中 并 未 做 说 明 ， 由 作者 个 人 推演 ) 接 上 一 步 ， 假 设 主机 端 要求 对 Bt5 所 对 
应 的 LBA 地 址 进行 写 入 操作 。 这 时 候 , 机 制 就 稍微 有 点 复杂 了 。 主机 可 能 同时 在 对 源 卷 
和 虚拟 卷 影 像 进行 读 写 操作 ， 所 以 此 时 ，CDP 引擎 接收 到 针对 虚拟 卷 的 写 IO 之 后 ,一 
定 要 将 其 重 定向 到 针对 这 个 IO 地 址 的 一 条 新 数据 链 中 , 并 做 好 地 址 索引 以 便 随 时 备查 。 
如 果 再 次 接收 到 主机 针对 虚拟 影像 卷 这 个 地 址 的 写 IO, 则 可 以 直接 将 新 IO 覆盖 或 者 追 
加 到 新 数据 链 中 。 

理解 : 为 何 要 说 “ 履 盖 或 者 追加 ” 呢 ? 在 此 ， 有 一 个 更 灵活 的 技术 实现 ， 就 是 可 以 针对 这 

份 虚拟 影像 卷 ( 注意 , 是 虚拟 影像 , 即 经 过 一 次 CDP 回溯 之 后 的 虚拟 卷 ) 创建 二 级 Snapshot 

和 CDP。 如 何 做 到 的 呢 ? 很 简单 ， 上 文 说 了 , 将 写 IO 重 定向 到 一 个 新 数据 链 中 ， 那 么 我 

们 依然 可 以 在 这 条 新 数据 链 中 实现 与 前 文 相同 的 功能 ， 只 不 过 此 时 的 基准 卷 变 为 原来 镜像 

卷 某 时 刻 的 影像 而 已 。 针 对 新 基准 卷 的 读 IO 都 要 经 过 时 光 回溯 步骤 ， 写 IO0 则 与 一 级 CDP 

有 一 点 不 同 ， 即 无 须 CoW ， 而 是 用 了 RoW 方式 。 


(5) (本 步 在 专利 中 并 未 做 说 明 ,， 由 作者 个 人 推演 ) 如 果 主 机 端 选 择 以 实体 内 容 Restore 或 
者 叫做 Rollback 的 方式 来 将 源 卷 上 的 实体 数据 恢复 到 之 前 某 一 时 间 点 的 话 , 则 这 个 过 程 
的 底层 机 制 与 前 文 虚拟 影像 挂 载 模式 下 的 实现 方式 没什么 太 大 区 别 ， 除 了 下 面 三 点 之 
A 


一 是 ，CDP 引擎 不 会 映射 给 主机 一 个 虚拟 卷 了 ; 
二 是 ， 然 后 将 计算 出 来 的 回溯 结果 直接 覆盖 到 源 卷 和 镜像 卷 的 对 应 地 址 ; 
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= 三 是 ， 删 掉 对 应 Block 地 址 校 验 值 数 据 链 中 这 个 时 间 点 之 后 的 所 有 Block， 仅 保留 此 时 
间 点 之 前 的 链条 。 

经 过 这 些 步骤 之 后 ， 源 卷 和 镜像 卷 以 及 数据 链条 的 整体 状态 就 被 Restore ( 或 者 叫 Rollback ) 
到 所 给 出 的 时 间 点 了 ， 主 机 此 时 可 以 继续 对 源 卷 进行 IO ，CDP 引擎 从 这 个 时 间 点 上 继续 开始 工 
作 。 此 时 ， 原 来 所 保存 的 晚 于 这 个 时 间 点 的 所 有 数据 均 被 抹 除 了 。 这 是 Restore 不 如 虚拟 影像 挂 
载 的 一 点 ， 但 是 实体 Restore 之 后 ， 相 对 于 虚拟 影像 卷 来 讲 ， 却 可 以 保证 系统 性 能 ， 因 为 不 需要 
复杂 的 回溯 流程 了 。 

4 ) 对 校 验 值 数据 链 的 压缩 问题 探讨 

现在 我 们 要 来 探讨 一 下 这 个 专利 的 初衷， 即 ， 使 用 XOR 运算 来 节省 大 量 校 验 值 数据 链 所 占 
用 的 空间 的 做 法 是 否 真 的 有 效果 。 

参考 CDP 引擎 IO 处 理 过 程 中 的 第 @ 步 所 给 出 的 示例 数据 和 第 @ 步 所 给 出 的 XOR 结果 , 假 
设 ， 压缩 算法 的 窗口 很 小 ， 仅 为 一 个 Block 的 长 度 ， 则 每 个 滑动 窗口 仅 对 一 个 Block 进行 压缩 ， 
数据 Pt2 的 压缩 结果 可 粗略 地 认为 是 类 似 “ (6 ) 1 ( 18 ) 0” 这 种 表现 形式 , 即 6 个 1 和 18 个 0 
组 成 的 字 串 ( 这 里 我 们 忽略 压缩 算法 的 真实 结果 表示 方式 以 及 纯 二 进 制 结果 ， 大 片 连续 的 1 的 情 
况 很 少 出 现 ) 。 同 理 ， 针 对 数据 块 Pt3 的 压缩 结果 是 “ (18)0(6)1”。 

我 们 来 对 比 一 下 ， 如 果 CDP 引擎 对 每 个 新 IO 块 不 进行 与 前 一 个 IO 块 的 XOR 运算 而 直接 
将 其 以 实体 内 容 的 形式 追加 到 数据 链条 未 尾 ， 这 种 情况 下 ， 调 用 压缩 算法 对 每 个 实体 数据 块 进行 
压缩 ， 针 对 数据 Bt2 的 压缩 结果 为 “(2 ) xyz (6 ) abc”。 可 以 判断 ， 如 果 都 转化 为 二 进 制 的 话 ， 
这 个 结果 的 长 度 将 远大 于 “ (18) 0 (6) 1”。 

另外 , 我 们 以 上 只 是 假设 了 压缩 算法 的 窗口 大 小 仅 有 一 个 Block 的 长 度 , 如 果 增 加 窗口 大 小 ， 
比如 两 个 Block 的 长 度 ， 那 么 刚才 的 例子 中 就 可 以 同时 对 Pt2 和 Pt 进行 压缩 ,结果 为 “(6) 1 
( 18 ) 0(6)1”, 而 直接 压缩 实体 数据 块 的 结果 为 “ (2) xyz (6) abc (2)xyz (4)abc (2)def”， 
可 以 看 出 此 时 压缩 的 比率 相对 直接 压缩 实体 数据 块 所 提升 的 更 大 。 

所 以 ， 结 论 很 明显 ，XOR 运算 之 后 的 大 片 连续 分 布 的 0， 显 著 地 提高 了 压缩 的 效率 和 比率 。 


总 结 : 这 个 专利 使 用 了 非常 普遍 的 XOR 和 压缩 运算 从 而 达到 节省 空间 的 目的 (根据 专利 

描述 ， 可 以 节省 20~30 倍 的 空间 占用 ， 无疑 是 一 个 很 有 诱惑 力 的 数值 ) ， 这 使 得 其 实现 起 

来 的 成 本 大 大 降低 , 而且, 如 果 使 用 硬 XOR 运算 和 压缩 解压 缩 芯 片 的 话 , 便 可 以 显著 提升 

恢复 效率 , 不 失 为 一 种 很 好 的 解决 方案 。 但 是 也 有 一 个 小 小 的 遗憾 ， 即 如 果 新 写 IO 数据 块 

相对 于 前 一 个 数据 块 之 间 的 相同 部 分 的 内 容 在 两 个 数据 块 中 是 被 错开 排列 的 , 哪怕 错开 1B 

或 者 lb， 比 如 “abcdefg” 和 “0abcdef”， 这 种 情况 下 ，XOR 后 的 结果 将 会 是 0 和 1 的 不 

规则 不 连续 排列 ， 压 缩 比率 大 大 降低 ，XOR 运算 恐怕 只 能 额外 增加 系统 负担 了 。 

5 ) 日 志 链 时 间 点 合成 

针对 CDP 数据 占用 空间 过 大 并 且 管理 开销 过 大 的 问题 ， 还 有 另外 一 种 妥协 的 方法 ， 即 CDP 
时 间 点 合成 法 。CDP 引擎 为 每 个 Block 都 保存 一 个 按照 时 间 先 后 排序 的 影像 链 ， 每 个 Block 每 发 
生 一 次 写 IO, 这 个 IO 就 会 被 追加 到 这 个 Block 链 的 尾部 。 如 果 用 户 觉得 CDP 的 粒度 太 细 了 , 没 
有 必要 ， 决 定 释放 一 部 分 空间 ， 只 保留 几 个 关键 时 间 点 的 影像 ， 那 么 此 时 就 可 以 将 Block 链条 进 
行 合 成 操作 。 
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这 里 所 谓 的 “合成 ”其 实 并 不 是 合成 ， 而 是 删除 所 有 Block 链条 中 给 出 的 所 有 需要 保留 的 时 
间 点 之 间 的 数据 块 。 比 如 ， 如 果 用 户 只 要 求 保留 T5 和 T8 这 两 个 时 间 点 时 LUN 的 影像 ， 那 么 就 
可 以 将 所 有 Block 日 志 链 中 的 T6、T7 时 间 点 对 应 的 Block 留存 删除 掉 ， 这 样 就 节省 了 大 量 空间 。 

6 ) 全 局 日 志 链 

如 果 在 CDP 系统 设计 中 做 出 一 部 分 妥协 ,损失 一 部 分 灵活 性 , 就 可 以 大 大 降低 CDP 的 复杂 
度 ， 获 得 更 高 的 处 理 效率 。 前 文中 所 设计 的 CDP 系统 ， 人 允许 实时 地 Mount 某 个 时 间 点 的 虚拟 影 
像 ， 这 样 虽然 非常 灵活 方便 ， 但 是 这 么 做 就 需要 为 每 个 Block 维护 一 个 日 志 链 ， 计 算 开 销 和 存储 
开销 都 很 大 。 如 果 对 于 某 个 LUN 维护 一 个 全 局 Block 日 志 链 ， 即 针对 这 个 LUN 的 所 有 写 IO 都 
保存 在 同一 条 日 志 链 中 ， 不 再 区 分 Block， 那 么 维护 开销 将 大 大 降低 ， 但 是 同时 ， 也 不 再 可 能 实 
时 地 输出 某 个 时 间 点 的 LUN 影像 了 。 正 如 前 文中 的 “思考 ” 框 中 描述 的 一 样 ， 如 果 只 维护 一 个 
全 局 日 志 链 ， 那么 在 用 户 需要 访问 某 个 时 间 点 的 LUN 影像 的 时 候 ， 系 统 就 只 能 将 日 志 链 从 对 应 
的 时 间 点 开始 向 回 Replay 到 一 个 空 LUN 中 , 然后 结合 源 卷 中 未 被 写 过 的 块 , 共同 组 成 一 个 影像 。 
这 样 做 效率 也 是 比较 低下 的 。 

一 种 取代 的 做 法 是 : 只 需要 对 每 个 LUN 整体 维护 一 个 单一 的 Block 日 志 链 即 可 ， 用 户 选择 
回溯 到 哪个 点 ， 就 将 整个 Block 日 志 链 从 头 开 始 到 这 个 点 之 间 的 日 志 Replay 到 一 个 空 LUN 中 ， 
但 是 被 Replay 出 去 的 Block 在 空 LUN 中 要 被 按照 与 LBA 地 址 一 一 对 应 的 方式 写 入 。 与 此 同时 ， 
将 源 卷 中 未 被 写 过 的 Block 也 按照 LBA 地 址 一 一 读 出 并 且 写 入 空 LUN。 这 两 个 过 程 都 完成 之 后 ， 
这 个 LUN 中 的 内 容 就 是 对 应 时 间 点 的 一 份 真实 影像 而 不 是 虚拟 影像 了 。 在 第 一 次 Replay 之 后 ， 
如 果 用 户 再 次 选择 回溯 或 者 前 滚 到 另 一 个 时 间 点 , 那么 可 以 从 Block 日 志 链 中 上 一 次 Replay 结束 
的 地 方 开 始 向 用 户 给 出 的 那个 时 间 点 在 日 志 中 所 处 的 位 置 进行 Replay ( 快 进 或 者 快 退 ) ， 将 块 覆 
盖 到 影像 LUN 中 ， 二 次 Replay 所 耗费 的 时 间 就 仅仅 是 Replay 日 志 链 的 时 间 了 。 

另外 ， 全 局 日 志 链 模式 由 于 将 所 有 的 Block 变更 都 混合 存放 在 同一 个 链条 中 ， 所 以 每 条 日 志 
记录 都 需要 记录 对 应 的 Block 被 覆盖 之 前 的 内 容 以 及 覆盖 之 后 的 内 容 。 为 何 要 这 样 做 呢 ? 因为 在 
Replay 日 志 时 ,在 回 退 操作 的 时 候 ， 必 须知 道 对 应 的 块 被 覆盖 之 前 的 内 容 ( 虽然 可 以 通过 查找 的 
方式 来 查找 日 志 链 中 这 个 块 上 一 次 被 修改 之 后 的 内 容 ， 也 就 是 本 次 修改 之 前 的 内 容 ， 但 是 这 样 做 
是 非常 慢 的 ) 。 所 以 ， 全 局 日 志 链 中 会 有 将 近 一 半 的 相同 内 容 (针对 同一 个 块 的 两 条 日 志 记录 中 
会 有 一 份 内 容 相同 ) ， 占 用 额外 空间 比较 大 。 

将 全 局 日 志 链 与 分 块 元 数据 链 相 结合 使 用 可 以 获得 最 佳 的 效果 , 正如 上 文中 “ 雕 心 铁 月 幻影 
斩 ” 中 所 表述 的 。 

7) 日 志 写 缓冲 处 理 
由 于 CDP 模块 需要 针对 每 一 个 写 来 做 RoW/CoW 操作 ，CoWw 操作 会 使 得 写 操作 的 延迟 大 
大 增加 ， 而 Row 操作 由 于 要 写 入 随机 分 布 的 块 日 志 链 ,属于 随机 度 非 常 大 的 写 入 操作 ， 所 以 延 
述 也 会 非常 大 。 在 前 文 所 述 的 CDP 普遍 使 用 的 模型 中 ， 如 果 CDP 服务 端 阵列 处 理 写 的 速度 由 于 
RoW/CoW 的 影响 而 与 主机 写 入 主 阵 列 的 速度 相差 太 大 的 话 , 那么 势必 严重 影响 主机 端 性 能 。 基 
于 此 ，CDP 服务 器 可 以 先 将 所 有 进入 的 写 IO 写 到 一 个 日 志 中 缓存 ， 从 而 达到 快速 响应 写 IO 请 
求 的 目的 ， 系 统 在 后 台 系统 不 繁忙 的 时 候 重 放 这 份 日 志 然后 进行 CDP 处 理 。 写 日 志 的 过 程 是 完 
全 连续 IO， 所 以 此 时 可 以 大 大 降低 IO 延迟 。 
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16.2.6 VSS 公共 快照 服务 


VSS 的 全 称 是 Volume Shadow copy Service， 中 译名 即 “ 卷 影 复制 服务 ”。 乍 一 看 挺 抽象 ， 而 
且 也 容易 被 其 中 译名 弄 晤 ， 所 以 我 们 擅自 称 它 为 “公共 快照 服务 ”。 上 文中 曾经 说 过 ， 为 了 保证 
Snapshot 的 一 致 性 ， 几 乎 所 有 存储 厂商 都 提供 了 自己 开发 的 针对 各 种 应 用 程序 和 文件 系统 的 代理 
模块 。 而 应 用 程序 有 无 限 多 种 ， 存 储 厂 商 也 有 多 个 ， 但 是 这 些 应 用 以 及 存储 代理 都 运行 在 同一 个 
操作 系统 中 ， 与 其 每 一 个 厂商 为 每 一 种 应 用 程序 都 开发 自己 的 代理 ， 不 如 在 操作 系统 中 建立 一 个 
公共 的 Framework 服务 , 往 上 适 配 各 种 应 用 程序 , 往 下 则 适 配 各 厂商 的 代理 , 做 到 统一 控制 调配 ， 
统一 开发 接口 。 微 软 在 其 Windows Server 操作 系统 中 就 提供 了 这 样 一 种 公共 服务 模块 ， 这 就 是 
VSS 模块 被 开发 的 初 更。 

VSS 的 架构 如 图 16-78 所 示 ， 左 边 是 具体 的 VSS 架构 ， 右 边 是 抽象 后 的 架构 。 


(SQU 
Writer 
(Exchange) o 
Writer a 
(other app/store)] ss wes 
2 
Writer 
(other app/store,) 


图 16-78 VSS 架构 图 


整个 VSS 逻辑 架构 包含 4 个 部 分 : VSS 核心 服务 、Writer、Provider、Requestor。 


Writer。 这 里 的 意思 就 是 代表 运行 于 操作 系统 中 的 各 种 应 用 程序 ， 当 然 这 些 应 用 程序 必 
须 支 持 VSS 服务 ， 运 行 时 便 向 VSS 进行 注册 以 表明 自己 的 身份 。 每 一 个 应 用 程序 就 是 
一 个 Writer。 至 于 为 何 叫做 Writer， 是 因为 这 些 应 用 程序 都 需要 向 对 应 的 卷 或 者 磁盘 中 
写 入 数据 ， 所 以 叫做 Writer， 即 数据 写 入 者 。 在 Windows 系统 中 典型 的 Writer 比如 
Exchange Server、SQL Server、Oracle、DB2、Share Point 等 。VSS 核心 服务 提供 SDK 开 
发 接口 ， 任 何 应 用 程序 都 可 以 借助 它 来 支持 VSS。 

Provider。 这 里 的 意思 代表 各 个 底层 存储 系统 中 的 快照 支持 者 /提供 者 ， 说 白 了 就 是 各 个 
存储 厂商 的 存储 系统 以 及 其 在 主机 端的 代理 程序 , 存储 系统 必须 支持 Snapshot 功能 , 不 
支持 Snapshot 则 不 属于 Provider。 

Requestor。 这 里 的 意思 是 代表 各 个 存储 厂商 的 快照 管理 程序 ,当然 也 可 以 是 快照 代理 程 
序 。 这 个 程序 负责 何 时 触发 快照 ， 管 理 员 通 过 在 这 个 程序 中 设 定 一 些 Schedule 来 控制 
Snapshot 的 生成 时 间 点 和 频率 等 。 


使 用 VSS 来 作为 公共 快照 服务 之 后 ， 生 成 一 个 快照 的 具体 流程 如 下 。 
(1)T1 时刻, 某 应 用 程序 , 比如 Exchange Server, 正在 运行 , 并 且 持 续 不 断 地 向 底层 卷 LUN1 


写 入 数据 。 
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(2) T2 时 刻 ， 系 统管 理 员 需 要 针对 LUN1 触发 一 次 快照 以 保存 当前 的 数据 影像 ， 管 理 员 打 
开 对 应 存储 厂商 的 Requestor 程序 界面 ， 在 其 中 手动 触发 Snapshot。 

(3 ) T3 时 刻 ，Requestor 程序 接收 到 了 管理 员 的 操作 ， 然 后 立即 向 VSS 核心 服务 请 求 将 目前 
所 有 已 经 在 VSS 服务 中 注册 的 Writer， 也 就 是 应 用 程序 的 列表 返回 给 自己 。 

(4) Requestor 判断 Exchange Server 是 否 在 列表 中 ， 如 果 在 列表 中 ， 则 提取 其 注册 信息 ， 并 
且 用 Exchange Server 的 注册 信息 以 及 所 要 进行 Snapshot 的 卷 列表 向 VSS 发 起 请 求 ,通知 
VSS 快照 请 求 已 经 发 起 ， 请 协助 处 理 后 续 事 宜 。 

(5) T4 时 刻 ，VSS 收 到 Requestor 的 请 求 之 后 ， 根 据 Requestor 传送 的 卷 列 表 信息 向 所 有 
Provider ( Snapshot 代理 程序 ) 发 起 查询 以 得 知 哪个 Provider 可 以 提供 针对 LUNI1 的 快照 
操作 ， 对 应 的 Provider 收 到 查询 请 求 后 会 进行 应 答 。 

(6) T5 时 刻 ，VSS 此 时 已 经 得 知 了 所 有 必要 的 信息 ， 即 哪个 应 用 ， 哪 个 卷 ， 哪 个 Provider。 
VSS 立即 向 Writer， 即 Exchange Server 发 起 请 求 ， 让 Exchange Server 暂时 生成 一 致 点 ， 
没完 成 的 运算 赶快 完成 ， 来 不 及 完成 的 就 暂 挂 ， 将 缓存 中 的 数据 该 回 退 的 回 退 ,并 且 和 暂 
停 对 数据 卷 的 写 IO 操作 。 Exchange Server 完成 这 些 步骤 之 后 ， 会 通知 VSS 它 已 经 准备 
好 了 。 

(7) VSS 接收 到 了 Writer 的 通知 之 后 , 立即 向 对 应 的 Provider 发 起 执行 快照 的 请 求 。Provider 
(代理 程序 ) 收 到 VSS 的 指令 后 立即 与 存储 设备 通信 ， 通 知 存储 设备 立即 对 相应 的 卷 生 
成 一 份 快照 。 如 果 在 VSS 请 求 发 起 之 后 10 秒 钟 之 内 没有 收 到 Provider 快照 成 功 的 通知 ， 
则 此 次 操作 失败 ， 系 统 恢复 原状 。 

(8 ) 一 旦 快照 在 存储 设备 上 成 功 地 生成 ，Provider ( 代理 程序 ) 就 会 接 到 存储 设备 的 通知 ， 
然后 Provider 立即 通知 VSS 快照 已 生成 。VSS 接 到 通知 后 立即 向 Writer 发 送 通 知 告诉 
Writer 可 以 继续 进行 针对 相应 数据 卷 的 写 IO 操作 。 然 后 ，VSS 通知 Requestor 本 次 快照 
成 功 生成 。 

(9) 系统 恢复 常态 。 

VSS 为 不 同 的 应 用 和 不 同 的 快照 代理 提供 了 一 个 公共 Framework, 极 大 简化 了 系统 的 复杂 性 。 

如 图 16-79 所 示 为 VSS 介入 前 后 系统 API 复杂 度 的 变化 。 


图 16-79 复杂 度 的 变化 
16.2.7 快照、 克隆 、CDP 与 平行 宇宙 


克隆 的 出 现 恰恰 为 平行 宇宙 、 蝴 蝶 效 应 和 弦 、 膜 等 理论 提供 了 计算 机 建 模 运算 研究 的 数据 基础 。 
如 果 把 我 们 现在 对 计算 机 所 做 的 事情 对 应 到 造物 主 对 现实 世界 所 做 的 事情 , 那么 就 可 以 找到 
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对 应 ， 如 图 16-80 所 示 。 那 么 是 不 是 也 就 意味 着 现实 世界 的 历史 也 是 可 以 回 滚 的 ， 也 是 可 以 重演 
的 ， 只 是 我 们 现在 的 破解 进程 还 没有 到 那 一 步 。 搞 不 好 会 让 现实 世界 崩溃 掉 而 回 到 原点 ? 
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图 16-80 克隆 与 平行 宇宙 

思考 : 同一 个 微粒 为 何 会 同一 时 刻 出 现在 不 同位 置 ? 我 们 通过 某 些 实验 隐约 推测 到 这 种 结 
论 ， 那 么 这 个 微粒 是 不 是 被 多 个 快照 (平行 宇宙 ) 所 共享 ? 是 不 是 在 同一 个 时 间 维 度 下 附 
带 有 多 个 空间 维度 呢 ? 张 理论 就 是 这 样 一 种 理论 ， 它 似乎 正 试图 去 寻找 造物 主 到 底 为 某 个 
世界 创建 了 多 少 个 并 行 发 展 的 克隆 。 而 这 些 所 有 克隆 的 源头 ， 也 就 对 应 了 宇宙 大 爆炸 理论 
的 那个 所 谓 的 中 心 点 。 

强 子 对 撞 机 是 否 会 是 破解 上 帝 代码 的 最 终 手 段 ? 是 否 可 以 探知 到 上 帝 构 造 世界 的 基石 是 1 
和 0 还 是 “有 ”和 “无 ”, 或 者 就 是 某 种 可 以 看 到 的 东西 ， 或 者 根本 什么 都 没有 ? 或 者 当 
对 撞 的 一 瞬间 , 上 帝 构 造 的 世界 被 我 们 弄 崩 溃 了 ? 霍金 为 何 先后 抛 出 “不 要 与 外 星人 接触 
以 及 “时 光 回 漳 是 可 以 实现 的 ”两 个 理论 ?” 这 些 现在 谁 也 不 知道 。 


16.2.8 ”高 帧 率 IO 级 数据 录像 


如 果 说 快照 是 数据 照相 机 ,那么 CDP 就 是 数据 录像 机 。 目 前 多 数 CDP 产品 所 实现 的 都 是 本 
书 前 文中 所 描述 的 那 种 低 帧 率 录像 ， 也 就 是 每 隔 几 秒 钟 对 数据 日 志 进行 采样 ， 然 后 对 每 个 采样 点 
根据 回溯 线 进行 制 表 操作 ( 生成 一 张 对 采样 点 的 时 刻 数 据 地 址 映射 描述 表 ) ， 然 后 删 掉 位 于 采样 
点 之 间 的 数据 以 腾 出 空间 。 

低 帧 率 的 数据 录像 可 以 从 一 定 程度 上 满足 需求 , 但 是 毕 况 用 户 的 要 求 是 越 来 越 多 、 越 来 越 脱 
胀 的 ，24 帧 的 电影 其 实 足 够 了 ,但 是 现在 依然 出 现 了 48 帧 的 高 流畅 度 电影 。 标 清 电影 也 能 凑合 
看 ， 但 是 就 有 人 希望 看 到 主角 脸 上 的 毛孔 。 对 于 数据 也 是 这 样 ， 比 如 用 户 就 需要 恢复 某 个 时 间 点 
的 数据 ， 结 果 恰 好 就 这 个 时 间 点 没有 采样 。 


数据 库 系 统 的 CDP 方式 


“ 细 粒 度数 据 回 深 和 前 深 ” 这 个 思想 到 底 是 谁 发 明 或 者 提出 来 的 我 们 已 经 无 从 考证 了 ， 但 是 
最 成 熟 的 高 帧 率 数据 录像 机 ， 还 得 是 数据 库 系统 莫 属 。 数 据 库 系 统 对 每 一 笔 操 作 都 记录 得 非常 详 
细 ， 包 括 这 笔 操 作 所 做 的 更 改 类 型 ( 插入 、 删 除 、 更 新 等 ) 以 及 该 笔 操作 所 对 应 的 SCN 序号 等 。 
记录 了 所 有 变更 操作 ， 就 可 以 任意 回 滚 和 前 滚 ， 当 然 ， 需 要 将 一 段 时 间 内 所 有 发 生 的 变化 都 记录 
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下 来 ， 才 可 以 在 这 上段 时 间 内 的 历史 数据 中 任意 回 滚 /前 滚 。 
数据 库 所 不 能 实现 的 


数据 库 虽 然 可 以 任意 回 深 , 但 是 它 不 能 并 行 生成 多 个 历史 时 刻 的 、 可 访问 的 数据 库 影 像 。 如 
同一 份 十 分 钟 之 前 的 影像 ， 一 份 一 小 时 之 前 的 影像 ， 想 同时 访问 这 两 个 影像 ， 此 时 数据 库 系统 是 
无 能 为 力 的 。 


存储 系统 对 CDP 的 特殊 要 求 


作为 一 个 存储 系统 ， 必 须 实现 上 述 功能 才 算 专业 。 但 是 如 何在 保证 细 粒 度 回 溯 点 的 情况 下 ， 
依然 还 能 提供 上 述 功能 ， 就 是 个 比较 大 的 挑战 了 。 低 帧 率 模式 下 ， 每 个 采样 点 会 用 一 份 表 来 记录 
映射 关系 ， 当 挂 起 这 个 采样 点 成 为 一 个 虚拟 的 卷 影像 之 后 ， 针 对 该 影像 的 IO 访问 ， 可 以 通过 查 
询 该 表 迅速 得 到 执行 。 

但 是 高 帧 率 模式 下， 采样 点 模型 已 经 不 适用 了 ， 由 于 回溯 粒度 非常 高 ， 甚 至 达到 了 每 个 IO 
级 别 ， 那 么 此 时 不 可 能 为 每 个 IO 点 都 记录 一 张 表 。 所 以 此 时 必须 使 用 数据 库 日 志 形 式 的 回 滚 方 
式 ， 但 又 要 同时 实现 并 行 影像 访问 ， 这 似乎 不 可 能 。 


IO 级 回放 的 唯一 产品 一 一 飞 康 CDP 


我 们 在 前 面 虚拟 化 章节 中 提 到 了 飞 康 ， 在 CDP 领域 ， 不 知道 飞 康 就 别 说 你 懂 CDP。 飞 康 是 
业界 第 一 家 、 也 是 唯一 一 家 能 够 提供 真正 可 行 的 IO 级 回放 粒度 CDP 技术 的 厂商 。 飞 康 进入 中 国 
时 ， 引 来 国内 多 家 厂商 纷纷 研究 和 效仿 ， 不 仅仅 是 在 技术 层面 ， 更 多 是 在 产品 、 用 户 体验 层面 ， 
因为 几乎 没有 其 他 厂商 能 将 CDP 从 技术 到 产品 转化 地 如 此 彻底 。 业 界 也 曾经 质疑 过 飞 康 是 否 真 
的 能 够 做 到 IO 粒度 的 回 滚 , 本 书 前 文中 也 曾 对 IO 级 别 的 回放 进行 过 分 析 以 及 对 一 致 性 方面 的 担 
忧 。 但 是 飞 康 很 好 地 处 理 、 包 装 和 屏蔽 了 这 些 问 题 ， 让 IO 级 CDP 变 得 真正 可 用 ， 这 就 是 其 差异 
化 技术 所 在 了 。 

说 明 :由 于 飞 康 并 没有 公开 这 些 技术 的 底层 细节 , 所 以 外 界 对 飞 康 的 研究 都 属于 猜测 分 析 ， 

那么 我 也 不 妨 在 这 里 分 析 一 把 ， 正 如 本 书 前 文中 的 模型 建立 和 分 析 一 样 。 

试想 一 下 , 在 这 种 IO 级 别 细 粒度 回溯 的 场景 下 , 就 完全 没有 必要 为 每 个 IO 记录 一 个 单独 的 
表 了 ,也 就 是 说 , 日 志 本 身 , 已 经 是 个 内 由 的 表 了 。 我 们 先 来 做 个 简易 模型 ,有 100 个 LBA 组 成 
一 个 卷 ,然后 针对 这 个 卷 的 10、20……100 这 10 个 LBA 做 了 多 次 乱 序 、 重 簿 的 写 IO 操作 , 现在 
要 求生 成 第 二 个 IO (LBA70 也 就 是 T1 时刻 ) 和 第 9 个 IO (LBA10 也 就 是 T2 时 刻 ) 历史 时 刻 的 
两 份 影像 ， 而 且 要 求 可 并 行 访 问 。 如 图 16-81 所 示 。 


图 16-81 I0 级 CDP 日 志 空间 
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我 们 还 是 按照 之 前 的 模型 方法 ,假设 这 两 个 历史 时 刻 虚 拟 卷 已 经 生成 ， 主 机 端 已 经 挂 载 这 两 

个 卷 ， 然 后 主机 针对 T1 时 刻 的 虚拟 卷 的 LBA50 进行 了 读 操 作 ， 此 时 CDP 系统 应 该 去 哪里 找 
LBA50? 读者 应 该 很 清楚 了 , 那 就 是 要 从 源 卷 的 基准 镜像 中 读 出 LBA50 然后 发 送 给 主机 。 为 什么 ? 
因为 T1 这 个 历史 时 刻 点 之 前 ， 对 LBA50 的 更 新 还 没有 发 生 ( 虽然 在 当前 日 志 中 T1 时 刻 后 面 确 
实 有 一 笔 LBA50 的 写 IO 被 记录 ) ， 也 就 是 在 日 志 中 T1 时 刻 之 前 未 出 现 过 LBA50。 同 理 ， 主 机 
针对 比如 LBA1024 ( 不 在 日 志 中 ) 的 访问 ， 同 样 也 要 去 源 卷 基准 镜像 中 寻找 。 但 是 针对 LBA10 
的 访问 ，CDP 引擎 就 必须 从 日 志 中 读 出 LBA10 返回 给 主机 ,因为 在 T1 时 刻 之 前 , 日 志 中 恰好 有 
一 笔 针 对 LBA10 的 写 IO 被 记录 。 再 来 看 针对 T2 时 刻 的 虚拟 卷 的 访问 ， 其 道理 是 一 样 的 ， 同 样 
是 访问 LBA50， 但 是 此 时 CDP 引擎 就 必须 明确 地 知道 ，LBA50 是 存储 在 日 志 中 的 并 且 是 在 T2 
时 刻 之 前 发 生 ， 所 以 必须 从 日 志 中 来 找到 T2 时 刻 之 前 最 近 的 一 笔 ( 可 能 会 有 多 笔 ) LBA50 的 记 
录 从 而 返回 给 主机 。 
这 个 模型 非常 简单 ， 任 何 一 个 人 通过 看 图 都 能 很 快 判断 出 任何 一 个 IO 访问 ， 到 底 应 该 从 哪 
里 找 数据 返回 给 主机 。 仔 细 体 会 一 下 ， 寻 找 其 中 规律 ， 这 个 算法 模型 其 实说 白 了 就 是 : 针对 任何 
历史 时 刻 点 的 虚拟 卷 影像 的 任何 LBA 的 访问 , CDP 引擎 首先 要 判断 出 该 IO 地 址 对 应 的 数据 是 否 
存在 于 日 志 中 ， 如 果 有 ， 再 去 日 志 中 该 历史 时 刻 点 之 前 的 记录 中 去 搜索 ， 如 果 搜 不 到 ， 就 从 基准 
镜像 中 读 出 并 返回 ; 如 果 初 始 判 断 该 访问 地 址 根本 就 不 在 日 志 中 ， 则 直接 从 源 卷 基准 镜像 中 对 应 
的 LBA 中 读 出 该 数据 即 可 ,不 需要 搜索 ， 因 为 该 LBA 与 访问 的 LBA 是 一 一 对 应 的 。 

我 们 看 到 ， 上 述 算法 模型 ， 对 针对 某 地 址 的 访问 ,做 了 两 级 搜索 ， 为 何不 用 一 级 搜索 呢 ， 比 
如 任何 一 个 访问 ， 先 整体 搜 一 遍 日 志 ， 搜 不 到 再 去 基准 镜像 中 读 取 ? 如果 这 样 的话 ， 性 能 会 非常 
差 。 上 图 中 的 日 志 只 记录 了 十 几 笔 操作 ,但 是 现实 中 , 会 有 几 十 万 、 上 百 万 甚至 干 万 笔 操 作 ， 搜 
一 遍 谈何容易 。 那 么 如 何 快速 地 判断 某 地 址 是 否 在 日 志 中 或 者 不 在 日 志 中 ? 这 个 就 很 简单 了 ， 利 
用 一 个 Bitmap, 源 卷 每 个 块 或 者 LBA, 对 应 Bitmap 中 的 一 个 bit, 如 果 该 bit 被 置 1, 证 明 该 块 /LBA 
目前 在 日 志 中 存在 , 但 是 并 不 能 判断 存在 于 该 历史 时 刻 点 之 前 还 是 之 后 ; 如 果 该 bit 被 置 0， 则 证 
明 该 块 /LBA 在 日 志 中 不 存在 ， 也 就 是 说 从 录像 开始 之 后 ， 这 个 块 /LBA 根本 没有 被 更 新 过 ， 此 时 
皆大欢喜 ， 直 接 去 基准 镜像 中 访问 该 块 ， 性 能 最 高 。 

第 一 级 搜索 可 以 利用 位 图 来 缓解 性 能 问题 。 但 是 如 果 必 须 去 日 志 中 查找 ， 此 时 性 能 一 定 会 有 
损失 的 。 但 是 我 们 还 是 可 以 进行 优化 。 首 先 , 为 了 加 速 查找 , 必须 为 整个 日 志 生 成 一 份 元 数据 表 ， 
记录 每 个 IO 的 序号 和 这 个 IO 的 起 始 目标 地 址 和 长 度 ， 比 如 以 LBA 扇 区 为 粒度 ， 使 用 32bit 地 
址 的 话 可 以 描述 2TB 的 源 卷 容 量 , 所 以 , 实际 产品 可 以 选择 一 个 支持 原 卷 容量 的 上 限 , 比如 2TB。 
然后 再 使 用 32bit 来 表示 IO 的 序号 , 也 就 是 整个 日 志 空 间 可 保存 约 42 亿 次 IO, 每 秒 5K IOPS 的 
话 可 以 连续 跑 10 天 , 一般 保存 10 天 的 细 粒 度 回放 日 志 基 本 够 用 了 。IO 的 长 度 使 用 SCSI 协议 中 
的 上 限 (也 就 是 16bit ) 足够 了 。 

这 样 的 话 一共 需 要 80bit 来 描述 日 志 空间 中 的 一 笔 1O， 加 上 其 他 考虑 ( 比如 保留 一 些 将 来 用 
的 字段 等 ) ,按照 96bit 也 就 是 12 字 节 来 算 , 每 笔 IO 记录 将 耗费 12 字 节 描述 ,每 笔 IO 平均 大 
小 按照 4KB 来 计算 的 话 ， 元 数据 比例 大 概 在 3%e 左 右 ， 完 全 在 可 接受 的 范围 内 ， 如 果 日 志 空 间 大 
小 为 1TB, 那么 会 耗费 3GB 内 存 空间 来 完全 缓存 元 数据 , 这 也 是 可 行 和 可 接受 的 。 另 外 ,这 些 元 
数据 在 没有 生成 虚拟 影像 的 时 候 ， 是 不 需要 常 驻 内 存 的 ， 仅 当 在 生成 了 虚拟 影像 之 后 ， 为 了 加 速 
主机 IO 访问 所 以 才 有 必要 常 驻 内 存 。 

元 数据 表 只 按照 IO 序号 排序 是 不 够 的 , 因为 IO 序号 不 能 被 用 作用 户 回 滚 时 候 的 依据 , 因为 
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没有 任何 人 会 对 IO 序号 有 概念 , 所 以 还 必须 在 日 志 元 数据 表 中 加 入 时 间 惟 ,这 里 可 以 变通 一 下 
可 以 对 每 笔 10 都 加 上 一 个 时 间 越 ， 也 就 是 用 时 间 蕉 来 取代 1O 序号 ， 如 果 不 需 要 1O 级 别 细 粒 度 
恢复 的 话 ， 时 间 惟 粒度 可 以 粗 一 些 ， 比 如 日 志 中 每 10 个 IO 就 记录 一 个 时 间 惟 ， 这 些 都 是 可 以 灵 
活 设计 的 。 

元 数据 表 是 按照 时 间 惟 /序号 来 排序 的 ， 当 用 户 生成 了 某 个 时 间 戳 的 虚拟 卷 影像 之 后 ， 根 据 
前 文 分 析 ， 每 一 笔 针对 虚拟 影像 的 IO 会 经 历 两 级 搜索 ， 如 果 落 入 了 日 志 空间 中 , 那么 CDP 引擎 
就 要 将 该 时 间 惟 之 前 的 所 有 日 志 搜索 一 遍 以 查找 日 志 中 所 有 与 该 IO 请 求 的 地 址 范围 有 交集 的 那 
些 IO 记录 , 然后 将 数据 拼接 起 来 ,返回 给 主机 。 由 于 日 志 中 的 IO 记录 是 按照 时 间 / 序 号 排序 的 ， 
所 以 为 了 提升 搜索 速度 ， 必 须 另外 生成 一 份 按照 所 记录 IO 的 LBA 起 始 地 址 排序 的 索引 ， 也 就 是 
说 , 用 户 每 生成 一 个 某 时 间 戳 处 的 虚拟 卷 影像 ,CDP 引擎 就 需要 将 该 时 间 戳 之 前 的 日 志 部 分 的 元 
数据 做 一 个 索引 ， 这 样 就 可 以 加 速 查找 。 比 如 接收 到 主机 发 来 的 读 IO 请 求 ， 系 统 在 查 完 位 图 之 
后 发 现 必须 从 日 志 中 寻找 该 地 址 数据 ， 那 么 系统 会 根据 该 IO 请 求 起 始 地 址 到 对 应 该 时 间 点 生成 
的 索引 中 快速 定位 到 所 有 覆盖 了 该 IO 起 始 地 址 的 记录 项 ( 该 索引 按照 IO 起 始 地 址 排序 , 所 以 查 
起 来 很 快 ) ， 然 后 找 出 时 间 最 新 的 那个 记录 项 ， 按 照 该 记录 项 中 给 出 的 其 所 处 于 日 志 空 间 中 的 位 
置 ， 读 出 对 应 数据 ， 返 回 给 主机 。 

有 了 上 述 的 模型 和 优化 算法 ,基于 IO 粒度 回 滚 的 高 帧 率 数据 回放 ,就 变 得 可 行 了 。 如 图 16-82 
所 示 , 还 可 以 继续 优化 设计 ， 比 如 将 元 数据 空间 单独 拿 出 来 ， 放 到 SSD 中 去 加 速 访问 。 用 户 可 以 
任意 生成 多 份 、 多 个 历史 时 刻 的 虚拟 卷 影像 ， 每 个 影像 所 占用 的 开销 只 是 速 查 索引 而 已 ， 上 层 用 
户 体验 就 会 非常 给 力 。 还 可 以 将 CDP 日 志 先 缓存 在 RAM 中 ， 然 后 定期 Flush 到 磁盘 上 ， 相 当 于 
分 成 在 线 日 志和 归档 日 志 两 大 部 分 ， 另 外 ， 归 档 日 志 中 较 早 的 数据 如 果 不 再 需要 回放 则 可 以 被 
Merge 到 源 卷 基准 镜像 中 去 ， 相 当 于 一 个 合成 备份 ， 这 样 就 不 必 维 护 越 来 越 多 的 日 志 空间 和 元 数 
据 了 。 


图 16-82 I0 级 CDP 的 四 个 存储 空间 
另外 , 在 设计 上 还 可 以 做 更 深层 次 的 优化 。 长 时 间 录 像 不 是 做 不 到 ， 而 是 代价 太 高 ， 比 如 需 
要 大 量 的 元 数据 被 记录 ， 这 样 重 放 时 的 性 能 会 较 差 。 有 没有 办 法 来 降低 元 数据 记录 量 从 而 进一步 
提升 重 放 性 能 呢 ? 飞 康 在 底层 其 实 是 用 了 快照 + 录像 合体 来 解决 这 个 问题 的 。 有 技术 感觉 的 读者 
一 定 会 猜测 到 ， 其 实 就 是 以 照片 为 基础 ， 然 后 记录 在 每 份 照片 基准 之 上 的 数据 变化 ， 这 样 所 保存 
的 元 数据 就 非常 小 。 这 个 原理 ， 与 实际 的 视频 压缩 编码 非常 类 似 ， 实 际 视频 压缩 编码 技术 中 也 是 
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将 视频 分 成 P 帧 和 I 帧 , P 帧 是 基准 ,第 一 个 I 帧 只 记录 相对 于 了 帧 的 增 量 ,第 二 个 工 帧 则 记录 相 
对 于 前 一 个 1 帧 的 增 量 ,利用 P+I1+12+13+……In 的 方式 ， 对 整个 视频 进行 微分 ， 那 些 变化 量 不 
大 的 场景 ( 比如 某 个 镜头 ) , 几 秒 之 内 视角 和 内 容 基 本 相同 , 这 样 , 这 个 镜头 就 可 以 被 编码 成 PtnI 
的 形式 ， 如 果 镜 头 切 换 ， 内 容 几乎 全 变 ， 那 么 就 使 用 新 的 P+nI 来 记录 ， 多 个 P+nI 积分 就 可 以 还 
原 出 整个 视频 。 飞 康 CDP 底层 恰恰 就 是 这 种 原理 。 

飞 康 会 在 CDP 日 志 中 打 入 很 多 TimeMark， 每 个 TimeMark 其 实 就 是 一 个 P 基 准 帧 ， 也 就 是 
一 份 快照 (一 份 照片 ) 。 系 统 维护 快照 所 耗费 的 元 数据 相 比 于 CDP 是 要 少 得 多 的 ， 因 为 快照 不 
会 记录 IO 的 顺序 和 时 间 ， 只 会 记录 位 置 映射 关系 ,所 以 代价 比 CDP 小 得 多 。 基 于 每 个 快照 ， 系 
统 会 在 快照 的 基准 上 ， 记 录 增 量 日 志 及 其 元 数据 , 这样, 对 T1 时 刻 的 查找 就 是 基于 T1 时 刻 之 前 
距离 T1 时 刻 最 近 的 Snapshot TimeMark 进行 的 ， 基 于 它 ， 与 后 续 记 录 的 CDP 元 数据 共同 组 合 ， 
抽取 出 T1 时 刻 的 卷 虚 拟 影像 ( TimeView ) 给 主机 使 用 。 如果 T2 时 刻 与 T1 时 刻 之 间 没 有 Snapshot 
TimeMark 触发 , 那么 T2 时 刻 与 TI1 时刻 的 虚拟 影像 提取 就 得 使 用 同一 个 Snapshot Marker， 如 果 
它们 之 间 有 Snapshot Marker，T2 时 刻 便 会 以 离 它 最 近 的 Snapshot Marker 为 基准 ， 与 录像 区 新 增 
记录 的 元 数据 共同 抽取 出 T2 时 刻 的 TimeView。 

上 述 的 技术 逻辑 看 似 复 杂 , 但 是 被 封装 成 产品 之 后 ， 只 需要 几 步 简单 配置 即 可 完成 。 但 是 如 
果 你 不 了 解 技术 原理 和 架构 ， 这 几 步 配置 中 的 选项 就 会 感觉 非常 迷茫 。 我 们 下 面 就 来 看 一 下 飞 康 
CDP 的 配置 步骤 ,掌握 了 飞 康 的 步骤 ， 也 就 等 于 掌握 和 理解 了 其 他 CDP 厂商 产品 的 原理 和 配置 
步骤 了 。 

(1) 如 图 16-83 所 示 ， 要 对 某 个 源 卷 进行 录像 ， 就 必须 像 按 下 录像 键 一 样 ， 在 界面 中 义 
选 Enable CDP， 完 成 这 个 向 导 之 后 ， 系 统 后 台 就 会 自动 开始 录像 了 。 


图 16-83 Enable CDP 日 志 记录 及 选择 存储 空间 

(2 ) 然后 设置 日 志 空 间 的 管理 参数 ， 包 括 连续 录像 周期 、 是 否 自 动 扩容 、 自 动 扩 容 靖 值 、 扩 
容 比例 、 日 志 容 量 上 限 。 在 “高 级 ”按钮 中 还 可 以 设置 日 志 从 被 Merge 到 源 卷 基准 镜像 
空间 时 的 IO 力度 ,过 高 的 力度 会 影响 性 能 ,因为 会 占用 较 多 的 磁盘 性 能 资源 .如 图 16-84 
所 示 。 数据 被 从 日 志 空间 Merge 到 基准 镜像 中 之 后 , 日 志 中 已 被 Merge 的 数据 并 不 会 立 
即 被 删除 ， 两 种 情况 发 生 时 才 会 被 删除 : CDP 日 志 空 间 不 够 用 了 ， 被 强行 删除 ; CDP 
日 志 超 过 了 保留 时 间 。 

(3 ) 再 往 下 是 设置 快照 参数 。 飞 康 对 快照 的 处 理 与 CDP 不 同 ， 快 照 耗费 资源 比 CDP 要 少 。 
16-85 中 所 示 的 TimeMark 相当 于 快照 的 时 间 戳 ， 在 这 个 页 面 中 可 以 选择 何 时 、 开 始 
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每 隔 多 长 时 间 做 一 次 快照 以 及 最 大 保留 快照 份 数 、 在 快照 生成 时 是 否 要 保障 该 快照 的 一 
致 性 。 


图 16-84 设置 日 志 空 间 管理 参数 图 16-85 设置 快照 策略 


飞 康 在 快照 技术 方面 的 实现 是 非常 全 面 的 ， 在 主机 端 提供 了 支持 各 种 主流 应 用 系统 的 快照 
Agent 组 件 ， 并且 可 以 实现 从 CDP 设备 侧 主动 向 主机 上 的 Agent 发 出 快照 通知 ， 这 一 点 是 其 他 产 
品 或 者 方案 中 没有 见 过 的 ， 类 似 方案 基本 都 是 通过 一 个 单独 的 快照 管理 软件 来 制定 和 执行 策略 ， 
这 显然 带 来 了 不 便 。 毕 竞 我 们 都 希望 在 一 个 页 面 中 搞定 一 切 最 好 。 


(4 ) 这 一 步 结束 之 后 系统 便 会 在 后 台 持续 录像 ， 并 且 在 所 指定 的 TimeMark 时 间 点 生成 对 应 
的 快照 。 此 外 飞 康 很 人 性 化 地 提供 了 手动 创建 快照 、 对 快照 以 及 CDP 日 志 当前 时 间 点 
增加 说 明 性 文字 ， 以 及 设 定 快照 优先 级 的 功能 ， 当 快照 数量 达到 上 限 之 后 ， 系 统 会 优先 
删除 低 优先 级 的 快照 ， 如 图 16-86 所 示 。 另 外 ， 飞 康 CDP 还 提供 了 克隆 功能 ， 从 任何 
一 份 快照 生成 一 份 实体 卷 数 据 ， 可 以 算 作 一 个 备份 。 


二 Add a CDP Journal Tag 图 update TimeMark Informatin 
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图 16-86 对 快照 点 做 标记 

那么 之 前 系统 记录 的 录像 或 者 照片 该 怎么 回放 呢 ? 回放 功能 在 飞 康 产品 中 的 名 称 对 应 为 
TimeView， 也 就 是 可 以 任意 查看 该 数据 卷 在 任意 历史 时 间 点 的 历史 数据 。 可 以 从 快照 中 生成 卷 虚 
拟 影像 ， 也 可 以 从 CDP 日 志 中 的 任何 时 间 点 生成 虚拟 影像 ， 当 然 时 间 总 要 有 个 最 小 粒度 可 供用 
户 来 选择 ， 飞 康 提供 了 微 秒 级 别 的 回放 粒度 。 本 书 前 文中 也 说 过 ， 专 业 性 不 强 的 用 户 是 无 法 理解 
“IO 序号 ”的 ， 所 以 给 出 时 间 粒 度 才 是 最 有 意义 的 。 

如 图 16-87 所 示 , 可 以 使 用 滑动 条 来 任意 寻找 时 间 点 , 可 以 手动 输入 精确 到 毫秒 级 的 历史 时 
间 点 ， 也 可 以 直接 选择 之 前 所 标注 的 助 记 标记 点 ， 还 可 以 单 击 放大 按钮 来 精确 查看 每 个 时 间 点 的 
详细 信息 。CDP 回放 的 最 佳 用 户 体验 全 部 集中 在 这 个 页 面 入 口中 了 。 图 像 的 纵 坐 标 表示 该 时 刻 虚 
拟 影像 所 占用 的 额外 空间 的 容量 ， 高 度 较 高 则 表示 该 时 刻 的 写 IO 压力 比较 大 。 单 击 放大 按钮 之 
后 ， 会 出 现 如 图 16-88 所 示 的 窗口 。 
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图 16-87 从 CDP 日 志 创建 虚拟 卷 影像 图 16-88 ”可视化 的 细 粒 度 回放 点 


这 个 窗口 会 显示 以 5 分 钟 为 单位 的 回放 点 , 左下 角 切 换 按钮 可 以 切换 到 上 一 个 或 下 一 个 5 分 
钟 。 可 以 看 到 ,， 纵 坐标 可 以 精确 到 每 个 时 间 点 系统 接收 了 多 少 个 写 IO。 可 以 单 击 这 个 页 面 , 会 有 
竖 直 方向 的 参考 线 ， 页 面 下 方 会 给 出 当前 参考 线 所 处 的 时 间 点 以 及 该 时 刻 的 写 IO 压力 ， 也 就 是 
该 时 间 点 占用 了 多 少 额外 的 空间 。 用 户 可 以 选择 任意 时 间 点 进行 回放 。 


提示 : 这 里 要 理解 一 点 ，IO 压力 为 0 的 那些 时 间 点 并 不 意味 着 不 能 被 选择 用 来 生成 虚拟 卷 
影像 ， 相 反 ， 这 些 点 是 用 来 生成 一 致 性 虚拟 影像 的 最 合适 时 机 。 


说 实话 ， 飞 康 这 种 对 用 户 体验 的 雕琢 真 的 是 达到 了 很 高 的 水 准 ， 我 之 前 曾经 在 某 厂 商 设计 
了 一 套 所 谓 “ 可 视 化 智能 存储 ”的 存储 软件 解决 方案 ， 飞 二 

康 的 这 种 设计 可 谓 是 英雄 所 见 略 同 ， 有 很 强 的 共鸣 产生 。 
另外 ， 如 图 16-88 所 示 ， 当 单 击 Search 按钮 之 后 ， 不 但 可 
以 搜索 该 范围 内 的 那些 通过 与 快照 Agent 配合 产生 的 一 致 
性 时 间 点 , 还 可 以 选择 过 滤 搜索 那些 低 于 所 给 出 值 写 IO 数 
量 的 时 间 点 ， 因 为 这 些小 压力 时 间 点 往往 具有 更 好 的 一 至 
性 ， 可 恢复 的 几率 更 高 ， 如 图 16-89 所 示 。 


此 外 ， 除 了 使 用 TimeView 来 回放 历史 时 刻 之 外 ， 还 可 以 
直接 像 数 据 库 系统 一 样 ， 回 滚 和 前 滚 源 数据 卷 ， 可 以 任意 回 滚 或 者 前 滚 ， 回 滚 之 后 如 果 不 满意 还 
可 以 前 滚 ， 直 到 满意 为 止 。 
虽然 说 CDP 相当 于 数据 录像 机 ， 但 是 真 的 把 它 做 成 和 电影 播放 器 一 样 的 用 户 体验 ， 飞 康 是 
第 一 个 也 是 唯一 一 个 。 
说 明 : 飞 康 技术 团队 对 技术 的 追求 、 表 达 和 展现 已 经 不 能 够 用 专业 来 描述 了 ， 应 该 用 “ 偏 
执 ”来 描述 ， 偏 执 的 产品 往往 是 最 让 人 崇敬 的 产品 ， 也 是 质量 最 高 的 产品 ， 偏 执意 味 着 执 
着 的 追求 一 个 团队 能 够 允许 偏执 的 存在 ， 这 个 团队 才 会 有 瑞 强 的 生命 力 。 


以 上 详细 介绍 了 飞 康 的 CDP 技术 。 下 面 简单 介绍 一 下 飞 康 的 CDP 产品 。 软件 定义 存储 的 核 
心 就 是 强大 的 软件 层 ， 至 于 硬件 ， 目 前 已 经 完全 倒 向 开放 式 x86 Server 模式 了 ， 那 些 定制 化 、 差 
异化 的 控制 器 ， 似 乎 已 经 没什么 吸引 力 了 。 如 果 将 飞 康 的 软件 平台 IPStor Gen2 Platform 安装 在 一 
台 高 性 能 服务 器 上 ， 再 加 上 磁盘 扩展 柜 ， 那 就 是 一 套 完整 的 存储 系统 ， 飞 康 CDP 管理 器 就 是 这 


图 16-89 基于 I0 级 别 的 回放 
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样 一 套 偏重 于 数据 保护 CDP 以 及 备份 的 存储 系统 。 


如 图 16-90 所 示 为 飞 康 网 关 型 CDP 管理 器 及 一 体 化 CDP 管理 器 。 网 关 型 产品 只 提供 一 个 
控制 器 ， 其 后 端 可 以 挂 接 来 自 其 他 存储 系统 的 逻辑 卷 ; 一 体 化 产品 则 可 以 提供 磁盘 扩展 单元 来 作 
为 本 地 存储 空间 ， 另 外 也 可 以 挂 接 其 他 系统 的 逻辑 卷 。 飞 康 CDP 管理 器 是 一 款 软 硬 件 打包 的 产 


品 , 用 户 可 以 直接 购买 软件 License 然后 自行 安装 在 
己 的 服务 器 上 ， 但 是 对 于 一 些 非 专业 用 户 ， 则 更 
加 倾向 于 购买 整套 软 硬 件 系统 ,一 来 免 去 安装 烦恼 ， 


I 


二 来 还 可 以 保证 更 好 的 兼容 性 。 


图 16-90 飞 康 CDP 网 关 型 管理 器 


如 图 16-91 和 16-92 所 示 为 飞 康 IPStor Gen2 Platform 以 及 CDP 产品 的 特色 技术 和 高 级 功能 。 
这 些 技术 和 功能 我 们 已 经 在 本 书 前 面 的 虚拟 化 章节 中 进行 了 详细 介绍 ， 在 此 不 再 袭 述 。 


HIGHLIGHTS 


COMPREHENSIVE PROTECTION 


» Mirroring, snapshots (up to 1,000), journaling, 
replication 


。 Enables definition of protection policies 


* Flexible replication & mirrering protects 
against up to two levels of failure 


HETEROGENEOUS SUPPORT 


» Utilizes heterogeneous third-party storage 


。 Physical and virtual protection 
* Mierosoft Windows, Linux, Unix, Solaris, HP- 


» iSCSl, Fibre Channel (FO), and FCoE connectivity 


APPLICATION-SPECIFIC SNAPSHOT AGENTS* 


。 Eliminates backup corruption 
。 Supports an extensive list of application 


图 16-91 


DISK-BASED BACKUP PRECONFIGURED, SCALABLE 


» Eliminates the backup window . i from 1TB to over 500TB per FalconStor 
, bl _ bk ateway 
8 near-zero recovery point objectives 。 Smplacapady-based pridng 


。 Defines protection policies on individual server， 。 Expansion units available for additional scal- 
departmental or global basis ability 


AYTOMATED RECOVERY VIA RECOVERTRAC” pzp2T BAcKUP 


» Reduces tape costs 


* Automates complex application recovery & dlsaster 。 。 Providesinstant recovery 


recovery (OR) tesdng 

。 Supports P2p, P2V, & V2V recovery 

WAN-OPTIMIZED REPLICATION 

。 MicroScanw technology reduces bandwidth 
requirements & costs 

。 Enables rapid disaster recovery 


飞 康 CDP 网 关 型 管理 器 的 特色 技术 一 览 


ADVANCED FEATURES 


图 16-92 


High availability (HA) Optional 
Application-aware snapshot agents* Included 
Snapshots (TimeMarke/TimeView’) per LUN Up to 1,000 
Storage Replication Adapter for VMware Site Recovery Manager Included 
Dynapath* Agent for Microsoft Windows or Linux native multi- pathing Included 
DiskSafe™ Agent Included 
FileSafev Agent Included 
physial & virtual machine (VM) protection & recovery Included 
Recovery agent Included 
Automated DRvia RecoverTrac tool Included 
Multisite Cluster Adapter for Microsoft Windows Included 
SafeCache™/HotZone™ Included 
Data journaling Included 
Thin provisioning Included 
Synchronous& asynchronous data mimoring Included 
WAN-optimized replication w/ compression & encryption Included 
SNMP integration Included 
Email alerts Included 
Reporting Included 
Central Client Manager (CCM) Included 
HyperTrac™ Backup Accelerator Optional 


飞 康 CDP 网 关 型 管理 器 的 高 级 功能 一 览 
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16.3 


数据 备份 系统 的 基本 要 件 


备份 对 象 :是 指 需要 对 其 进行 备份 的 备份 源 , 比如 一 台 服 务 器 上 某 块 磁盘 上 的 所 有 数据 ， 
或 者 某 数 据 库 下 所 有 数据 文件 ， 这 些 都 算 备 份 对 象 。 

备份 目标 : 是 指 将 备份 对 象 的 数据 备份 到 何 处 。 备 份 目标 可 以 是 备份 对 象 本 身 的 磁盘 、 
磁带 等 介质 ， 也 可 以 是 任何 其 他 地 点 的 磁盘 、 磁 带 机 、 磁 带 库 等 介质 。 如 果 备 份 目标 位 
于 备份 对 象 本 身 ， 比 如 ， 从 一 台 Windows 服务 器 的 D 盘 复 制 某 些 文件 到 自身 的 E 盘 ， 

则 不 需要 占用 任何 网 络 资源 ， 因 为 数据 从 备份 对 象 自身 生成 ,到 自身 结束 。 如 果 备 份 目 
标 位 于 其 他 地 点 ， 比 如 同一 个 机 房 内 的 其 他 服务 器 ,或 者 外 部 独立 磁盘 阵列 ， 则 数据 从 
备份 对 象 生成 ,传输 到 备份 目标 的 过 程 中 ， 就 需要 占用 网 络 资源 ， 因 为 连接 备份 对 象 和 
备份 目标 的 只 有 网 络 。 稍 后 将 会 详细 介绍 用 哪 种 网 络 。 

备份 通路 : 也 就 是 我 们 上 文 提 到 的 ， 如 果 备 份 对 象 和 备份 目标 都 位 于 同一 个 角色 上 , 那 
么 备份 通路 就 是 这 个 角色 自身 的 计算 机 总 线 ， 也 就 是 连接 这 个 角色 的 CPU、 内 存 和 磁 
盘 的 总 线 ,因为 数据 只 在 这 个 总 线 上 流动 。 如 果 备 份 对 象 和 备份 目标 处 于 远离 状态 ， 则 
二 者 必须 通过 某 种 网 络 连 接 起 来 ,而 这 个 网 络 就 是 这 个 备份 环境 的 备份 通路 。 关 于 备份 
通路 会 在 后 面 的 例子 中 详细 描述 。 

备份 执行 引擎 : 有 了 备份 源 、 备 份 目 标 和 连接 二 者 的 备份 通路 之 后 ， 需 要 一 个 引擎 来 推 
动 数据 从 备份 源流 到 备份 目标 。 这 个 引擎 一 般 由 备份 软件 来 担任 。 

备份 策略 : 是 指 备份 引擎 的 工作 规则 。 引 擎 不 能 无 时 无 刻 地 运转 ， 它 需要 根据 设 定 好 的 
规则 来 运转 。 


下 面 将 着 重 介绍 一 下 备份 目标 、 备 份 通路 和 备份 引擎 这 三 个 要 件 。 
16.3.1 备份 目标 


1. 用 本 地 磁盘 作为 备份 目标 


用 本 地 磁盘 作为 备份 目标 ， 就 是 把 本 地 磁盘 上 待 备份 的 数据 ， 备 份 到 本 地 磁盘 其 他 的 分 区 或 


者 目录 。 用 这 种 方式 可 以 不 影响 任何 其 他 服务 器 以 及 共用 网 络 。 数 据 流动 的 范围 完全 局 限 在 备份 


对 象 自 


身 。 


但 是 这 样 做 的 缺点 就 是 对 备份 对 象 自身 的 性 能 影响 太 大 , 数据 从 磁盘 读 出 , 需要 耗费 磁盘 资 
源 。 读 出 后 写 入 内 存 ， 需 要 耗费 内 存 资源 ， 然 后 再 从 内 存 写 入 磁盘 的 其 他 分 区 ， 同 样 需要 耗费 磁 
盘 资源 。 备 份 执行 期 间 ， 还 会 对 其 他 IO 密集 型 的 程序 造成 极 大 影响 。 通 常 这 种 方式 只 用 于 不 太 
关键 的 应 用 和 非 IO 密集 型 应 用 ， 以 及 对 实时 性 要 求 不 高 的 应 用 。E-mail 服务 器 的 备份 就 是 典型 
的 例子 ， 因 为 E-mail 转发 实时 性 要 求 不 高 ， 转 发 速度 慢 一 些 ， 对 用 户 造成 的 影响 也 不 会 很 大 。 


2. 用 SAN 磁盘 作为 备份 目标 


用 SAN 上 的 磁盘 做 备份 ， 就 是 把 备份 对 象 上 需要 备份 的 数据 ， 从 本 地 磁盘 读 入 内 存 ， 然 后 
从 内 存 中 写 入 连接 到 SAN 的 适配器 ， 即 HBA 卡 缓冲 区 ，HBA 卡 再 通过 线 绕 ， 将 数据 通过 SAN 
网 络 传送 到 磁盘 阵列 上 。 
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这 种 方式 的 优点 就 是 从 本 地 磁盘 读 出 数据 ， 写 入 的 时 候 只 耗费 SAN 共用 网 络 带宽 资源 ， 而 
且 能 获得 SAN 的 高 速度 , 对 备份 对 象 性 能 影响 相对 较 小 ; 缺点 是 对 公共 网 络 资源 和 盘 阵 出 口 带 宽 
有 一 定 影响 ， 因 为 耗费 了 一 定 的 带宽 用 来 传输 数据 ， 同 时 数据 在 流向 盘 阵 接口 的 时 候 ， 也 要 占用 
接口 带宽 。 
如 果 备份 对 象 数据 本 身 就 存放 在 SAN 上 的 磁盘 ， 而 备份 目标 同样 是 SAN 磁盘 ， 那 么 数据 流 
动 的 通路 比较 长 。 在 后 面 介绍 备份 通路 的 时 候 再 做 详细 阐释 。 
3. 用 NAS 目录 作为 备份 目标 
用 NAS 目录 作为 备份 目标 ， 就 是 将 本 地 磁盘 上 的 数据 备份 到 一 个 远程 计算 机 的 共享 目录 中 。 
比如 Windows 环境 下 常用 的 文件 夹 共享 ， 就 是 这 样 一 个 典型 的 例子 。 一 台 计 算 机 共享 一 个 目录 ， 
另 一 台 计 算 机 向 这 个 目录 中 写 入 数据 。 而 数据 一 般 是 通过 以 太 网 络 来 进行 传递 的 。 这 种 方式 占用 
了 前 端 网 络 的 带宽 ， 但 是 相对 廉价 ， 因 为 不 需要 部 署 SAN。 
4. 用 SAN 上 的 磁带 库 作为 备份 目标 
用 FC 接口 作为 外 部 传输 接口 的 设备 , 不 仅仅 有 主机 上 的 HBA 适配器 、 磁 盘 阵 列 , 磁带 机 和 
磁带 库 , 也 可 以 用 FC 接口 作为 外 部 传输 接口 。 用 线 线 连 接 磁带 库 和 SAN 交换 机 之 后 , 处 于 SAN 
上 的 所 有 主机 系统 便 会 识别 出 这 台 磁 带 库 设备 ， 自 然 也 就 可 以 用 磁带 来 当 作 备份 目标 了 。 
磁带 库 ， 由 机 械 手 、 驱 动 器 、 磁 带 横 组 成 。 图 16-93 和 图 16-94 分 别 为 某 型 号 磁带 库 的 外 视 
图 和 某 型 号 磁带 库 的 内 视图 。 


| 居 7 # 
图 16-93 某 型 号 磁带 库 的 外 视图 图 16-94 菜 型 号 磁带 库 的 内 视图 
磁带 驱动 器 是 磁带 库 的 核心 组 件 。 可 以 将 驱动 器 想象 成 一 个 电机 ， 带 动 磁带 旋转 ， 然 后 磁头 贴 
住 磁带 、 读 写 数据 ， 把 电机 、 磁 头 以 及 控制 电路 集合 到 一 起 ， 形 成 一 个 独立 的 模块 ， 就 是 驱动 器 。 
机 械 手 ,在 机械 生产 线 上 机 械 手 就 是 一 个 计算 机 夹子 而 已 ， 把 物品 从 一 个 地 方 移动 到 另 一 个 
地 方 ， 当 然 这 还 需要 程序 来 控制 。 而 且 像 图 16-94 中 所 示 的 一 样 ， 机 械 手 不 一 定 就 是 那 种 铁 臂 抓 
手 ， 而 只 要 它 能 寻找 磁带 槽 上 的 磁带 并 将 其 推 入 磁带 驱动 器 ， 就 可 以 称 其 为 机 械 手 。 
磁带 库 的 工作 流程 如 下 。 
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(1) 由 机 械 手 辟 从 磁带 槽 中 夹 取 一 盘 磁 带 , 推 入 磁带 驱动 器 , 驱动 器 完成 倒 带 、 读 写 等 动作 。 
(2 ) 读 出 完成 后 , 退 带 , 机 械 手 臂 夹 取 磁带 ， 放 回 磁带 槽 ,然后 夹 取 另 一 盘 磁 带 放 入 驱动 器 ， 
重复 刚才 的 动作 。 

整个 流程 都 需要 由 程序 来 控制 机 械 手 臂 和 驱动 器 , 那么 程序 运行 在 哪里 呢 ? 当然 是 连接 磁带 
库 的 主机 上 ， 程 序 生成 符合 协议 的 电信 号 ， 经 过 HBA 卡 传送 到 磁带 库 电 路 板 上 ， 经 过 芯片 处 理 ， 
转换 成 操控 机 械 手 臂 和 驱动 器 的 另 一 串 电 信号 。 所 以 连接 磁带 库 的 主机 上 ， 除 了 需要 安装 HBA 
适配器 的 驱动 程序 之 外 ， 还 需要 安装 磁带 库 机械 手 和 驱动 器 的 驱动 程序 ， 这 样 才能 够 按照 驱动 程 
序 定义 的 规则 ， 来 生成 符合 规定 的 、 磁 带 库 可 以 识别 的 电信 号 。 

磁带 机 比 磁带 库 功 能 少 ,但 是 基本 原理 都 是 一 样 的 ， 只 不 过 机 械 手 式 没 了 ， 取 磁带 和 放 磁 带 
需要 用 人 手 而 已 。 而 且 一 台 磁 带 机 同一 时 刻 只 能 操作 一 盘 磁带 。 而 在 磁带 库 中 可 能 有 多 个 驱动 器 ， 
或 者 多 个 机 械 手 ， 当 然 机 械 手 不 需要 那么 多 ， 因 为 一 个 机 械 手 就 能 完成 ， 除 非 驱动 器 多 得 让 一 个 
机 械 手 都 忙 不 过 来 , 这 是 不 太 可 能 发 生 的 。 多 个 驱动 器 可 以 同时 读 写 多 盘 磁 带 ( 每 个 驱动 器 一 盘 ) 
使 得 效率 大 大 提升 。 


提示 : 近年 来 ， 出 现 了 一 种 虚拟 磁带 库 产品 , 即 用 磁盘 来 模拟 磁带 。 当 然 ， 磁 盘 就 是 磁盘 ， 
不 可 能 变 为 磁带 ， 那 磁盘 是 怎么 被 虚拟 成 磁带 的 呢 ? 当然 是 通过 存储 控制 器 来 虚拟 化 。 


话说 回来 ， 是 磁带 还 是 磁盘 ， 这 都 取决 于 数据 服务 器 看 到 的 影像 ， 而 它 看 到 的 也 不 一 定 就 是 
实际 上 存在 的 。 虚 拟 磁带 库 也 正 是 利用 了 这 个 原理 。 使 用 磁带 库 的 是 主机 服务 器 ， 如 果 让 主机 服 
务 器 看 到 的 影像 就 是 一 个 磁带 库 ， 而 实际 上 却 是 一 台 磁 盘 阵 列 ， 那 么 主机 照样 会 像 使 用 磁带 库 一 
样 使 用 这 台 虚 拟 的 磁带 库 。 要 做 到 这 一 点 ， 就 必须 在 磁盘 阵列 的 控制 器 上 做 虚拟 化 操作 ， 也 就 是 
要 实现 协议 转换 器 类 似 的 作用 ， 一 边 以 磁带 库 的 逻辑 工作 ， 另 一 边 以 磁盘 阵列 的 逻辑 工作 。 

虚拟 磁带 库 的 好 处 如 下 。 

， ”速度 大 大 提升 。 因 为 向 磁盘 写 入 数据 要 比 磁带 快 。 

， ”避免 了 机 械 手 这 种 复杂 的 机 械 装 置 ， 取 而 代 之 的 是 控制 器 上 的 电路 板 。 

， ”管理 方便 ， 随 意 增删 虚拟 磁带 。 


提示 : LTO 磁带 的 “ 鞋 擦 ”效应 。 目 前 最 新 的 LTO 是 LTO5 代 技 术 ， 它 能 够 在 不 压缩 的 情 
况 下 每 秒 写 人 180MB 的 数据 。 但 是 磁带 驱动 器 有 个 缺点 , 就 是 一 旦 开始 写 入 , 电机 会 以 全 
速 运 转 ， 以 额定 速度 写 入 数据， 一 旦 备份 软件 提供 给 驱动 器 的 数据 速率 达 不 到 驱动 器 额定 
速度 的 时 候 ， 这 种 情况 称 为 “从 载 ”， 那 么 有 些 驱 动 器 则 可 以 降低 转速 ， 有 些 则 保持 转速 
而 降低 数据 存储 密度 来 适应 欠 载 。 但 是 驱动 器 有 一 个 最 低 转速 和 最 低 密度 ， 当 备份 软件 连 
这 个 速度 也 满足 不 了 的 时 候 ， 磁 带 驱 动 器 只 能 够 先 暂停 下 来 ， 停 止 转动 ， 然 而 又 不 能 急 刹 
车 ， 急 刹车 会 拉 坏 甚至 拉 断 带子 ， 所 以 只 能 慢 慢 停 下 来 ， 这 就 导致 磁头 所 处 位 置 比 数据 截 
止 位 置 超前 一 段 距 离 。 当 数据 进入 的 速度 能 够 满足 最 小 速度 或 者 密度 之 后 ， 磁 带 驱 动 器 再 
尝试 写 信 数据， 但 是 此 时 磁带 需要 被 倒 带 至 上 次 的 数据 截止 位 ， 然 后 继续 将 积攒 在 缓存 
中 的 数据 写 人 ， 当 速度 再 次 不 匹配 时 ， 执 行 相同 的 过 程 ， 周 而 复 始 。 这 就 是 鞋 擦 效应 。 鞋 
擦 效应 会 严重 影响 磁带 的 寿命 ， 每 次 磁带 的 同一 位 置 被 磁头 划 过 ， 这 个 位 置 的 寿命 都 会 有 
所 降低 。 解 决 鞋 擦 效应 的 办 法 就 是 引入 D2D2T 备份 模型 ， 比 如 VTL 等 ， 用 磁盘 来 作为 磁 
带 的 大 缓冲 ， 或 者 提高 前 端 数据 生成 的 速率 。 
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5. 信息 生命 周期 管理 


假如 ， 某 企业 有 磁盘 阵列 容量 共 1TB， 磁 带 库 容量 10TB。 每 天 均 会 新 生成 5GB 左右 的 视频 
文件 ， 这 些 视频 文件 都 存放 在 磁盘 阵列 的 一 个 500GB 的 卷 中 。 这 样 不 到 3 个 月 ， 这 500GB 的 卷 
便 会 被 全 部 用 完 。 而 这 个 企业 频繁 调 出 查看 的 视频 ， 一 般 都 是 最 近 一 个 月 以 内 的 ， 如 果 将 一 个 月 
之 前 的 、 几 乎 很 少 或 者 永远 也 不 会 被 再 次 访问 到 的 视频 也 放 在 磁盘 阵列 上 ， 这 无 疑 是 一 个 巨大 的 
浪费 ， 因 此 完全 可 以 把 这 些 文件 备份 到 磁带 库 ， 而 腾 出 磁盘 阵列 上 的 存储 空间 ， 供 其 他 应 用 程序 
存储 数据 。 
磁盘 阵列 是 高 速 数 据 存储 设备 ， 而 磁带 库 是 低速 数据 存储 设备 ， 所 以 为 了 各 得 其 所 、 物 尽 其 
用 ， 有 人 便 开 发 了 一 套 信息 生命 周期 管理 软件 ， 这 种 软件 根据 用 户 设 定 的 策略 ， 将 使 用 不 频繁 的 
数据 , 移动 到 低速 、 低 成 本 的 存储 设备 上 。 比 如 只 给 某 个 视频 应 用 分 配 20GB 的 磁盘 阵列 的 空间 ， 
但 是 向 它 报告 500GB 的 存储 空间 ， 其 中 有 480GB 其 实 是 在 磁带 库 上 的 。 
这 样 ， 应 用 程序 源源 不 断 地 生成 视频 数据 ， 而 管理 软件 根据 策略 ， 比 如 某 视频 文件 超过 了 设 
定 的 存留 期 ， 便 将 它 移动 到 磁带 库 上 ， 腾 出 磁盘 阵列 上 的 空间 。 但 是 对 于 应 用 程序 来 说 ， 总 的 可 
用 空间 还 是 在 不 断 地 减少 。 虽 然 磁盘 阵列 上 可 能 总 是 有 空间 ， 但 这 些 空间 是 给 最 近 生 成 的 文件 使 
用 的 ， 因 为 这 些 文件 会 被 频繁 访问 。 如 果 一 旦 需要 访问 已 经 被 移动 到 磁带 库 上 的 文件 ， 则 管理 软 
件 会 从 磁带 库 提取 文件 ， 并 复制 到 磁盘 阵列 上 ， 然 后 供应 用 程序 访问 。 
6. 分 级 存储 
基于 信息 生命 周期 管理 的 这 个 思想 ,目前 很 多 厂家 都 在 做 相应 的 解决 方案 , 分 级 存储 就 是 这 
样 一 种 方案 。 
， ”第 一 级 : 一 线 磁盘 阵列 ,是 指 存储 应 用 频繁 访问 数据 的 磁盘 阵列 。 其 性 能 相对 二 线 和 三 
线 设备 来 说 应 该 是 最 高 的 。 
， ”第 二 级 : 二 线 虚拟 磁带 库 。 这 个 级 别 上 的 存储 设备 ,专门 存放 那些 近期 不 会 被 频繁 访问 
的 数据 。 其 性 能 和 成 本 应 该 比 一 线 设备 低 , 但 是 性 能 不 能 太 低 ， 以 至 于 提取 数据 的 时 候 
造成 应 用 长 时 间 等 待 , 虚拟 磁带 库 , 正好 满足 了 这 个 要 求 。 虚 拟 磁带 库 利 用 成 本 比较 低 
廉 的 大 容量 SATA 磁盘 , 性 能 适中 的 存储 控制 器 , 这 样 保证 了 性 能 不 至 于 像 磁 带 库 一 样 
低 ， 成 本 又 不 会 像 一 线 设备 一 样 高 。 
， ”第 三 级 : 磁带 库 或 者 光盘 库 等 。 这 个 级 别 上 的 设备 ,专门 存储 那些 几 年 甚至 十 几 年 都 不 
被 访问 到 的 ， 但 是 必须 保留 的 数据 。 磁 带 库 正 好 满足 了 这 个 要 求 ， 这 是 毫 无 疑问 的 。 


16.3.2 ”备份 通路 


1. 本 地 备份 


本 地 备份 的 数据 流向 是 : 

本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 线 一 磁盘 控制 器 一 总 线 一 本 地 磁盘 。 

即 数据 从 本 地 磁盘 出 发 ， 通 过 本 地 的 总 线 和 内 存 ， 经 过 CPU 运算 少量 控制 逻辑 代码 之 后 ， 
最 终 流 回 本 地 磁盘 。 


579 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


580 


2. 通过 前 端 网 络 备份 


通过 前 端 网 络 备 份 的 数据 流向 是 : 

本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 线 一 以 太 网 卡 一 网 线 一 以 太 网 络 一 网 线 一 
目标 计算 机 的 网 卡 -' 总 线 一 内 存 -* 总 线 一 目标 计算 机 的 磁盘 。 

即 数据 从 本 地 磁盘 发 出 ， 流 经 本 地 总 线 和 内 存 ， 然 后 流 到 本 地 网 卡 ， 通 过 网 络 传送 到 目标 计 
算 机 的 磁盘 上 。 

这 里 说 的 前 端 网 络 ， 指 的 是 服务 器 接受 客户 端 连接 的 网 络 ， 也 就 是 所 谓 “ 服 务 网 络 ”， 因 为 
这 个 网 络 是 服务 器 和 客户 端 连接 的 必 经 之 路 。 

后 端 网 络 ， 是 对 客户 封闭 的 ， 客 户 的 连接 不 用 经 过 这 个 网 络 ， 后 端 网络 专 用 于 服务 器 及 其 必 
需 的 后 端 部 件 之 间 的 连接 ， 比 如 ， 和 存储 设备 ， 或 者 应 用 服务 器 和 数据 库 服务 器 之 问 的 连接 ， 这 
些 都 不 需要 让 客户 终端 知道 。 

后 端 网 络 可 以 是 SAN, 也 可 以 是 以 太 网 , 或 者 其 他 任何 网 络 形式 。 以 太 网 并 不 一 定 就 特 指 前 
端 网 络 , 也 可 以 用 于 后 端 。 随 着 以 太 网 速度 的 不 断 提 高 ,现在 已 经 达到 了 10Gb/s 的 速率 , 所 以 以 
太 网 LAN 作为 后 端 网 络 ， 同 样 也 是 有 竞争 力 的 。 但 是 说 到 SAN， 一般 就 是 特 指 后 端 网 络 。 


3. 通过 后 端 网 络 备份 


通过 后 端 网 络 备份 的 数据 流向 是 : 本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 线 一 后 端 
网 络 适 配器 一 线 缆 一 后 端 网 络 交换 设施 一 线 缆 一 备份 目标 的 后 端 网 络 适配器 -总 线 一 内 存 一 备份 
目标 的 磁盘 或 者 磁带 。 

提示 : 这 里 说 的 “后 端 网 络 适 配器 ”, 泛 指 任何 形式 的 后 端 网 络 适 配器 ， 比 如 FC 适配器 、 

以 太 网 卡 等 。 


4.LAN Free 备份 


LAN Free 这 个 词 已 经 在 存储 领域 流行 使 用 多 年 。 它 的 意思 是 备份 的 时 候 , 数据 不 流 经 LAN， 
也 就 是 不 流 经 前 端 网 络 。 由 于 历史 原因 ， 导 致 了 人 们 的 思维 定 势 ， 认 为 LAN 只 用 于 前 端 网 络 ， 
所 以 说 到 了 LAN 就 想到 了 前 端 网 络 ， 然 而 ， 我 们 上 文 已 经 做 了 解释 ， 后 端 网 络 同样 可 以 使 用 以 
太 网 LAN。LAN 这 个 词 本 意 为 Local area network， 即 局 域 网 络 ， 它 没有 对 网 络 的 类 型 加 以 限制 ， 
可 以 说 存储 区 域 网 络 也 是 一 个 LAN。 


思考 : 笔者 认为 这 个 词 不 再 适合 当今 存储 领域 ， 取 而 代 之 的 应 该 是 Frontend Free 这 个 新 的 
名 词 ， 即 备份 的 时 候 ， 数 据 不 需要 流 经 前 端 网 络 ， 而 只 流 经 后 端 网 络 。 


Frontend Free 备份 的 好 处 是 : 不 耗费 前 端 网 络 的 带宽 ， 对 客户 终端 接收 服务 器 数据 不 会 造成 
影响 。 相 对 于 后 端 网 络 来 说 ， 前 端 网 络 一 般 为 慢 速 网 络 ， 资 源 非常 珍贵 ， 加 上 前 端 网 络 是 客户 端 
和 服务 器 端 通信 的 必 经 之 路 ， 所 以 要 尽量 避免 占用 前 端 网 络 的 资源 ， 备 份 数 据 长 时 间 频 繁 地 流 过 
前 端 网 络 ， 无 疑 会 对 生产 造成 影响 。 解 决 的 办 法 就 是 通过 后 端 网 络 进行 备份 ， 或 者 本 地 备份 。 

无 论 是 本 地 备份 ,还 是 通过 网 络 备份 (前端 网 络 或 者 后 端 网 络 ) ， 都 需要 待 备份 的 服务 器 付 
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出 代价 来 执行 备份 ， 即 服务 器 需要 读 取 备 份 源 数据 到 自身 的 内 存 ， 然 后 再 从 内 存 将 数据 写 入 备份 
目标 , 对 主机 CPU、 内 存 都 有 资源 耗费 。 是 否 能 让 服务 器 付出 极 小 的 代价 ， 甚 至 无 代价 而 完成 备 
份 任务 呢 ? 当然 可 以 。 


5. Server free 备份 


这 个 名 词 是 指 ， 备 份 的 时 候 ， 数 据 甚至 不 用 流 经 服务 器 的 总 线 和 内 存 ， 消 耗 极 少 ， 甚 至 不 消 
耗 主机 资源 。 下 面 来 分 析 一 下 。 

要 想 使 备份 数据 不 流 经 服务 器 本 身 ， 那 么 首先 备份 对 象 ， 即 待 备份 数据 所 在 的 地 方 肯 定 不 能 
是 服务 器 的 本 地 磁盘 ,因为 数据 从 磁盘 读 出 , 第 一 个 要 流 经 的 地 方 就 是 总 线 , 然后 到 服务 器 内 存 ， 
这 样 就 不 叫 Server free 了 。 

所 以 ,备份 源 不 能 在 服务 器 上 ， 同 理 ， 备 份 目标 也 不 能 在 服务 器 上 ， 不 然 写 入 的 时 候 照 样 流 
经 服务 器 的 总 线 和 内 存 。 那 么 到 底 怎样 才能 实现 Server free 呢 ? 

很 简单 ， 备 份 对 象 和 备份 目标 都 不 在 服务 器 上 ， 不 在 本 地 就 只 能 在 SAN 上 了 。 做 到 这 一 点 
还 不 够 ,因为 主机 要 从 SAN 上 的 一 个 磁盘 取出 数据 ， 写 入 SAN 上 的 另 一 个 磁盘 ， 同 样 需要 先 将 
数据 读 入 到 主机 的 内 存 ， 然 后 再 写 入 SAN。 那 么 到 底 怎 样 才能 做 到 Server free 呢 ? 

答案 是 , 用 SCSI 的 扩展 复制 命令 , 将 这 些 命令 发 送 给 支持 Server free 的 存储 设备 , 然后 这 些 
设备 就 会 提取 自身 的 数据 直接 写 入 备份 目标 设备 而 不 是 发 送 给 主机 。 或 者 用 另 一 台 计 算 机 作为 专 
门 移动 数据 之 用 ， 即 待 备份 的 主机 向 这 台数 据 移动 器 发 信号 ， 告 诉 它 移动 某 磁盘 上 的 数据 到 另 一 
个 磁盘 , 然后 这 台数 据 移动 器 从 SAN 上 的 源 磁盘 读 取 数 据 到 它 自 己 的 内 存 而 不 是 待 备份 主机 的 内 
存 ， 然 后 写 入 到 SAN 上 的 目标 磁盘 。 

提示 : 所 谓 的 Server free, 并 不 是 真正 的 不 需要 服务 器 来 移动 数据 ,而 是 让 服务 器 发 出 扩展 

复制 命令 ， 或 者 使 用 另 一 台 专 门 用 作 数 据 移动 的 新 服务 器 ， 来 代替 原来 服务 器 移动 备份 数 

据 ， 释 放 运 算 压力 很 大 的 生产 服务 器 。 当 然 ，SAN 上 的 源 磁盘 和 目标 磁盘 或 者 磁带 ， 数 据 

移动 服务 器 都 需要 有 访问 权 。 

为 了 统一 数据 备份 系统 中 所 有 节点 之 间 的 消息 流 格式 ，Netapp 公司 和 Legato 公司 合作 开发 了 
一 种 叫做 NDMP 的 协议 ( 网 络 数据 管理 协议 ) 。 这 个 协议 用 于 规范 备份 服务 器 、 备 份 对 象 、 备 份 
目标 等 备份 系统 各 种 节点 的 数据 交互 控制 。 服 务 器 只 要 向 支持 NDMP 协议 的 存储 设备 发 送 NDMP 
指令 ， 即 可 让 存储 设备 将 其 自己 的 数据 直接 备份 到 其 他 设备 上 ， 而 根本 不 需要 流 经 服务 器 主机 。 


16.3.3 备份 引擎 


备份 引擎 ， 就 是 一 套 策略 、 一 套 规则 ， 它 决定 整个 数据 备份 系统 应 该 怎么 运作 ， 按 照 什 么 策 
略 来 备份 ， 备 份 哪些 内 容 ， 什 么 时 候 开 始 备份 ， 备 份 时 间 有 没有 限制 ， 磁 带 库 中 的 磁带 什么 时 候 
过 期 并 可 以 重新 抹 掉 使 用 等 。 就 像 引擎 一 样 ， 开 动 之 后 ， 整 个 备份 就 按照 程序 有 条 不 亲 地 进行 。 


1. 备份 服务 器 


那么 备份 引擎 以 一 种 什么 形式 来 体现 呢 ? 毫 无 疑问 ， 当 然 是 运行 在 主机 上 的 程序 来 执行 ,所 
以 需要 有 这 么 一 台 计 算 机 来 做 这 个 引擎 的 执行 者 ， 这 台 计 算 机 就 叫做 “备份 服务 器 ”， 意 思 就 是 
这 台 计算 机 专门 管理 整个 数据 备份 系统 的 正常 运作 ， 制 定 各 种 备份 策略 。 
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思考 : 备份 服务 器 的 备份 策略 和 规则 ， 怎 样 传送 给 整个 数据 备份 系统 中 的 各 个 待 备份 的 服 
务 器 呢 ? 和 汽车 一 样 ， 车 轮 和 引擎 之 间 有 传动 轴 连 接 ， 备 份 服务 器 和 待 备份 的 服务 器 之 问 
也 有 网 络 来 连接 ， 那 么 通过 以 太 网 还 是 通过 SAN 网 络 来 连接 呢 ? 


答案 是 以 太 网 络 ， 因 为 以 太 网 络 使 用 广泛 ， 以 太 网 之 上 的 TCP/IP 编程 已 经 非常 成 熟 ， 非 常 
适合 节点 间 通 信 。 相 对 于 以 太 网 ，SAN 更 加 适合 传送 大 量 数据 。 而 利用 前 端 网 络 连 接 还 是 利用 后 
端 网 络 连 接 呢 ? 

一 般 我 们 常用 前 端 网 络 来 连接 待 备份 服务 器 和 备份 服务 器 。 因 为 备份 策略 就 好 比 两 个 人 之 间 
说 了 几 句 话 ， 所 以 把 这 几 句 话 传送 给 待 备份 服务 器 ， 不 会 耗费 很 大 的 网 络 资源 ， 充 其 量 每 秒 几 十 
个 包 而 已 ， 这 对 前 端 网 络 影响 非常 小 。 有 了 网 络 连接 ， 我 们 就 有 了 物理 层 的 保障 。 

但 备份 服务 器 是 如 何 与 每 个 待 备份 的 服务 器 建立 通话 的 呢 ? 它们 之 间 怎 么 通话 ? 通话 的 规 
则 怎么 定 呢 ? 这 就 需要 待 备份 服务 器 上 运行 一 个 程序 ， 专 门 解释 备份 服务 器 发 来 的 命令 ， 然 后 根 
据 命令 ， 做 出 动作 。 

这 个 运行 在 各 个 待 备份 服务 器 上 的 程序 ， 就 叫做 备份 代理 ( Backup Agent ) ， 它 们 监听 某 个 
Socket 端口 ， 接 收 备份 服务 器 发 来 的 命令 。 比 如 ， 某 时 刻 备份 服务 器 通过 以 太 网 前 端 网 络 ， 给 某 
个 待 备份 服务 器 发 送 一 条 命令 ， 这 条 命令 被 运行 在 该 待 备份 服务 器 上 的 备份 代理 程序 接收 ， 内 容 
是 : 立即 将 位 于 该 服务 器 上 C 盘 下 的 XX 目录 复制 到 了 E 盘 下 XXX 目录 。 备 份 代理 接收 到 这 个 命 
令 之 后 , 就 会 将 该 待 备份 服务 器 上 C 盘 下 XX 目录 复制 到 E 盘 下 的 XXX 目录 。 如 果 D 盘 是 本 地 
盘 , E 盘 是 一 个 SAN 上 的 虚拟 磁盘 ， 那 么 实际 数据 流动 的 路 径 就 是 : 

本 地 磁盘 一 总 线 一 内 存 一 "总线 一 SAN 网 络 适 配器 一 线 费 一 SAN 交换 设施 (如果 有 ) 一 磁盘 
阵列 。 

数据 源源 不 断 地 从 本 地 磁盘 流向 SAN 网 络 上 的 磁盘 阵列 ， 成 功 备份 之 后 ， 备 份 代理 收 到 来 
自 待 备份 服务 器 操作 系统 的 成 功 提示 ， 然 后 备份 代理 通过 以 太 网 向 备份 服务 器 返回 一 条 成 功 完成 
的 提示 。 这 样 备份 服务 器 便 会 知道 这 个 备份 已 经 成 功 完成 ， 并 记录 下 开始 时 间 、 结 束 时 间 、 是 否 
成 功 等 信息 。 

同样 的 道理 , 如 果 例 子 中 的 E 盘 也 是 本 地 盘 , 那么 路 径 就 短 多 了 。 如 果 备 份 服务 器 告诉 备份 代 
理 ， 将 数据 复制 到 位 于 SAN 上 的 磁带 库 设备 而 不 是 磁盘 阵列 ， 那 么 同样 ， 备 份 代理 将 数据 从 本 地 
磁盘 读 出 ， 然 后 通过 SAN 网 络 适配器 发 往 磁带 库 。 当 然 这 需要 在 待 备份 的 服务 器 上 安装 可 以 操控 
磁带 库 设 备 的 驱动 程序 。 同 理 , E 盘 如 果 是 个 NAS 目录 , 则 数据 便 会 被 发 往 远 端的 NAS 服务 器 了 。 


2. 介质 服务 器 


设想 :假如 在 一 个 数据 备份 系统 中 ， 有 一 台 普 通 的 SCSI 磁 带 机 连接 在 某 台 主机 上 , 且 有 多 
台 主 机 的 数据 需要 备份 到 这 台 SCSI 磁带 机 的 磁带 中 ， 而 SCSI 磁带 机 只 能 同时 接 到 一 台 主 
机 上 ， 总 不 能 搬 着 磁带 机 ， 给 每 个 机 器 轮流 插 上 用 吧 ? 


当然 可 以 ， 但 是 这 样 很 麻烦 。 有 没有 一 种 办 法 来 解决 这 个 问题 呢 ? 当然 有 了 。 可 以 将 这 台 磁 
带 机 连接 到 固定 的 一 台 计算 机 , 只 能 由 这 台 计 算 机 来 操作 磁带 机 。 其 他 有 数据 需要 备份 的 计算 机 ， 
和 这 人 台 掌管 SCSI 磁带 机 使 用 权 的 计算 机 ， 通 过 以 太 网 连接 起 来 ( 当然 也 可 以 通过 其 他 网 络 方式 
连接 ， 但 前 面 说 过 ， 以 太 网 是 最 廉价 、 最 广泛 使 用 的 网 络 ) ， 谁 有 数据 ， 谁 就 将 数据 通过 以 太 网 


第 16 章 未 雨 绸 缪 一 数据 保护 和 备份 技术 @ 


发 给 这 台 掌管 磁带 机 的 计算 机 , 收 到 数据 后 , 这 台 计 算 机 将 数据 写 入 只 有 它 才 有 权 控 制 的 磁带 机 。 
写 完 后 ， 下 一 台 有 数据 需要 备份 的 计算 机 ， 重 复 刚 才 的 动作 。 

这 样 ， 我 们 用 了 一 台 计 算 机 来 掌管 SCSI 磁带 机 ， 然 后 在 这 台 计 算 机 的 前 端 ， 我 们 用 以 太 网 
扩展 了 连接 。 虽 然 微观 上 磁带 机 只 有 一 个 接口 ， 只 能 连接 一 台 计 算 机 ， 但 是 经 过 以 太 网 的 扩展 之 
后 ， 这 台 磁 带 机 成 为 了 公用 设备 ， 掌 管 磁带 机 的 计算 机 成 为 了 代替 这 些 服务 嚣 行使 备份 动作 的 角 
色 ， 因 为 整个 数据 备份 系统 中 ， 只 有 这 台 计 算 机 掌管 了 备份 目标 ， 也 就 是 磁带 机 、 磁 带 ， 所 以 我 
们 称 这 台 服 务 器 为 “介质 服务 器 ”。 也 就 是 说 , 这 台 服 务 器 是 数据 备份 系统 中 备份 介质 的 掌管 者 ， 
其 他 人 都 不 能 直接 访问 备份 介质 。 


思考 : 这 台 计 算 机 只 是 掌握 了 备份 介质 ， 谁 都 可 以 向 它 发 起 请 求 ， 然 后 传输 需要 备份 的 数 
据 给 它 。 但 是 如 果 同 时 有 多 台 服 务 器 向 它 发 出 请 求 ， 怎 么 办 ? 


显然 还 需要 一 个 调度 员 ， 来 管理 调度 好 多 个 待 备 份 服务 器 之 间 的 顺序 ， 做 到 有 条 不 亲 , 按照 
预订 的 策略 来 备份 ， 避 免 冲 突 。 那 么 谁 来 


担当 调度 员 呢 ? 前 面 讲 到 的 “备份 服务 器 ” 
本 身 就 是 这 样 一 个 调度 ,所 以 非 他 莫 属 了 。 9 3 2 [sos 

将 这 个 调度 员 也 接 入 以 太 网 ,调度 员 
使 出 它 的 必 胜 大 法 一 一 在 每 个 待 备份 的 服 
务 器 上 , 都 安装 它 的 “ 耳 打 ”和 “嘴巴 ”， 
即 备份 代理 程序 ， 通 过 这 个 耳 休 和 嘴巴 ， 
调度 员 让 每 台 服务 器 都 乖 于 地 听话 ， 按 照 
顺序 有 条 理 地 使 用 介质 服务 器 提供 的 备份 
介质 进行 备份 。 在 一 个 数据 备份 系统 中 ， E | 
介质 服务 器 可 以 有 多 台 同 时 分 担 工作 。 本 Se 
图 16-95 是 一 个 Veritas Netbackup 备 
份 软件 的 备份 流程 。 图 16-95 备份 流程 

(1 ) 某 时 刻 ， 备 份 服务 器 发 起 备份 ， 

它 通知 “介质 服务 器 A” 备 份 “ 待 备份 服务 器 C” 上 的 相应 内 容 。 

(2) “介质 服务 器 A” 向 服务 器 发 出 指令 , 告诉 它 可 以 进行 备份 了 , 请 发 送 需要 备份 的 数据 。 

(3 ) 待 备份 服务 器 C 把 需要 备份 的 数据 通过 以 太 网 发 送 给 “介质 服务 器 A”。 

(4) “介质 服务 器 A” 将 收 到 的 数据 源源 不 断 地 写 入 磁带 机 。 

(5 ) 重复 第 (1 ) 步 ， 只 不 过 介质 服务 器 为 B， 待 备份 服务 器 为 A。 

上 面 这 个 拓扑 图 ， 是 一 个 Frontend unfree 备份 方式 。 因 为 备份 数据 流 占 用 了 前 端 网 络 带宽 。 

至 此 , 我 们 的 数据 备份 系统 中 ,已 经 有 了 三 个 角色 了 : 备份 服务 器 ( 调度 员 ) 、 介 质 服务 器 
(仓库 房间 管理 员 ) 、 待 备份 服务 器 ( 存储 货物 的 人 ) 。 

再 转 回去 看 看 还 没有 出 现 “ 介 质 服务 器 ”前 的 那个 例子 。 会 发 现 那 时 候 ， 仓 库房 间 尚 充足 ， 
仓库 每 个 门 都 开 着 ， 每 个 人 都 可 以 从 各 自 的 门 进去 存放 物品 ， 每 个 需要 存放 货物 的 人 都 有 权 直 接 
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访问 它们 的 仓库 房间 ， 它 们 只 靠 一 个 调度 员 来 协调 。 这 时 候 可 以 认为 ， 每 个 消费 者 都 在 管理 着 仓 
库房 间 ， 它 们 每 个 人 都 是 仓库 房间 管理 员 ， 只 不 过 它们 各 自 管理 自己 的 房间 而 已 。 所 以 ， 这 种 情 
况 下 ， 每 台 待 备份 的 服务 器 ， 都 是 介质 服务 器 ， 而 且 每 台 介质 服务 器 因为 都 需要 操控 备份 设备 ， 
所 以 还 需要 安装 诸如 磁带 库 等 设备 的 驱动 程序 。 而 备份 服 
务 器 只 有 一 个 。 
相对 于 由 存放 货物 的 人 自行 管理 仓库 房间 的 情况 , 由 
专人 来 管理 仓库 房间 , 所 耗费 的 前 端 网 络 资源 更 大 。 因 为 
存储 货物 的 人 , 首先 需要 通过 网 络 将 货物 发 送 给 仓库 管理 
员 , 然后 管理 员 再 将 货物 放 入 仓库 。 而 如 果 让 存储 货物 的 
人 自己 存放 ， 则 会 省 去 第 一 步 。 
图 16-96 所 示 的 就 是 用 上 述 思想 进行 数据 备份 的 一 
个 拓扑 图 。 
(1) 备份 服务 器 通过 以 太 了 网 ， 同 时 向 三 台 介质 服务 器 
(也 是 待 备份 服务 器 ) 发 出 备份 开始 指令 。 

(2 ) 待 备份 服务 器 直接 将 数据 通过 后 端 SAN 网 络 设 
施 写 入 备份 目标 。A 和 B 的 备份 目标 是 磁盘 阵 
列 , 它们 可 以 同时 写 入 备份 目标 。C 的 备份 目标 
是 磁带 库 ， 如 果 磁 带 库 只 有 一 个 驱动 器 , 则 同一 
时 刻 只 能 用 于 一 个 备份 操作 ， 这 个 例子 中 ， 磁 带 库 被 C 独占 。 当 然 C 完成 备份 之 后 ， 
磁带 库 可 以 被 其 他 服务 器 使 用 。A、B、C 都 安装 有 磁带 库 机 械 手 和 驱动 器 的 驱动 程序 。 

上 面 的 拓扑 图 (图 16-96 ) ， 就 是 一 个 典型 的 Frontend Free 备份 方式 ， 因 为 备份 数据 流 不 占 
用 前 端 网 络 带宽 ， 而 只 有 备份 时 所 发 送 的 指令 数据 经 过 了 前 端 网 络 。 

随 着 各 种 应 用 系统 的 不 断 出现 ， 比 如 ， 各 种 数据 库 管 理 系统 、E-mail 转发 处 理 系统 、ERP 
系统 、 办 公 自 动 化 系统 等 ， 备 份 技术 也 随 之 飞快 发 展 ， 传 统 的 备份 操作 ， 仅 仅 是 备份 操作 系统 文 
件 ， 即 不 管 这 个 文件 是 何 种 类 型 ， 被 什么 应 用 程序 生成 和 使 用 ， 备 份 的 时 候 统统 当 作 一 个 抽象 的 
备份 源 来 看 待 ， 只 需要 把 这 个 文件 整体 传送 到 备份 目标 就 可 以 了 。 

如 今 , 用 户 的 需求 越 来 越 高 , 越 来 越 细 化 。 比如 , 某 用 户 要 求 只 备份 某 数据 库 中 的 某 个 表 空间 ， 
或 者 只 备份 某 个 E-mail。 由 于 一 个 表 空间 包含 一 个 或 者 多 个 数据 文件 ， 这样 命令 发 给 备份 代理 的 时 
， 只 能 是 这 样 : “备份 某 数据 库 下 的 某 表 空 间 ”， 而 不 是 : “备份 X 盘 又 目录 下 XXX 文件 ”。 
为 调度 员 不 可 能 知道 某 个 表 空 间 到 底 包含 哪些 具体 的 文件 。 要 完成 这 个 备份 动作 ， 必 须 由 运行 在 
份 服务 器 上 的 某 种 代理 程序 来 参与 。 那 么 这 个 代理 是 否 可 以 是 上 文 提 到 的 备份 代理 呢 ? 

完全 可 以 , 但 是 有 个 需要 增加 的 功能 ， 即 这 个 代理 程序 必须 可 以 与 待 备 份 的 应 用 程序 进行 通 
信 ， 从 而 获得 相关 信息 。 可 以 有 两 种 方式 来 完成 备份 : 直接 获取 到 这 个 表 空 间 对 应 的 数据 文件 有 
哪些 ， 然 后 自行 备份 这 些 文件 ; 或 者 直接 调用 数据 库 管理 系统 的 命令 ， 向 数据 库 管理 系统 发 出 命 
令 ， 备份 这 个 表 空间 。 

如 果 是 第 一 种 方式 ， 将 调度 员 发 出 的 命令 对 应 成 实际 文件 的 工作 。 比 如 ， 需 要 备份 的 是 一 个 
DB2 数据 库 上 的 某 个 表 空 间 ， 那 么 这 个 代理 程序 需要 与 DB2 实例 程序 进行 通信 ，DB2 实例 服务 
程序 告诉 备份 代理 , XXX 表 空 间 对 应 的 容器 (数据 文件 ) 为 某 某 路 径 下 某 某 文件 。 备份 代理 获得 


图 16-96 Frontend Free 
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这 些 信息 后 ， 直 接 将 对 应 的 文件 备份 到 备份 目标 。 

wa。 式 ， 备 份 代理 收 到 调度 员 指 令 之 后 ， 便 会 向 DB2 实例 服务 程序 发 出 指令 
“db2 backup db testdb tablespace userspacel online to \\.tape0”, 这 样 ， 就 利用 DB2 自身 的 备份 工具 
备份 了 数据 。 目 前 广泛 使 用 的 做 法 都 是 第 二 种 方式 ， 因 为 解 铃 还 需 系 铃 人 ， 用 应 用 程序 本 身 的 备 
份 工具 进行 备份 是 最 保险 的 方法 。 

综 上 所 述 ， 对 于 每 一 种 待 备份 的 应 用 程序 ， 都 需要 一 个 可 以 和 该 应 用 程序 进行 通信 的 代理 程 
序 ， 这 就 需要 开发 针对 各 种 应 用 程序 的 代理 。 目 前 ， 像 Symantec Backup Exec 备份 软件 ， 提 供 了 
诸如 Oracle 数据 库 代 理 、DB2 数据 库 代 理 、Exchange 代理 、Lotus Notes 代理 、SQL Server 代理 、 
SAP 代理 等 诸多 应 用 程序 的 备份 代理 。 
图 16-97 中 的 ServerFree Option 就 是 用 来 实现 ServerFree 功能 的 一 个 模块 。 Agent for 开头 的 
选 件 ， 就 是 针对 各 种 应 用 程序 所 开发 的 备份 代理 程序 。NDMP 选 件 ， 用 来 实现 ServerFree 所 需要 
的 协议 栈 。 


已 撞 受 9 许可 证 密 钥 | 
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图 16-97 各 种 备份 代理 及 插件 
SAN Shared Storage Option， 是 用 来 管理 那 种 “每 台 待 备份 服务 器 都 是 介质 服务 器 ”情况 下 ， 
各 个 服务 器 对 备份 目标 设备 的 共享 使 用 权 的 一 个 模块 。 因 为 每 台 服务 器 都 装 有 目标 设备 〈 磁带 库 
等 ) 的 驱动 程序 ， 都 可 以 控制 磁带 库 ， 为 了 避免 意外 冲突 ，SAN Shared Storage Option 作为 一 个 
附加 的 选 件 来 协调 各 个 服务 器 之 间 有 顺序 地 使 用 目标 设备 而 不 发 生 冲 突 。 


16.3.4 三 种 备份 方式 


1. 完全 备份 


假如 某 时 刻 某 文件 中 只 包含 了 一 个 字符 A。 此 时 我 们 对 这 个 文件 做 了 备份 操作 ， 将 其 复制 到 
其 他 介质 上 ， 这 份 备份 的 文件 中 只 包含 字符 A。 

稍 后 , 这 个 文件 被 修改 , 在 字符 A 之 后 增加 了 一 个 字符 B。 此 时 我 们 又 对 这 个 文件 做 了 备份 ， 
将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 包含 字符 A、B。 

以 后 ,不管 这 个 文件 怎么 变化 ， 变 成 多 大 ,包含 多 少 个 字符 ， 只 要 备份 ， 就 将 这 个 文件 整个 
备份 下 来 ， 这 就 是 完全 备份 。 


2. 差 量 备份 


假如 某 时 刻 某 文件 中 包含 100 个 数字 1、2、3、…… 、100, 在 对 其 做 完全 备份 后 ,文件 中 增 
加 了 一 个 数字 101, 又 过 了 一 段 时 间 , 文件 中 又 增加 了 一 个 数字 102, 而 我 们 已 经 有 了 一 个 完全 备 
份 ,这 个 备份 已 经 包含 了 文件 中 1~ 100 这 100 个 数字 , 如果 我 们 此 时 再 次 对 这 个 文件 做 完全 备份 ， 
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是 不 是 太 浪费 时 间 和 存储 空间 了 呢 ? 得 想 出 一 种 办 法 ， 即 只 备份 自从 上 次 完全 备份 以 来 发 生变 化 
的 数据 。 

完全 可 以 , 我 们 以 一 种 自己 可 以 识别 的 格式 ,将 101 和 102 这 两 个 数字 保存 到 一 个 单独 的 文 
件 中 。 这 就 叫做 差 量 备份 ， 意 思 就 是 只 备份 与 上 次 完全 备份 内 容 之 间 相差 的 内 容 。 如 果 要 恢复 这 
份 最 新 的 文件 ， 只 要 将 上 次 完全 备份 和 最 后 一 次 的 差 量 备份 合并 起 来 ， 便 可 组 成 最 终 的 最 新 完全 
备份 ， 从 而 恢复 数据 。 

差 量 备份 要 求 必须 对 数据 做 一 次 完全 备份 , 从 而 作为 差 量 的 基准 点 。 否则 随意 找 一 个 基准 点 ， 
所 生成 的 数据 是 不 完整 的 。 


3. 增 量 备份 


经 过 了 完全 备份 和 差 量 备份 ， 我 们 已 经 有 了 两 个 备份 文件 : 包含 数字 1 ~ 100 的 完全 备份 和 
包含 数字 101 和 102 的 差 量 备份 。 如 果 这 份 文件 每 天 都 会 增加 一 个 数字 ， 而 我 们 每 天 都 要 做 差 量 
备份 甚至 完全 备份 么 ?这 里 还 有 一 种 选择 ， 就 是 增 量 备份 。 

增 量 备份 是 指 : 只 备份 自从 上 次 备份 以 来 的 这 份 文件 中 变化 过 的 数据 。 这 里 的 “上 次 备份 ”， 
不 管 上 一 次 备份 是 全 备 、 差 备 ， 还 是 增 备 自身 ， 本 次 增 量 备份 只 备份 和 上 一 次 备份 结束 的 时 刻 ， 
这 份 文件 变化 过 的 数据 。 比 如 ,我 们 现在 拥有 包含 数字 1 ~ 100 的 完全 备份 和 包含 数字 101 和 102 
的 差 量 备份 。 此 时 ， 我 们 打算 以 后 每 天 执行 增 量 备份 ， 那 么 ， 第 二 天 ， 这 份 文件 增加 了 一 个 数字 
103， 所 以 我 们 只 备份 103 这 个 数字 , 依 此 类 推 ， 第 三 天 我 们 只 备份 104 这 个 数字 ,这 样 备份 速度 
极 大 地 加 快 了 ， 备 份 所 消耗 的 空间 也 小 了 。 

提示 : 在 实际 使 用 中 可 以 灵活 地 制定 各 种 策略 ， 比 如 每 周一 对 数据 进行 完全 备份 ， 周 二 到 

周 五 每 天 对 数据 进行 增 量 备份 等 。 


如 果 对 数据 进行 增 量 或 者 差 量 备份 ， 普 通 的 文件 ， 备 份 软件 一 般 是 可 以 检测 到 文件 相对 上 次 
备份 时 候 所 发 生 的 变化 的 。 但 数据 库 的 备份 ， 备 份 软件 想 检测 某 个 数据 文件 的 变化 ， 一 般 来 说 是 
不 可 能 的 , 因为 这 些 文件 内 部 格式 是 非常 复杂 的 , 只 有 数据 库 管理 软件 自身 才能 分 析 并 检测 出 来 ， 
所 以 每 个 数据 库 管理 软件 (如 Oracle、DB2 等 ) 都 有 自己 的 备份 工具 ， 可 以 全 备 、 差 备 和 增 备 ， 
而 第 三 方 备份 软件 在 对 数据 库 做 备份 的 时 候 ， 只 能 调用 数据 库 软 件 自身 提供 的 各 种 命令 ， 或 者 程 
序 接口 。 


16.3.5 ”数据 备份 系统 案例 一 


前 面 介 绍 了 数据 保护 的 基本 原理 和 大 体 思路 ， 下 面 来 看 下 现实 中 的 数据 备份 领域 ， 了 解 一 下 
现今 广泛 实行 的 数据 备份 都 是 怎么 做 的 。 

下 面 用 一 个 企业 的 IT 系统 作为 一 个 初始 化 的 例子 ， 如 图 16-98 所 示 ， 某 企业 IT 系统 现 有 
FTP 服务 器 一 台 , E-mail 服务 器 一 台 , 基于 SAP 的 ERP 服务 器 一 台 , DB2 数据 库 服务 器 一 台 ( 用 
于 SAP 服务 器 的 后 台数 据 库 ) ， 备 份 服务 器 一 台 ， 大 型 FC 磁盘 阵列 一 台 ， 小 型 磁带 库 一 台 (一 
个 机 械 手 ， 两 个 驱动 器 ) 。 
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磁带 模 


16-98 某 公 司 IT 系统 示意 图 

以 上 五 台 服务 器 各 用 以 太 网 卡 连接 到 同一 个 以 太 网 交换 机 上 ， 同 时 各 个 办 公 室 的 客户 端 PC 
也 通过 局 域 网 连接 到 这 台 交 换 机 上 。 另 外 ， 除 备份 服务 器 之 外 的 四 台 服务 器 上 分 别 装 有 一 块 FC 
HBA 适 配 卡 ， 且 通过 光纤 连接 到 一 台 SAN 交换 机 上 。 磁盘 阵列 也 用 一 条 光纤 连接 到 SAN 交换 机 
上 。 该 企业 使 用 Symantec Backup Exec 11D 备份 软件 进行 备份 操作 。 

在 备份 服务 器 上 需要 安装 Symantec Backup Exec 的 软件 Master Server 模块 。 

在 每 台 待 备份 的 服务 器 上 需要 安装 Symantec Backup Exec 的 Media Server 模块 、 磁 带 库 驱 动 
程序 、 对 应 的 应 用 程序 备份 代理 模块 。 

在 备份 服务 器 上 ， 用 Symantec Backup Exec 提供 的 配置 界面 ， 来 制定 针对 每 台 服 务 器 的 备份 
策略 ,策略 生效 之 后 ， 各 个 服务 器 便 会 按照 策略 中 规定 的 时 间 、 备 份 源 、 备 份 目标 来 将 各 自 的 数 
据 备 份 到 相应 的 备份 目标 。 这 是 一 个 典型 的 企业 数据 备份 系统 案例 ， 数 据 流 经 的 路 径 不 包括 前 端 
网 络 ， 所 以 属于 Frontend Free 备份 。 


16.3.6 ”数据 备份 系统 案例 二 


Symantec Netbackup 是 Symantec 公司 的 另 一 个 备份 产品 ,与 Backup Exec 不 同 的 是 ， Netbackup 
适合 于 大 型 备份 系统 ， 支 持 各 种 操作 系统 平台 ， 各 个 模块 可 以 分 别 安装 在 不 同 操作 系统 上 ， 由 于 
之 间 通 过 TCP/IP 协议 通信 , 所 以 可 以 屏蔽 各 种 操作 系统 的 不 同 。 而 Backup Exec 只 支持 Windows 
和 Netware 操作 系统 (最 新 的 11D 版 本 支持 Linux ) 。NetBackup 更 加 适合 异 构 操作 系统 平台 的 
备份 ， 因 此 适合 拥有 众多 不 同 厂家 服务 器 、 不 同 操作 系统 的 大 型 企业 的 备份 系统 。 


587 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


提示 : 关于 NetBackup 可 参考 第 16.3.7 节 的 NetBackup 配置 指南 
图 16-99 所 示 的 是 某 企业 备份 系统 的 拓扑 图 。 


HP Ultrium 磁带 库 人 IBM 3580 磁带 库 


图 16-99 某 公司 IT 系统 示意 图 

该 企业 有 四 台 DB2 数据 库 服 务 器 ， 主 机 名 分 别 为 : bbpsrv、bbpsr2 、smmdb 、microcct， 皆 使 
用 Windows 2000 Advanced Server 操作 系统 。 

其 上 分 别 安装 NetBackup 软件 的 介质 服务 器 模块 和 磁带 库 驱 动 程序 。 

其 中 bbpsrv 服务 器 连接 有 一 台 SCSI 磁带 机 ，microcct 服务 器 连接 有 两 台 SCSI 磁带 机 。 这 四 
台数 据 库 服务 器 也 是 待 备份 的 服务 器 。 

一 台 备份 服务 器 ， 主 机 名 为 houseprd， 使 用 Windows 2000 Advanced Server 操作 系统 ， 其 上 
安装 有 NetBackup 软件 的 Master Server 模块 (默认 包含 了 Media Server 模块 ) ， 同 时 也 安装 了 磁 
带 库 驱动 程序 ， 并 且 通 过 SCSI 线 缆 连 接 有 一 台 磁 带 机 。 

一 台 HP Ultium 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 

一 台 IBM 3580 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 

在 这 个 备份 系统 中 , 由 Master Server 进行 调度 , 每 台 DB2 数据 库 服务 器 都 将 待 备份 的 数据 通 
过 SAN 交换 机 传输 给 磁带 库 。 由 于 共有 五 台 服务 器 使 用 两 台 磁 带 库 , 所 以 需要 由 这 五 台 服务 嚣 共 
享 这 两 台 磁带 库 ， 为 了 避免 冲突 ， 调 度 工作 统统 由 Master Server 来 进行 。 


16.3.7 ”NetBackup 配置 指南 


图 16-100 是 在 houseped 这 台 Master Server 上 运行 的 NetBackup 配置 工具 的 主 界面 。 右 侧 窗 
口 是 各 种 自动 配置 向 导 。 初 次 安装 完 NetBackup 软件 之 后 ， 首 先 要 让 NetBackup 这 个 调度 员 识 别 
到 网 络 上 的 每 台 介 质 服务 器 ， 及 与 其 挂 接 的 各 种 用 于 备份 的 存储 设备 。 


588 


第 16 章 未 雨 绸 缪 一 数据 保护 和 备份 技术 @ 


| 20 wt 四 恒 


| 目 * 而 | 琶 | 寺 XX| 攻 要 砍 | 六 下 | 全 | 周转 || 


YERITAS 
NetBackup 


区 天 ine drt memt 


图 16-100 NetBackup 主 界面 
1. 配置 存储 设备 
初次 运行 NetBackup 配置 工具 的 时 候 , 可 以 通过 右 侧 窗口 的 向 导 “Getting Started” 来 让 Master 
Server 扫描 网 络 上 的 介质 服务 器 和 其 上 的 磁带 库 设备 ， 并 对 扫描 到 的 设备 以 及 磁带 做 一 些 配置 和 
记录 ， 形 成 一 个 初始 化 环境 。 
(1) 单 击 Getting Started 命令 ， 出 现 如 图 16-101 所 示 的 对 话 框 。 
(2 ) 单 击 “ 下 一 步 ”按钮 ， 出 现 如 图 16-102 所 示 的 对 话 框 。 


1. Dewe conguraton 
二 Welcome to NerBackupl Be Po eee Ren werd 浅 


is viaed will ta you uaoadh the taleing steps 


D1 Configre Storse Devices 
2 Coafigre Velees 


3 Caafigwre the cataloe pednm 
4 creste a Dudu rolicy 


Ty omfgre storage devices, click hext 
To heen idk Bot, Tor ssiatuce dicd lls 


ol | ww | Ero [Ezy 二 6] 二 和 | 
图 16-101 Getting Started 图 16-102 Device Configuration 


(3 ) 对 话 框 中 提示 ， 初 始 化 过 程 需要 4 个 步骤 ,首先 扫描 所 有 网 络 介质 服务 器 可 供 备份 用 的 
设备 。 单 击 “ 下 一 步 ”按钮 ， 出 现 图 16-103 所 示 的 对 话 框 。 
(4 ) 单 击 “ 下 一 步 ”按钮 ， 如 图 16-104 所 示 ， 扫 描 到 一 个 介质 服务 器 。 


5 人 ote 
i 
ea 
Derice Wosts [opm Teriees tte .| 
Te begis, click Nezt. For assiztaee, click Help := | To start tevice Getaction click 其 ext 
uF w 和 《上 一 天 于 | 下- 步 四 9 
图 16-103 扫描 介质 设备 图 16-104 扫描 到 一 个 介质 服务 器 
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(5 ) 在 图 


16-104 的 对 话 框 中 ， 可 以 选择 网 络 上 的 所 有 介质 服务 器 ， 


这 样 ， 就 可 以 扫描 这 些 


服务 器 上 用 于 备份 的 存储 设备 了 ， 如 图 16-105 所 示 。 
(6 ) 扫描 结束 后 ， 单 击 


“下 一 步 ” 按 钮 ， 出 现 如 图 16-106 所 示 的 对 话 框 。 


Scanning Hosts 
Wait while devices are auto-discovered. 


Auto-detection has conpleted for all hosts checked 


Progress; 


To view detected devices, click Next, 


IE you have a bi 
ia verily ot the devi ce ie 
ee he deee ea 和 obersttae set enkir hove 


rt 
i 


Nost and device path configuration infornation for selected device; 
est [menst jzh [Port [Bus [Ts.. [um | 


= 
图 16-105 扫描 到 介质 服务 器 上 的 设备 


= 
图 16-106 设备 列表 


(7 ) 在 对 话 框 中 会 列 出 所 有 检测 到 的 设备 的 状态 ， 但 是 图 16-106 中 没有 找到 任何 设备 ， 这 
可 能 是 由 于 主机 未 联 入 网 络 或 者 介质 服务 器 没有 安装 Media Server 模块 。 单 击 “ 下 一 步 ” 


按钮 ， 出 现 如 图 16-107 所 示 对 话 框 。 该 对 话 框 可 用 来 建立 一 个 硬盘 目录 ， 这 个 目录 可 
供 备份 文件 存放 ， 但 不 是 必须 的 。 一 般 将 备份 后 的 数据 存 入 磁带 中 ， 用 磁盘 目录 存放 备 


份 数据 的 一 个 好 处 就 是 可 以 作为 一 个 缓冲 ， 
硬盘 上 的 数据 转移 到 其 他 备份 目标 中 。 


“下 一 步 ”按钮 ， 出 现 如 图 16-108 所 示 的 对 话 框 。 


(8 ) 单 击 


Configure Storage Unit 
VOU Can store Your data on dk by defnng a cisk storage unt . - Re Finished! 
No tape devices are configured on this system, You can perform i ee 了 rp et De 
backups to the hard disk by defining sa disk storage unit. 
WE ES 
ta you Pian to back wp eri dent 
A at the pa gee eeiy has spece before creating i 
the stor' 
克 Greate a disk storage unit with the specified path 
Enter the path to the folder where you want the backup dats to 
FE 
T it the ‘urd, click Finish 
《上 一 步 四 | 下 - 步 中 >| 取消 帮助 | 上 一 乞 宙 取消 | 帮助 | 


图 16-107 建立 本 地 磁盘 备份 目录 图 16-108 设置 完成 
(9 ) 单 击 “完成 ”按钮 ， 将 进入 Volume 配置 界面 ， 如 图 16-109 所 示 。 
(10 ) 所 谓 Volume， 指 的 就 是 磁带 ( 在 后 面 会 详细 介绍 ) 。 这 一 

有 磁带 库 中 的 磁带 ， 并 将 它们 编 入 默认 的 Volume Group 中 供 使 用 。 单 击 
钮 继续 ， 出 现 如 图 16-110 所 示 的 对 话 框 。 
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可 以 设置 NetBackup 在 一 定时 间 后 


， 将 这 个 


步 中 ，NetBackup 会 识别 所 
“下 一 步 ” 按 


Btep 2. Volume configuration 
Start the Canfure Volimes wz 


This wizard vill te yo throngh the follorine steps, 


VL Configwe Steraee Lerices 
D2 Configee Volmes 
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Step 3. Catalog Backup Configuration 
Start the Cataog EachuD CDnfouranon weard. 
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图 16-109 配置 Volume 图 16-110 设置 Catalog 备份 
(11) 设置 Catalog 的 备份 。 所 谓 Catalog， 就 是 NetBackup 自身 运行 所 需要 的 数据 ， 其 实 
NetBackup 自身 管理 维护 着 一 个 小 型 数据 库 ， 数 据 库 中 保存 了 NetBackup 的 所 有 配置 ， 
以 及 所 有 磁带 、 设 备 、 备 份 策略 、 过 期 时 间 等 信息 , 如 果 Catalog 损坏 , 则 整个 NetBackup 
将 会 次 病 ， 所 以 备份 Catalog 自身 也 是 非常 重要 的 。 这 就 像 医生 给 别人 治 病 的 同时 ， 自 
己 也 要 预防 疾病 一 样 。NetBackup 虽然 是 一 个 备份 其 他 数据 的 软件 ， 但 是 它 也 要 备份 好 
自身 的 数据 ， 这 一 点 很 好 理解 。 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-111 所 示 。 
(12 ) 单 击 “ 下 一 步 ” 按钮 ， 如 图 16-112 所 示 。 
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图 16-112 选择 Catalog 备份 方式 
(13 ) 选择 “Online, hot catalog backup” 单 选 按钮 ， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-113 所 示 。 
(14) 创建 一 个 用 于 备份 Catalog 信息 的 新 策略 ， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-114 所 示 。 


Netbackup Catalog Backup Wizard 


图 16-111 Catalog 备份 向 导 


NetBackup Catalog Backup Poli 
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图 16-113 创建 备份 策略 
(15 ) 输入 “btest”， 单 击 


图 16-114 输入 策略 名 称 
“下 一 步 ”按钮 ， 进 入 备份 方式 选择 窗口 ， 如 图 16-115 所 示 。 
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(16 ) 选择 完全 备份 或 者 增 量 、 差 量 备份 。 单 击 “ 下 一 步 ”按钮 继续 ， 如 图 16-116 所 示 。 
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图 16-115 全 备 和 增 备 方式 选择 图 16-116 设置 Catalog 备份 日 程 表 

( 17 ) 设置 每 周 进行 一 次 完全 备份 ， 每 个 备份 保留 期 限 为 两 周 ， 两 周 过 后 ， 之 前 的 备份 就 认 
为 失效 ， 存 放 备 份 的 磁带 可 供 其 他 备份 使 用 ， 如 图 16-117 所 示 。 

(18 ) 选择 具体 备份 时 间 , 图 16-117 跨越 了 所 有 时 间 , 所 以 备份 可 以 在 任何 时 间 内 发 生 。 继续 。 

(19 ) 设 置 备份 后 的 Catalog 信息 存放 位 置 。 以 及 登录 操作 系统 所 需 的 用 户 认证 信息 。 单 击 “ 下 
一 步 ” 按 钮 继续 ， 如 图 16-118 所 示 。 


Start Windos 
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ER 
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| 


选择 具体 Catalog 备份 日 程 表 


a | 。 山 
图 16-117 


图 16-118 选择 Catalog 备份 路 径 及 认证 信息 
(20 ) 设置 是 否 进行 邮件 通知 ， 如 图 16-119 所 示 。 选 择 No 单 选 按钮 ， 单 击 “ 下 一 步 ”按钮 
继续 ， 如 图 16-120 所 示 。 
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图 16-119 是 否 邮件 通知 


图 16-120 完成 设置 
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(21 ) 完成 Catalog 备份 策略 向 导 。 单 击 “ 下 一 
步 ”按钮 ， 如 图 16-121 所 示 。 

选择 新 创建 的 策略 ， 单 击 “ 下 一 步 ”按钮 ， 即 
可 完成 环境 的 初始 化 操作 。 

初始 化 后 ,Master Server 会 在 Media Server 列表 
中 自动 加 入 这 些 扫描 到 的 介质 服务 器 ， 并 且 在 
Storage Unit 中 列 出 扫描 到 的 机 械 手 设备 .图 16-122 eo meresey 
所 示 的 是 介质 服务 器 列表 ,图 16-123 所 示 的 是 备份 
客户 端 列表 。 图 16-121 策略 列表 


D Enistine policies can be nodified fr Policy Narasenent | 


图 16-123 备份 客户 端 列表 
图 16-124 所 示 的 是 存储 单元 列表 。 
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图 16-124 存储 单元 列表 
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2. Storage Unit 
Storage Unit ( 存储 单元 ) ， 是 一 个 逻辑 上 的 概念 。 它 表示 存储 设备 中 管理 一 组 介质 的 单元 ， 


对 于 磁带 
单元 。 所 
中 显示 了 


库 设备 来 说 ， 一 个 机 械 手 就 可 以 掌管 属于 它 的 所 有 磁带 ， 那 么 一 个 机 械 手 就 是 一 个 存储 
以 图 16-124 中 ,每 个 磁带 库 的 机 械 手 ， 都 被 认为 是 一 个 存储 单元 。 可 以 看 到 右 侧 窗口 
10 个 机 械 手 设备 ， 但 是 物理 上 只 存在 两 个 ， 这 是 为 何 呢 ? 


因为 五 台 服务 器 共享 两 个 机 械 手 ， 每 台 服务 器 都 会 识别 到 两 台 磁带 库 的 机 械 手 ， 所 以 一 共 是 
10 个 机 械 手 设备 。 实 际 使 用 的 时 候 ， 只 人 允许 其 中 两 台 服务 器 同时 操纵 两 台 磁 带 库 设 备 。 但 是 一 段 


时 间 内 ， 


五 台 服务 器 均 有 机 会 操纵 磁带 库 ， 这 也 就 是 共享 磁带 库 的 意义 了 。 


每 台 磁带 库 中 的 可 用 介质 ( 磁带 ) 也 会 被 自动 添加 到 Media 项 ， 如 图 16-125 所 示 。 


J = 园 


下 下 下 浊 下 引 上 
BEEEEEEEEEEEEEEEEEEE EE 


图 16-125 介质 (磁带 ) 列表 

图 16-125 中 的 Robos， 表 示 物 理 上 存在 的 磁带 库 的 机 械 手 ， 所 以 只 有 两 个 。 右 侧 窗 口 所 示 
的 是 识别 到 的 所 有 磁带 ， 每 盘 磁 带 都 被 编 了 号 ， 以 便 加 以 区 分 。 实 际 上 ， 每 盘 磁 带 都 会 贴 有 一 
条 码 ， 机 械 手 扫描 这 个 条 码 以 区 分 每 盘 磁 带 。 


3. 卷 池 ( Media Pool ) 


由 于 每 盘 磁 带 的 存储 容量 有 限 ， 如 果 有 备份 需要 用 到 多 于 一 盘 磁带 ， 则 如 何 分 配 并 在 分 配 后 
记录 这 些 磁 带 的 使 用 状况 ， 是 个 比较 麻烦 的 问题 。 为 了 使 管理 更 加 方便 ，NetBackup 引入 了 卷 池 
( Media Pool ) 的 概念 。 这 就 像 磁 盘 阵 列 设备 将 每 个 物理 磁盘 合并 ， 并 再 分 割 成 更 大 的 Volume 或 
者 虚拟 磁盘 一 样 ， 磁 带 同样 可 以 这 样 被 虚拟 化 ， 如 图 16-126 和 图 16-127 所 示 。 
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图 16-126 卷 池 (1) 


图 16-127 卷 池 (2) 
我 们 看 到 , Volume Pools 项 之 下 的 11 个 卷 池 , 其 中 名 为 NetBackup 的 卷 池 包 含 了 11 盘 磁 带 。 
而 名 为 bbpserv_filesytem 的 卷 地 ， 只 包含 了 一 盘 磁 带 。 有 了 卷 池 之 后 ， 就 可 以 把 卷 池 中 的 所 有 磁 
带 ， 当 成 一 个 大 的 虚拟 磁带 来 看 待 。 我 们 可 以 为 每 个 待 备份 的 数据 项 目 分 配 一 个 卷 池 ， 每 次 备份 
的 数据 只 存放 在 这 个 卷 池 中 ， 其 他 卷 池 中 的 磁带 不 会 给 这 个 备份 所 使 用 ， 这 样 就 做 到 了 充分 的 资 
源 隔离 。 卷 池 可 以 手动 创建 并 且 在 不 冲突 的 前 提 下 任意 添加 磁带 , 如 图 16-128 和 图 16-129 所 示 。 


图 16-129 输入 名 称 和 描述 


4. 卷 组 ( Media Group ) 


这 也 是 一 个 逻辑 上 的 概念 ,下 图 中 显示 了 两 个 卷 组 ， 每 个 磁带 库 中 的 磁带 ， 都 放 到 了 一 个 单 
独 的 组 中 。 卷 组 在 实际 使 用 上 没有 很 大 的 意义 。 卷 组 不 能 手动 创建 ， 默 认 每 个 机 械 手 就 会 生成 一 
个 卷 组 ， 如 图 16-130 所 示 。 
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5. Robots ( 机 械 手 ) 
如 图 16-131 所 示 ， 左 侧 显示 的 是 机 械 手 。 
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图 16-131 左 侧 显 示 的 机 械 手 


这 个 项 下 面 显 示 了 整个 备份 系统 中 所 存在 的 物理 机 械 
手 的 数量 ， 右 侧 窗 口中 显示 了 对 应 机 械 手 所 掌管 的 磁带 。 


6. Standalone ( 非 共享 的 机 械 手 ) 


如 图 16-132 所 示 是 Standalone 机 械 手 。 

如 果 某 台 介质 服务 器 独立 掌管 一 台 磁 带 库 的 机 械 手 , 而 
没有 共享 给 其 他 主机 使 用 , 则 NetBackup 识别 到 这 种 设备 之 
后 ， 就 会 显示 在 右 侧 窗口 中 。 本 例 中 没有 这 种 设备 。 
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图 16-132 Standalone 机 械 手 
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7. Devices ( 设备 ) 


这 一 项 列 出 了 整个 系统 中 所 有 可 用 于 备份 的 物理 存储 设备 ， 如 图 16-133 所 示 。 


图 16-133 所 有 可 用 于 备份 的 介质 设备 
右 侧 窗口 中 的 拓扑 图 显示 了 两 台 磁 带 库 和 四 台独 立 磁带 机 ,并 有 连 线 。 带 有 齿轮 标志 的 为 介 
质 服务 器 ， 右 上 方 的 图 标 为 磁带 库 ， 其 中 还 显示 了 机 械 手 、 磁 带 槽 和 两 个 驱动 器 ， 驱 动 器 下 面 的 
手 托 表明 这 个 驱动 器 为 共享 驱动 器 ， 也 就 是 说 其 他 主机 也 可 以 操作 这 个 驱动 器 。 
右 侧 窗口 的 下 半 部 分 显示 了 所 有 逻辑 而 不 是 物理 设备 。 由 于 共享 驱动 器 的 原因 ， 本 例 中 的 逻 


辑 驱动 器 变 为 了 12 个 (三 台 服务 器 ,每 台 识别 到 四 个 驱动 器 ) ， 再 加 上 独立 的 磁带 机 ， 共 有 16 
个 驱动 器 ， 如 图 16-134 所 示 。 


ES 
BEEEEEEEEEEEEEE 


图 16-134 设备 列表 
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同 理 ， 逻 辑 机 械 手 也 有 6 个 而 不 是 3 个， 如 图 16-135 所 示 。 


图 16-135 逻辑 机 械 手 
如 果 选 中 Devices 项 下 面 的 某 台 主机 设备 ， 便 可 在 右 侧 窗口 的 下 半 部 分 显示 这 台 主 机 掌管 的 
驱动 器 或 者 机 械 手 ， 如 图 16-136 所 示 。 


DAcsess namemeat 


图 16-136 每 台 主机 包含 的 设备 
并 且 在 右 侧 窗口 的 上 半 部 分 ， 就 会 突出 这 台 设备 所 连接 的 连 线 ， 如 图 16-137 所 示 。 


TBMVLT3580-TD10 


图 16-137 拓扑 连 线 
图 中 黑色 连 线 表示 microcct 主机 目前 所 连接 的 设备 有 : 两 台独 立 磁带 机 驱动 器 、 两 台 磁 带 库 
中 的 共享 驱动 器 。 
8. Standalone Drivers ( 独立 驱动 器 ) 


如 果 某 台 介质 服务 器 上 有 自己 的 独立 磁带 机 (一 个 驱动 器 , 没有 机 械 手 ) ， 则 NetBackup 识 
别 到 之 后 ， 就 会 在 这 个 项 目下 显示 出 来 。 本 例 中 共有 4 台独 立 磁带 机 ， 如 图 16-138 所 示 。 

以 上 介绍 了 NetBackup 配置 工具 的 一 些 基本 组 成 。 下 面 通过 一 个 实例 来 说 明 如 何 备份 bbpsrv 
这 台 服 务 器 上 的 DB2 数据 库 。 
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图 16-138 独立 磁带 机 列表 及 拓扑 
提示 : 拓扑 图 中 所 有 独立 磁带 机 的 连接 线 都 用 黑色 加 重 了 。 


16.3.8 配置 DB2 数据 库 备份 


1. 建立 备份 策略 


(1 ) 首先 建立 一 个 备份 策略 ， 命 名 为 “bbpsrv_db2_bak”， 如 图 16-139 所 示 。 
(2 ) 单 击 New Policy 命令 ， 输 入 名 称 之 后 ， 显 示 如 图 16-140 所 示 的 对 话 框 。 


(3 ) 在 Policy Type 中 我 们 选择 “DB2”, 使 NetBackup 调用 与 DB2 备份 相关 的 模块 。 在 Policy 
Volume Pool 下 ， 选 中 专门 为 这 个 备份 所 创建 的 卷 池 “bbpsrv”。 


” 图 16-139 创建 备份 策略 
2. 在 策略 中 添加 时 间 表 


切换 到 Schedules 选项 卡 , 设置 什么 时 间 进 行 数据 备份 , 以 及 每 次 备份 最 多 允许 花费 多 长 的 时 
间 等 。 


图 16-140 新 策略 窗口 
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进入 Schedules 选项 卡 , 窗口 中 已 经 包含 了 一 个 名 为 Default-Application-Backup 的 Schedule， 
这 个 Schedule 是 备份 DB2 数据 库 所 必需 的 ， 因 为 备份 时 需要 调用 的 脚本 中 的 Schedule 名 称 就 是 
Default-Application 一 Backup。 双 击 这 个 Schedule， 弹 出 如 图 16-141 所 示 的 对 话 框 。 


图 16-141 编辑 策略 属性 
其 中 Type of backup 为 Application Backup， 表 明 这 个 Schedule 是 用 于 由 应 用 程序 自主 发 起 的 
备份 。 如 果 没有 这 个 Schedule， 则 应 用 程序 就 不 能 调用 Netbackup 提供 的 接口 而 把 数据 发 送 给 
NetBackup , 因为 策略 中 没有 人 允许 应 用 程序 这 么 做 。 
我 们 所 要 实现 的 , 不 仅仅 是 手动 从 应 用 程序 发 起 备份 ， 而 是 让 NetBackup 自动 根据 设 定 的 时 
间 来 备份 ， 所 以 需要 增加 一 个 Schedule。 单 击 下 方 的 New 按钮 。 


将 这 个 Schedule 命名 为 “Auto_Full”, Type of backup 选择 Automatic Full Backup, 如 图 16-142 
所 示 。 

Frequency 选择 每 天 备份 一 次 。Retention ( 保留 ) 选择 将 备份 保留 两 周 ， 两 周 后 ， 对 应 的 磁 
带 就 可 以 被 抹 掉 或 者 用 于 其 他 备份 。 然 后 切换 到 Start Windows 选项 卡 ， 如 图 16-143 所 示 。 


so Fa 上 扑 


图 16-142 给 日 程 起 名 

这 里 设置 ， 每 天 0 点 开始 备份 ， 凌 晨 5 点 结束 备份 。 如 果 由 于 某 种 原因 ， 备 份 持续 了 超过 5 

小 时 ， 则 NetBackup 会 执行 完 当 前 备份 。 如 果 还 有 其 他 备份 需要 在 这 5 个 小 时 中 执行 ， 则 禁止 其 
执行 ， 直 到 第 二 天 的 0 点 ， 再 接着 执行 上 次 未 执行 的 备份 ， 依 此 类 推 。 


图 16-143 选择 具体 备份 窗口 时 间 
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3. 选 定 需要 备份 的 客户 机 


接着 切换 到 Clients 选项 卡 ， 如 图 16-144 所 示 。 

单 击 New 按钮 ， 浏 览 或 者 输入 要 备份 的 服务 器 ， 
即 bbpsrv 这 台 计 算 机 。 期 间 会 提示 选择 这 台 计 算 机 的 操 
作 系 统 类 型 ， 这 里 选择 Windows 2000。 然 后 切换 到 
Backup Selections 选项 卡 。 在 前 三 个 选项 卡 中 ,已 经 定 
义 了 备份 类 型 、 备 份 发 生 的 时 间 和 持续 时 间 、 所 需 备份 
的 服务 器 ， 而 唯 独 缺少 了 最 重要 的 内 容 , 即 备份 这 台 服 
务 器 上 的 哪些 东西 。 在 Backup Selections 选项 卡 来 完成 
这 个 策略 的 最 后 一 步 : 定义 备份 哪些 内 容 。 

4. 选择 需要 备份 的 内 容 或 者 需要 执行 的 脚本 

在 client 选项 卡 中 单 击 New 按钮 ， 出 现 如 图 图 16=144“ 变 是 要 种 份 的 乱 忆 背 
16-145 所 示 的 界面 。 

然后 单 击 是 入 钮 ， 来 浏览 客户 机 上 的 文 
件 ， 如 图 16-146 所 示 。 | 

选中 需要 备份 的 目录 或 者 文件 之 后 , 单 击 。 图 16-145 选择 备份 内 容 或 者 需要 执行 的 备份 脚本 
OK 按钮 。 

本 例 需 要 备份 的 是 数据 库 数 据 ， 备 份 数据 库 如 果 只 备份 数据 文件 ,恢复 的 时 候 是 不 够 的 ， 况 
且 ， 如 果 是 online 备份 ， 则 必须 用 数据 库 自 己 提供 的 工具 来 备份 ， 才 会 得 到 可 用 的 镜像 ， 仅 仅 把 
数据 文件 复制 一 份 ， 这 种 备份 是 不 能 用 作 恢 复 的 。 所 以 这 个 例子 中 ,需要 在 待 备份 的 计算 机 上 运 
行 DB2 数据 库 相 关 的 备份 命令 来 备份 数据 库 。 这 些 命令 都 存在 于 一 个 预先 由 NetBackup 编辑 好 的 
批 处 理 脚本 文件 中 。 

找到 这 个 文件 ， 其 路 径 位 于 待 备份 计算 机 NetBackup 安装 目录 下 : 

C:\Program Files\VERITAS\NetBackup\DbExt\DB2\db2_backup_db_online.cmd 

选中 这 个 文件 ， 单 击 OK 按钮 ， 结 果 如 图 16-147 所 示 。 

可 以 看 到 ，NetBackup 已 经 识别 出 这 个 脚本 ， 左 侧 的 图 标 已 经 变 为 峰 。 


FTY=T Filenwe | size| Type [Drte | 


ep Files\YERITAS\NetBackup\DbExt\DB2\Samples\db2_backup_db... 


图 16-146 选择 要 备份 的 文件 或 者 要 执行 的 脚本 图 16-147 选择 要 执行 的 脚本 
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脚本 的 内 容 如 下 : 
@REM $Revision: 1.2 $ 
@REM bcpyrght 


QREM 六 太太 友 友 太太 太太 大 友 友 支 坟 赤 友 文 坟 支 支 二 赤 翰 二 二 南下 支 去 击 吉 支 坟 赤 支 支 广 赤 支 支 赤 赤 支 去 坟 赤 二 广 南下 直击 下 南下 广 击 击 丙 南 击 赤 去 广 赤 雇 广 太 | 


@REM * $VRTScprght: Copyright 1993 - 2003 VERITRS Software Corporation, All 
Rights Reserved $ * 


@REM 太太 次 太庙 砍 闪 碳 闪闪 次 次 大 六 次 次 次 六 次 次 次 次 次 次 次 次 次 次 次 次 次 次 庙 次 次 次 计 座次 次 闪 次 次 闪闪 次 次 次 交 次 交 次 商 座次 次 商 交 次 商 交 六 次 次 页 交友 


@REM ecpyrght 


@REM This script is provided as an example. See the instructions below 


@REM for making customizations to work within your environment. 


@REM Please copy this script to a safe location before customizing it. 
@REM Modifications to the original files will be lost during product updates. 
@REM 

@REM This script performs an online backup of the database. An online backup 
@REM requires that the database is configured for forward recovery (see the 
@REM DB2 USEREXIT and LOGRETAIN settings) . DB2 users can remain connected 
@REM while performing an online backup. 

@REM 

@REM To back up a database or a database partition, the user must have SYSADM, 
@REM SYSCTRL, or SYSMAINT authority. 


@echo off 

@setlocal 

@REM !!!!! START CUSTOMIZATIONS !!!!! 

@REM 

@REM The following changes need to be made to make this script work with your 
@REM environment: 

@REM 

REM = == == 
@REM (1) NetBackup for DB2 shared library: 

EM 
@REM This is the NetBackup library that backs up and restores DB2 databases 


@REM Set db2 nblib below to the correct NetBackup library path for your 
host 
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@REM 

@REM Example: @set db2 nblib=C:\progra~l\veritas\netbackup\bin\nbdb2.d1l 
@set db2 nblib= 

Qecho db2 nblib = %db2 nblibs 


@REM This is the DB2 home directory where DB2 is installed 
@REM Set db2 home to DB2 home directory 

@REM 

QREM Example: @set db2 home=D:\sqllib 

@set db2 home= 

Qecho db2 home = %db2 home%s 


@REM (3) Database to backup: 


@REM Set db2 name to the name of the database to backup: 
@REM 

@REM Example: @set db2 name=SAMPLE 

@set db2 name= 


Qecho db2 name = %db2 name%s 


QREM =================================================================-=== 
@REM Concurrency can improve backup performance of large databases. 
@REM Multiple sessions are used to perform the backup, with each session 
@REM backing up a subset of the database. The sessions operate 

@REM concurrently, reducing the overall time to backup the database. 
@REM This approach assumes there are adequate resources available, like 


@REM multiple tape devices and/or multiplexing enabled. 


@REM For more information on configuring NetBackup multiplexing, 


@REM refer to the "Veritas NetBackup System Administrator's Guide". 


@REM Ifusingmultiple sessions change db2 sessions tousemultiple sessions 


@REM Example: @set db2 sessions="OPEN 2 SESSIONS WITH 4 BUFFERS BUFFER 1024" 


@set db2 sessions= 
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REM 1111!! 


@echo DB2 POLICY = %DB2 POLICYS 

@echo DB2 SCHED = %DB2 SCHEDS 

@echo DB2 CLIENT = %DB2 CLIENTS 

@echo DB2 SERVER = %DB2 SERVERS 

@echo DB2 USER INITIATED = %DB2 USER INITIATEDS 
@echo DB2 FULL = %DB2 FULLS% 

@echo DB2 CINC = %$DB2 CINCS 

Qecho DB2 INCR = %$DB2 INCRS 

Qecho DB2 SCHEDULED = %$DB2 SCHEDULEDS 

Qecho STATUS FILE = %STATUS FILES 


@REM NetBackup policies for DB2 recognize different 
@REM backup types, i.e. full, cumulative, and differential. 
@REM For more information on NetBackup backup types, please refer to the 


@REM NetBackup for DB2 System Administrator's Guide. 


@REM 

@REM Use NetBackup variables to set DB2 full or incremental options 
@REM 

@set db2 action= 

if "%DB2 FULL%" == "1" @set db2 action=ONLINE 


if "%DB2 CINCS" 


"1" @set db2 action=ONLINE INCREMENTAL 
if "%DB2 INCR%S" == "1" @set db2 action=ONLINE INCREMENTAL DELTA 
Qecho db2 action = %db2 actionsg 


@REM Actual command that will be used to execute a backup 


@REM Note: the parameters /c /w /i and db2 should be used with db2cmd.exe 


@REM Without them, NetBackup job monitor may not function properly. 
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@set CMD FILE=%temps\cmd file 

@echo CMD FILE = %CMD FILES 

Q@set CMD LINE=%db2 homes\bin\db2cmd.exe /c /Ww /i db2 -f %CMD FILES 

Q@echo CMD LINE = %CMD LINES 

Qecho BACKUP DATABASE %db2 name® %db2 action% LOAD $db2 nblib% %db2 sessionssg 


Qecho BACKUP DATABASE %db2 name%® %db2 action% LOAD $db2 nblib% %db2 sessionssg 
> SCMD FILES 


@REM 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
Qecho Executing CMD=%CMD LINES% 
$CMD LINES 


@REM Successful Backup 

if errorlevel 1 goto errormsg 

echo BACKUP SUCCESSFUL 

if "“%STATUS FILE%" 一 "" goto end 

if exist "%STATUS_ FILE%" echo 0 > "%STATUS FILES%" 

goto end 

:Custom err msg 

echo This script must be customized for proper operation in your environment. 

@REM Backup command unsuccessful 

:errormsg 

echo Execution of BACKUP command FAILED - exiting 

if "“%STATUS FILES" == "" goto end 

if exist "%STATUS_ FILES" echo 1 > "%STATUS FILES%" 

:end 

@endlocal 

经 过 这 样 的 配置 之 后 ， 在 每 天 的 0 点 ，Master Server 便 会 发 送 指令 给 bbpsrv 上 的 NetBackup 
客户 端 ， 让 它 执行 这 个 脚本 。 此 脚本 中 的 命令 会 告诉 DB2 数据 库 备 份 数据 库 并 且 调用 一 个 DLL 
链接 库 文件 ， 将 数据 通过 SAN 网 络 发 送 到 相应 卷 池 所 在 的 磁带 库 上 ， 从 而 被 写 入 磁带 。 


5. 监控 备份 执行 状况 
可 以 通过 下 面 的 方法 监控 备份 执行 的 状况 ， 如 图 16-148 所 示 。 
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”图 16-148 监控 备份 状态 
右 侧 窗口 的 下 半 部 分 显示 了 备份 运行 的 状况 ， 如 果 成 功 备份 , 则 显示 一 个 蓝 色 小 人 成 功 举 起 
的 图 标 ; 如 果 备 份 正在 运行 ， 则 显示 一 个 绿色 小 人 正在 奔跑 的 图 标 ; 如 果 备 份 任务 正在 等 待 ， 则 
显示 三 个 绿色 小 人 排队 的 图 标 ; 如 果 任 务 失败 ， 则 显示 圆 形 红色 差 号 。 
对 于 其 他 服务 器 ， 可 以 用 同样 的 步骤 来 备份 ， 这 里 就 不 再 详 述 了 。 


16.4 与 业务 应 用 相 结合 的 快照 备份 和 容 灾 


16.3 一 节 末 尾 所 介绍 的 备份 DB2 数据 库 的 方法 ， 其 实 只 是 调用 了 DB2 自身 所 提供 的 API 而 
已 ,DB2 将 数据 通过 API 传输 给 备份 软件 代理 ， 然 后 备份 软件 将 收 到 的 数据 写 入 对 应 的 存储 介质 
中 。 包 括 各 大 备份 软件 对 Oracle 的 备份 ， 其 实 也 都 是 这 样 , 将 Oracle 置 于 热 备 模式 下 ， 然 后 将 其 
对 应 的 数据 文件 以 及 配套 日 志 复制 出 来 保存 ， 或 者 利用 RMAN 提供 的 API 来 实现 数据 备份 。 这 
些 备份 方式 都 需要 影响 到 业务 主机 ， 都 需要 由 业务 主机 将 对 应 的 数据 提取 出 来 传送 给 备份 代理 ， 
然后 备份 代理 程序 将 其 写 入 存储 介质 。 这 种 备份 所 耗费 的 时 间 会 很 长 ， 因 为 涉及 到 实际 的 数据 移 
动 ， 所 以 备份 过 程 中 对 主机 资源 会 有 持续 的 耗费 。 

而 如 果 能 够 直接 在 这 些 应 用 程序 存储 数据 的 磁盘 阵列 设备 中 对 相应 的 数据 做 备份 的 话 , 那么 
就 完全 可 以 实现 Server-Free 了 。 在 磁盘 阵列 设备 中 如 何 对 数据 做 备份 呢 ? 磁盘 阵列 所 能 做 的 就 是 
直接 将 整个 LUN 中 的 数据 传输 到 另外 的 位 置 。 由 于 LUN 中 的 数据 是 不 断 变化 的 , 所 以 阵列 必须 
先 对 这 个 LUN 做 一 份 快照 ， 然 后 将 这 份 快照 数据 通过 某 种 方式 传输 到 备份 目标 存储 空间 中 。 在 
做 快照 时 ， 必 须 保证 应 用 程序 层面 的 一 致 性 ， 这 也 就 意味 着 应 用 程序 需要 将 其 缓存 中 的 脏 数据 或 
者 日 志 刷 盘 之 后 ， 阵 列 再 对 相应 的 LUN 做 快照 ， 此 时 做 出 来 的 快照 才 是 应 用 层 一 致 的 。 所 以 ， 
主机 端 需要 有 一 个 主机 代理 程序 来 负责 通知 对 应 的 应 用 程序 ， 调 用 应 用 程序 提供 的 API 让 其 处 于 
归档 模式 或 者 静 黑 模式， 之 后 代理 通知 阵列 做 快照 ; 或 者 可 以 利用 VSS 框架 来 实现 对 多 种 应 用 的 
一 致 性 支持 快照 做 完 之 后 ,这 份 快照 就 相当 于 一 份 一 致 的 备份 数据 集 了 ,此 时 可 以 将 其 通过 dump 
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的 格式 直接 写 入 磁带 中 , 或 者 通过 网 络 将 其 传输 到 另 一 台 阵 列 的 LUN 中 保存 。 对 于 后 续 的 备份 ， 
可 以 实现 增 量 备份 ， 比 如 再 次 做 快照 ， 将 这 份 最 新 快照 与 上 一 次 备份 时 产生 的 快照 做 比 对 ， 比 对 
快照 中 的 bitnap， 将 两 份 bitmap 做 OR 运算 ， 得 出 的 结果 bitmap 中 为 1 的 则 标示 变化 的 块 ， 后 
续 只 要 将 这 些 变化 的 块 同步 到 远程 阵列 或 者 利用 dump 格式 再 次 写 入 磁带 即 可 。 

上 述 过 程 只 体现 了 “与 业务 应 用 相 结 合 ” 这 个 思想 的 一 部 分 ， 也 就 是 保证 数据 一 致 性 。 这 个 
思想 的 另 一 部 分 则 是 体现 在 对 业务 底层 所 使 用 的 存储 空间 的 全 面 管理 ， 以 及 对 业务 的 细 粒 度 备份 
和 恢复 方面 。 

如 图 16-149 所 示 为 一 个 上 文中 提 到 的 主机 端 代理 ( Driver Agent， 作 者 自 创 的 名 词 ， 并 非特 
指 某 款 产品 名 称 ) 的 架构 图 ， 这 个 代理 其 实 就 是 快照 代理 的 可 以 从 图 中 看 到 它 所 支 


9 一 个 升级 版 。 
持 的 功能 ， 作 为 一 个 高 级 卷 管理 角色 ， 不 但 可 以 直接 从 阵列 端 要 存储 空间 ， 而 不 是 在 阵列 端 配置 


上 


面 


然后 映射 给 主机 ， 还 可 以 创建 快照 、 挂 载 这 些 快照 等 。 如 图 


16-150 所 示 为 App Agent ( 作者 自 创 


的 名 词 ， 并 非特 指 某 款 产品 名 称 ) 的 架构 图 ， 


其 可 以 与 各 种 应 用 程序 以 及 VSS 框架 交互 ， 可 以 感 


知 应 用 程序 的 内 部 信息 ， 比 如 实例 名 、 数 据 文件 和 所 在 的 存储 空间 等 ， 并 且 可 以 将 对 应 的 应 用 数 
据 迁 移 到 其 他 存储 位 置 。 这 个 代理 通过 调用 Driver Agent 的 功能 来 实现 对 应 用 系统 数据 的 恢复 ， 
可 以 做 到 细 粒 度 的 备份 和 恢复 ， 比 如 只 备份 某 个 数据 库 实例 ， 只 备份 某 个 Exchange Mailbox， 只 
恢复 某 个 Mailbox 等 。 


主机 操作 系统 


| 


SS Provider 


— Other features 一 
Snapshot Manager 


创建 、 扩 展 、 收 缩 、 垃 
圾 回收 《配合 阵列 端的 
Thin》Lun。 自 动 挂 载 、 
印 载 、 自 动 格式 化 、 支 
持 ISCSI 和 FC 的 Lun， 支 
持 CIFS、NFS 目 录 挂 载 


二 Path Manager 2 
负责 数据 迁移 工作 。 
发 现 和 管理 、ISCSI 


和 FC 的 多 路 径 支 持 、 
ISCSI 的 MCS 支 持 、 
MS-MPIO 支 持 


创建 /删除 快照 、 创 建 
Schedule、 挂 载 快 
照 、 克 隆 挂 载 、 分 裂 
克隆 、 快 照 恢 复 回 
渡 ， 增 量 比较 


证 


磁盘 阵列 
图 16-149 Driver Agent 软件 架构 图 
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图 16-150 Driver Agent 与 APP Agent 交互 架构 图 


目前 这 种 备份 架构 对 应 的 产品 有 比如 EMC 的 Replication Manager 以 及 NetApp 的 
SnapManager， 以 及 华为 赛 门 铁 克 的 HostAgent 产品 。 

另外 , 在 对 虚拟 机 的 备份 过 程 中 ,一 些 备份 软 件 可 以 利用 Vmware 所 提供 的 一 些 存储 API 实 
现 一 些 高 级 功能 , 比如 某 备份 软 件 厂 商 所 实现 的 Active Block Mapping 功能 。 我 们 知道 , 有 些 备份 
软件 是 直接 将 Vmware 宿主 机 上 VMEFS 下 面 的 VMDK 虚拟 机 虚拟 磁盘 文件 备份 下 来 的 ， 而 这 些 
磁盘 如 果 是 被 NTFS 文件 系统 所 格式 化 并 日 管理 使 用 的 ， 那么 NTEFS 中 实际 占用 虚拟 磁盘 空间 的 
文件 可 能 并 没有 占用 全 部 虚拟 磁盘 的 空间 ， 那 么 此 时 备份 软件 是 无 法 感知 到 这 一 点 的 ， 它 只 能 将 
整个 VMDK 文件 备份 下 来 ， 浪 费 了 大 量 存储 空间 和 网 络 带 宽 。 

而 这 个 Active Block Mapping 功能 通过 调用 Vmware 所 提供 的 API， 检 测 VMDK 中 实际 被 
NTEFS 文件 系统 占用 的 块 ， 然 后 将 NTEFS 中 的 剩余 空间 填 0， 此 处 “ 填 0” 并 不 是 真 的 去 向 其 中 写 
入 0x00, 而 是 使 用 元 数据 记录 这 些 0x00 的 位 置 以 及 长 度 。 我 们 知道 ,所 有 文件 系统 都 会 使 用 bitmap 
来 记录 当前 文件 系统 所 在 的 底层 磁盘 / 卷 空间 块 的 占用 和 空闲 状态 , 备份 软件 只 要 将 这 份 位 图 从 对 
应 的 虚拟 机 文件 中 提取 出 来 便 可 知道 到 底 这 个 文件 中 哪些 区 段 是 空闲 的 ， 然 后 备份 软件 在 备份 这 
个 VMDK 文件 时 只 需要 将 文件 中 被 NTES 所 占用 的 部 分 从 底层 磁盘 中 读 取出 来 连续 存放 即 可 。 
当 恢复 的 时 候 , 系统 会 根据 这 份 位 图 来 实时 地 向 对 应 的 VMDK 恢复 流 中 填 入 0( 在 内 存 中 填 入 ) ， 
之 后 将 数据 发 送 给 恢复 目标 介质 。 这 样 就 大 大 降低 了 磁盘 IO 压力 以 及 网 络 传输 的 带宽 压力 。 


第 本 /7 音 


愚公移山 一 一 大 话 数据 容 灾 


A 


， ”本 地 站 点 
"远程 站 点 
， ”数据 通路 
"同步 复制 
， 异步 复制 
"基于 主机 的 数据 复制 
， ”基于 存储 的 数据 复制 


数据 备份 系统 只 能 保证 数据 被 安全 地 复制 了 一 份 ， 
但 是 一 旦 生产 系统 发 生 故 障 ， 比 如 服务 器 磁盘 损坏 致使 
数据 无 法 读 写 、 主 板 损 坏 造 成 直接 无 法 开机 或 者 机 房 火 
灾 等 意外 事件 ， 我 们 必须 将 备份 的 数据 尽快 地 恢复 到 生 
产 系统 中 继续 生产 ， 这 个 动作 就 叫做 容 灾 。 容 灾 可 以 分 
为 四 个 级 别 : 数据 级 容 灾 ， 也 就 是 只 考虑 将 生产 站 点 的 
数据 如 何 同步 到 远程 站 点 即 可 ; 与 应 用 结合 的 数据 级 容 
灾 ， 也 就 是 可 以 保证 对 应 应 用 程序 数据 一 致 性 的 数据 同 
步 ， 以 及 可 感知 应 用 层 数据 结构 的 、 有 选择 的 同步 部 分 
关键 重要 数据 的 数据 容 灾 ; 应 用 级 容 灾 ， 也 就 是 灾难 发 
生 时 ， 不 仅 可 以 保证 原本 生产 站 点 的 数据 在 灾 备 份 站 点 
可 用 ， 而 且 还 要 保证 原生 产 系统 中 的 应 用 系统 比如 数据 
库 、 邮 件 服务 在 灾 备 份 站 点 也 可 用 ; 业务 级 容 灾 ， 除 了 
保证 数据 、 应 用 系统 在 灾 备份 站 点 可 用 之 外 ， 还 要 保障 
整个 企业 的 业务 系统 仍 对 外 可 用 ， 这 里 面 就 包含 了 IT 系 
统 可 用 、IT 管理 部 门 可 用 、 业 务 罗 辑 部 门 可 用 、 对 外 服 
务 部 门 可 用 等 ， 是 最 终 层 次 的 容 灾 。 
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17.1 容 灾 概述 


有 些 事件 中 , 很 多 公司 就 是 因为 没有 远程 容 灾 系统 , 导致 数据 全 部 毁 于 一 旦 , 客户 数据 丢失 、 
公司 倒闭 , 受 损失 的 不 仅 是 公司 , 还 有 客户 。 如 果 要 充分 保障 系统 和 数据 的 安全 ， 只 是 在 本 地 将 

数据 进行 备份 还 远 远 不 够 , 还 必须 在 远程 地 点 建立 另外 一 个 系统 , 并 包含 当前 生产 系统 的 全 部 数 
据 备 份 。 这 样 在 本 地 系统 发 生 故 障 的 时 候 ， 远 程 备份 系统 可 以 启动 ， 继 续 生 产 。 

要 实现 这 样 一 个 系统 , 首先 , 应 保证 主 生产 系统 的 所 有 数据 实时 地 传输 到 远程 备份 系统 。 其 
次 , 主 系统 发 生 故障 之 后 ,必须 将 应 用 程序 也 切换 到 远程 备份 系统 上 继续 运行 。 应 用 程序 是 一 个 
企业 生产 流程 的 代码 化 表示 ， 只 有 应 用 程序 正在 运行 ,这 个 企业 才 处 于 生产 过 程 中 ,而 应 用 程序 
的 成 功 运行 ， 又 必须 依赖 于 底层 数据 。 

俗话 说 , 巧 妇 难为 无 米 之 炊 。 我 们 的 应 用 程序 , 比如 Exchange 邮件 转发 系统 、SAP 企业 ERP 
系统 、Lotus Notes 办 公 自动 化 系统 等 ,这些 就 好 比 巧 妇 ， 而 保存 在 磁盘 上 的 数据 ， 比 如 用 户 的 邮 
件 、ERP 系统 的 数据 库 文 件 、 办 公 自动 化 系统 自身 的 数据 文件 等 ， 就 好 比 大 米 ， 巧 妇 用 她 高 超 
的 厨 艺 ， 将 大 米 做 成 熟 饭 ， 供 消费 者 购买 。 

这 就 是 一 个 企业 生产 的 基本 纵 形 , 企业 ( 巧 妇 ) 用 应 用 程序 ( 高 超 的 厨 艺 ) 来 处 理 各 种 数据 
(大 米 ) ,最 终生 成 新 的 数据 (米饭 ) ， 供 消费 者 购买 。 而 巧 妇 所 利用 的 锅 碗 飘 贫 、 水 、 电 、 煤 
气 等 也 必 不 可 少 ， 比 如 服务 器 、 硬 盘 、 网 络 通信 设施 、 电 源 等 这 些 IT 系统 必要 组 件 。 下 面 来 对 
比 一 下 厨房 和 IT 系统 机 房 ， 如 表 17-1 所 示 。 


表 17-1_ 厨 房 与 机 房 
机 记 
生产 工具 服务 器 、 硬 盘 、 网 络 通信 设施 、 电 源 竺 
生产 资料 录入 的 原始 数据 
SF | 
产品 客户 需要 的 信息 


生产 者 厨师 ， 用 生产 工具 来 加 工 生产 资料 ， 获 得 产品 。 同样 ,各 种 应 用 程序 ， 运 行 在 服务 器 
上 ,将 各 种 原始 数据 加 工 修改 ， 产 生 客户 需要 的 信息 。 二 者 在 本 质 上 是 相同 的 。 
基于 这 个 生产 模型 ， 我 们 把 一 个 企业 IT 生产 系统 划分 为 4 个 组 件 : 生产 资料 、 生 产 工具 、 
生产 者 、 产 品 。 要 实现 整个 IT 系统 的 容 灾 ， 那 么 必然 要 实现 上 述 所 有 4 个 组 件 的 容 灾 。 然 而 ， 
IT 系统 的 产品 和 原始 数据 往往 都 存放 在 同一 位 置 ， 比 如 同一 个 卷 、 同 一 台 盘 阵 等 。 本 章 不 描述 
产品 的 容 灾 ， 因 为 其 与 生产 资料 的 容 灾 本 质 是 相同 的 。 
思考 : 厨房 的 容 灾 。 大 家 不 要 笑 ， 厨 房 容 灾 ， 这 个 名 词 是 不 是 太 荒唐 了 。 现 在 貌似 是 的 ， 
但 是 战争 年 代 ， 厨房 容 灾 将 是 必 备 的 。 人 是 铁 饭 是 钢 ，, 关键 时 刻 看 厨房 。 我 想 厨 房 容 灾 这 
个 话题 ， 广 大 读者 应 该 比 IT 工作 者 的 办 法 更 多 了 。 比 如 ， 在 另外 一 个 隐蔽 地 点 建立 一 个 
厨房 ， 柴米油盐 桨 醋 茶 、 锅 碗 杜 贫 炉灶 勺 都 储存 到 这 个 厨房 中 作为 储备 粮 和 储备 工具 , 一 
且 当 前 厨房 被 敌人 摧毁 , 立即 启用 备用 厨房 ,厨师 全 部 转移 到 备用 厨房 继续 做 饭 。 这 没 只 
难度 。 的 确 ， 谁 都 可 以 想 出 这 样 的 办 法 。 那 么 我 们 看 看 能 否 用 这 个 思想 来 建立 IT 系统 的 
容 灾 。 
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生产 工具 的 容 灾 


像 


厨房 容 灾 一 样 ， 在 另 一 个 地 点 建立 一 个 IT 机 房 ， 服务 器 、 网 络 设施 、 磁 盘 阵 列 设施 等 一 


应 俱全 。 当 然 , 出 于 成 本 因素 , 备用 地 点 的 设备 不 一 定 非 要 与 主 系 统 中 的 生产 工具 规格 和 性 能 完 


全 相同 ， 


在 性 能 和 容量 上 的 要 求 可 以 适当 降低 ， 但 至 少 要 满足 生产 需求 。 


下 
17.2 


IT 
第 
第 


基 
第 


面 将 主要 讲解 生产 资料 的 容 灾 和 生产 者 的 容 灾 。 
生产 资料 容 灾 一 一 原始 数据 的 容 灾 


系统 的 生产 资料 ， 即 各 种 原始 录入 数据 。 它 和 实物 化 的 生产 资料 比如 大 米 ， 有 很 大 不 同 。 
一 ，IT 数据 是 可 以 任意 复制 ， 并 可 以 复制 多 份 的 数据 。 
二 ，IT 系统 数据 是 不 断 变化 的 ， 在 生产 的 同时 ， 原 始 数据 将 会 不 断 地 变化 ， 甚 至 产品 数 


于 IT 数据 的 这 两 个 特点 , 在 IT 系统 的 生产 资料 容 灾 方 面 ， 需 要 注意 以 下 两 点 。 
一 , 不 可 能 像 储 存 大 米 一 样 , 把 某 时 刻 的 原始 数据 复制 到 备用 系统 中 就 不 管 了 , 因为 这 份 


数据 是 不 断 在 变化 中 的 , 我 们 需要 把 变化 实时 地 同步 到 备用 系统 中 , 只 要 主 系统 数据 变化 了 , 备 
用 系统 的 数据 也 要 跟着 变化 。 


第 


二 , 数据 必须 至 少 保留 额外 的 一 份 。 因 为 大 米 没有 了 ,可 以 再 购买 , 每 次 购买 的 大 米 也 可 


以 一 样 的 。 但 是 如 果 数 据 没有 了 , 就 不 可 再 生 , 这 个 企业 就 要 面临 倒闭 。 所 以 在 实现 容 灾 的 同时 ， 
还 必须 做 好 数据 备份 工作 ， 将 数据 备份 到 磁带 或 者 其 他 备份 目标 中 保存 。 基 于 IT 系统 数据 是 不 
断 变 化 的 ， 所 以 需要 尽量 保存 这 份 数据 的 最 后 状态 ,比如 ,一 天 备份 一 次 。 如 果 数 据 量 很 小 ,其 
至 可 以 一 天 备份 多 次 ， 这 样 可 以 充分 保证 备份 的 数据 与 当前 的 数据 相差 最 少 。 


有 


了 以 上 两 点 的 保证 ， 就 可 以 像 厨 房 容 灾 一 样 ， 来 设计 IT 系统 的 生产 资料 容 灾 了 。 以 下 是 


一 个 设计 好 的 例子 。 


,@ | 
,2 
《六 


在 


) 用 网 络 来 连接 本 地 系统 和 备用 系统 , 先 将 本 地 系统 某 时 刻 的 数据 , 实时 传送 到 备用 系统 。 
) 传输 结束 后 ， 再 将 从 这 个 时 刻 之 后 的 所 有 变化 的 数据 ， 同 步 到 备用 系统 。 

) 此 后 , 只 要 本 地 系统 有 数据 变化 ， 则 立即 将 变化 的 数据 传送 到 备用 系统 ,使 备用 系统 数 
据 发 生 相同 的 变化 。 

这 个 基础 上 , 还 需要 在 本 地 系统 中 对 数据 做 额外 备份 , 即 备份 到 离线 ( 如 磁带 等 ) 介 质 上 ， 


做 到 时 刻 保留 一 份额 外 的 数据 。 有 条 件 的 话 ,还 可 以 将 备份 好 的 磁带 运送 到 备份 站 点 去 ， 这 样 就 
充分 保证 了 主 站 点 一 旦 发 生火 灾 等 全 损 型 故障 后 的 数据 元 余 度 。 
生产 资料 的 容 灾 , 是 容 灾 系 统 中 最 重要 的 一 个 组 件 , 因为 没有 了 生产 资料 , 即使 有 生产 工具 、 


生产 者 


， 也 无 法 进行 生产 ; 而 如 果 没 有 了 生产 工具 和 生产 者 ， 比 如 服务 器 、 应 用 软件 等 ， 则 可 以 


很 容易 购买 到 。 
将 生产 数据 通过 网 络 实时 传送 到 备用 系统 , 要 实现 这 个 目的 , 要 怎么 来 设计 呢 ? 我 们 来 看 个 


拓扑 图 


， 如 图 17-1 所 示 。 


611 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


612 


图 17-1 两 种 数据 通路 的 位 置 


左边 的 主 站 点 和 右边 的 备份 站 点 存在 相同 的 生产 工具 。 既 然 要 使 主 站 点 和 备用 站 点 之 间 必 须 
通过 网 络 来 连接 ， 所 以 只 要 知道 究竟 在 哪个 网 络 设施 上 进行 连接 。 系 统 中 有 两 个 网 络 通信 设施 ， 
一 个 是 前 端 以 太 网 络 ， 另 一 个 是 后 端 SAN 网 络 ( 也 有 可 能 是 以 大 网 络 ， 即 服务 器 通过 iSCSI 协 
议 连 接 到 后 端 磁盘 阵列 ) ,我 们 究竟 是 连接 二 者 的 前 端 网 络 还 是 连接 后 端 网 络 呢 ( 图 中 标注 的 两 
条 路 径 ) ? 答案 是 ， 两 者 都 可 以 。 


17.2.1 通过 主机 软件 实现 前 端 专 用 网 络 或 者 前 端 公 用 网 络 同步 


这 种 方式 利用 的 就 是 图 17-1 中 的 标注 1 所 示 的 路 径 。 

(1) 主 站 点 和 备份 站 点 的 前 端 以 太 网 络 ， 均 通过 路 由 器 连接 至 电信 部 门 的 专线 或 者 Internet 
网 络 上 。 

(2 ) 主 站 点 上 变化 的 数据 ,经 过 前 端 以 太 网 交换 机 ， 然 后 通过 路 由 器 ,传送 给 电信 部 门 的 网 
络 交换 路 由 机 组 中 ， 经 过 层 层 交 换 或 路 由 ， 传 输 到 备份 站 点 的 路 由 器 。 

(3 ) 然后 经 过 交换 机 传送 到 备份 站 点 的 相应 服务 器 上 。 

(4 ) 服务 器 收 到 数据 后 ， 写 入 后 端的 磁盘 阵列 上 。 


提示 : 如 果 为 了 连接 而 接 入 Intemet 网 络 , 则 最 好 做 成 VPN 模式 ,在 隧道 的 基础 上 ,如 果 
追求 数据 安全 性 , 则 需要 配置 加 密 模 式 的 VPN。 如 果 对 数据 同步 的 实时 性 要 求 不 高 ,而 数 
据 量 又 很 大 的 情况 下 ， 主 站 点 和 备份 站 点 都 接 入 100Mb/s 的 Intemet 网 络 ， 反 而 会 得 到 很 
大 的 实惠 , 特别 是 备份 站 点 和 主 站 点 在 相同 城市 的 情况 下 , 这 样 主 站 点 数据 路 由 到 电信 部 
门 的 设备 之 后 ,经 过 很 少 的 设备 就 会 到 达 备 份 站 点 ,而 且 能 保证 很 大 的 实际 带宽 。 如 果 是 
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利用 窄带 专线 接 入 专 网 , 虽然 可 以 保证 这 条 链 路 带宽 独 享 , 但 是 毕竟 带宽 低 。 所 以 专线 可 
以 保证 数据 同步 的 实时 性 ， 但 是 不 适合 大 数据 量 的 传输 。 


因为 这 种 方式 同步 数据 , 需要 经 过 前 端 网 络 , 所 以 实现 这 个 功能 , 还 需要 在 距离 前 端 网 络 最 
近 的 主机 设备 上 实现 ， 也 就 是 服务 器 群 上 来 实现 。 

思考 : 为 何不 能 直接 在 网 络 交换 设备 上 或 者 路 由 器 上 来 实现 呢 ? 

第 一 , 网 络 设备 一 般 是 没有 灵活 的 程序 载 入 运行 能 力 的 , 网 络 设备 上 运行 的 程序 都 是 预先 固 
化 到 芯片 中 的 程序 ， 一 般 不 可 修改 ， 更 不 用 说 再 加 入 另外 的 程序 来 执行 了 。 

第 二 , 数据 存在 于 服务 器 , 或 者 连接 服务 器 的 磁盘 阵列 上 , 网 络 设备 若 想 从 服务 器 上 提取 数 
据 ,， 则 必须 通过 调用 操作 系统 提供 的 相关 程序 接口 。 而 跨 网 络 传输 数据 的 现成 接口 ， 只 有 网 络 文 
件 系统 ， 所 以 还 需要 将 所 有 数据 卷 都 共享 成 为 NAS 模式 ， 但 这 样 过 于 繁 元 ， 所 以 我 们 必须 要 在 
每 台 有 数据 备份 的 服务 器 上 安装 一 种 软件 来 实现 数据 的 同步 , 将 这 种 软件 安装 在 生产 者 , 也 就 是 
应 用 服务 器 上 ， 然 后 在 服务 器 上 提取 生产 资料 和 产品 。 

不 管 生产 资料 和 产品 存在 于 服务 器 本 地 磁盘 , 还 是 存在 于 后 端的 磁盘 阵列 上 , 对 于 服务 器 操 
作 系 统 来 说 ， 都 是 一 个 个 的 目录 。 在 第 15 章 的 最 后 曾经 描述 过 操作 系统 的 目录 虚拟 化 ,不管 底 
层 用 的 是 什么 设备 来 存储 数据 , 也 不 管 数 据 存 放 在 网 络 上 还 是 本 地 磁盘 上 , 最 终 操 作 系 统 都 将 这 
些 位 置 虚拟 成 目录 ， 比 如 Windows 的 C 盘 、D 盘 , 或 者 UNIX 下 的 /mnt、/mountpoint 等 。 

通过 这 种 软件 可 以 直接 监视 这 些 目录 中 数据 的 变化 , 只 要 有 变化 的 数据 , 就 提取 出 来 通过 网 
络 传送 到 远 端 服务 器 上 , 远 端 服 务 器 同样 需要 安装 这 种 软件 的 接收 端 模块 来 接收 数据 , 并 写 入 远 
端 备份 站 点 上 相应 服务 器 的 相同 目录 。 

这 种 方式 利用 了 前 端 网 络 进行 数据 同步 ,一 般 前 端 网 络 相 对 后 端 网 络 速度 来 说 是 比较 低 的 网 
络 , 而 且 是 客户 用 来 访问 服务 器 的 必 经 之 路 ， 所 以 它 的 资源 是 比较 宝贵 的 。 另外， 前端 网 络 一 般 
都 是 以 太 网 ， 相 对 廉价 ,而 且 容 易 整 合 到 企业 大 网 络 中 ,从 而 接 入 电信 部 门 的 网 络 ， 所 以 适合 基 
于 TCP/IP 协议 的 远 距 离 传输 ， 比 如 大 于 100 公里 的 范围 ， 甚 至 跨国 界 的 Internet 范围 内 传输 。 

下 面 来 看 一 下 这 种 方式 下 的 数据 流 经 路 径 : 

本 地 磁盘 阵列 (或 者 本 机 磁盘 ) 一 本 地 后 端 网 络 交换 设施 一 本 地 服务 器 内 存 一 本 地 前 端 网 络 
一 电信 交换 机 组 一 远 端 前 端 网 络 一 远 端 服务 器 内 存 一 远 端 后 端 网 络 交换 设施 一 远 端 磁盘 阵列 (或 
者 远 端 本 机 磁盘 ) 。 

如 果 数 据 源 在 本 机 磁盘 , 则 会 跳 过 本 地 后 端 网 络 交换 设施 , 直接 到 服务 器 内 存 。 如 果 数 据 是 
直接 在 内 存 中 生成 的 ， 则 需要 写 入 本 地 一 份 , 同 时 发 送 给 远 端 一 份 保存 。 其 中 , 在 “本 地 磁盘 阵 
列 一 本 地 后 端 网 络 交换 设施 一 本 地 服务 器 内 存 " 这 段 路 径 上 , 数据 是 通过 FCP 协议 ( SCSI over FC 
协议 ) 进行 打包 传送 的 ; 在 “本 地 前 端 网 络 一 电信 交换 机 组 一 远 端 前 端 网 络 ”这 段 路 径 上 , 数据 
是 通过 TCP/IP 协议 传送 的 。FCP 协议 运行 在 后 端 高 速 网 络 的 保障 之 上 ， 而 TCP/IP 协议 运行 在 
使 用 前 端 低速 网 络 的 设备 上 ， 保 障 数据 传输 ， 二 者 各 得 其 所 ， 充 分 发 挥 着 各 自 的 作用 。 

图 17-2 所 示 的 路 径 即 是 数据 流动 的 路 径 。 服 务 器 上 的 涡轮 泵 表示 数据 同步 软件 ， 它 从 本 地 
提取 数据 , 并 将 数据 源源 不 断 地 发 送 给 远 端 , 远 端 服务 器 上 的 涡轮 泵 将 收 到 的 数据 源源 不 断 地 写 
入 存储 设备 。 
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图 17-2 经 前 端 网 络 备份 数据 
这 种 方式 的 数据 同步 , 一 般 都 是 文件 级 同步 , 即 同步 软件 只 检测 文件 这 一 层 的 数据 变化 , 或 
者 每 当主 服务 器 针对 某 个 文件 做 写 入 时 , 写 入 数据 会 同时 发 送 给 备用 服务 器 。 而 对 底层 卷 的 数据 
块 的 变化 ,不 做 同步 ， 除 非 数 据 块 的 变化 造成 了 对 应 的 文件 的 逻辑 数据 变化 。 


Veritas Volume Replicator 软件 介绍 


Veritas Volume Replicator ( VVR ) ， 是 Veritas 公司 容 灾 套件 Storage Foundation 系列 软件 中 


的 一 个 模块 ， 它 的 作用 非常 专 一 ， 就 是 将 本 地 某 个 卷 上 的 数据 变化 ， 通 过 前 端 IP 网 络 复制 到 远 
端 对 应 的 卷 上 ， 而 且 保 证 数据 变化 发 生 的 顺序 不 被 打 乱 ， 完 全 按照 本 地 的 IO 发 生 顺 序 在 异地 按 
照相 同 的 顺序 重 现 这 个 IO。 


VVR 支持 耗费 带宽 调整 功能 ， 控 制 对 网 络 带宽 的 使 用 ， 在 业务 繁忙 时 可 以 降低 发 送 速度 来 


减少 对 网 络 带 宽 的 耗费 , 并 且 可 以 针对 不 同 的 同步 流 设 定 各 自 的 带宽 。 支 持 异 步 和 同步 复制 (在 


后 


面 会 介绍 ) 。 在 网 络 发 生 故 障 的 时 候 ， 可 以 自动 将 复制 模式 从 同步 切换 到 异步 ， 以 减少 对 主机 


业务 的 影响 。 一 旦 复制 断 开 ，VVR 可 以 记录 主 站 点 自从 断 开 之 后 的 数据 变化 ， 待 连接 重新 建立 
之 后 ， 立 即 复制 这 些 变化 的 数据 ， 而 不 需要 对 两 边 数据 进行 重新 比 对 或 者 全 部 重新 复制 。 


提示 : 类 似 的 软件 还 有 很 多 ， 比 如 Double Take 、Legato， 国 产 同 步 软件 InfoCore Replicator 
等 ， 它 们 的 构思 都 是 一 样 的 ， 只 不 过 实现 方式 和 效果 上 有 所 不 同 。 


后 文 将 介绍 两 个 使 用 这 种 方式 来 同步 数据 的 案例 。 
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17.2.2 案例 : DB2 数据 的 HADR 组 件 容 灾 


这 个 案例 是 笔者 实施 的 一 个 DB2 数据 库容 灾 案 例 ， 它 利用 了 运行 在 主机 和 备份 机 上 的 一 个 
数据 库 软件 模块 ( 即 HADR ) ， 来 实现 两 端的 数据 同步 ， 主 机 和 备份 机 之 间 使 用 基于 以 太 网 的 
TCP/IP 协议 连接 。 这 个 案例 同步 的 数据 不 是 卷 上 的 原始 数据 ， 而 是 一 种 对 数据 操作 的 描述 ， 即 
数据 库 日 志 ， 比 如 : “在 DD 盘 创 建 一 个 表 空间 数据 文件 ， 名 称 testspace， 大 小 500MB”。 

这 就 是 一 条 日 志 ， 主 机 内 需要 把 这 名 话 告诉 备份 机 即 可 ， 而 不 需要 传输 500MB 的 数据 。 备 
份 机 收 到 日 志 后 ， 便 会 在 备份 机 的 磁盘 上 重 做 ( replay ) 这 些 操 作 ， 达 到 与 直接 同步 卷 上 数据 丈 
途 同 归 的 效果 。 


1. HADR 


其 全 称 为 High Availability Disaster Recovery, 它 是 DB2 数据 库 级 别 的 高 可 用 性 数据 复制 机 制 ， 
最 初 被 应 用 于 Informix 数据 库 系统 中 ， 称 为 High Availability Data Replication ( HDR ) ,是 
Share-Nothing 方式 容 灾 的 典型 代表 。 

提示 : 在 IBM 收购 Informix 之 后 ， 这 项 技术 就 应 用 到 了 新 的 DB2 发 行 版 中 。 


一 个 HADR 环境 需要 两 台数 据 库 服务 器 : 主 数据 库 服务 器 ( Primary ) 和 备用 数据 库 服务 器 
(standby ) 。 

， ”当主 数据 库 中 发 生 事务 操作 时 , 会 同时 将 日 志文 件 通过 TCP/IP 协议 传送 到 备用 数据 库 
服务 器 ， 然 后 备用 数据 库 对 接收 到 的 日 志文 件 进行 重 放 ( Replay ) ， 从 而 保持 与 主 数据 
库 的 一 致 性 。 

， 当主 数据 库 发 生 故障 时 ,备用 数据 库 服务 器 可 以 接管 主 数据 库 服务 器 的 事务 处 理 。 此 时 ， 
备用 数据 库 服务 器 作为 新 的 主 数据 库 服务 器 进行 数据 库 的 读 写 操作 , 而 客户 端 应 用 程序 
的 数据 库 连 接 可 以 通过 自动 客户 端 重新 路 由 ( Automatic Client Reroute ) 机 制 转移 到 新 
的 主 服务 器 。 

， ， 当 原 来 的 主 数据 库 服务 器 被 修复 后 ， 又 可 以 作为 新 的 备用 数据 库 服务 器 加 入 HADR。 
通过 这 种 机 制 ，DB2 UDB 实现 了 数据 库 的 故障 恢复 和 高 可 用 性 ， 最 大 限度 地 避免 了 数 
据 丢 失 。 图 17-3 为 DB2 HADR 的 工作 原理 图 。 


Automatic 


图 17-3 DB2 HADR 工作 原理 图 


615 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


616 


注意 : 处 于 备用 角色 的 数据 库 不 能 被 访问 。 


HADR 有 三 种 同步 方式 。 

1) SYNC (同步 ) 

此 方式 可 以 尽 可 能 地 避免 事 务 丢失 ,但 在 三 种 方式 中 ,使 用 此 方式 会 导致 事务 响应 时 间 最 长 。 
在 此 方式 中 , 仅 当 日 志 已 写 入 主 数 据 库 上 的 日 志文 件 , 而 且 主 数据 库 已 接收 到 来 自 备 用 数据 库 的 
应 答 , 确定 日 志 也 已 写 入 备用 数据 库 上 的 日 志文 件 时 , 方才 认为 日 志 写 入 是 成 功 的。 保证 日 志 数 
据 同 时 存储 在 这 两 处 。 

如 果 备 用 数据 库 在 重 放 日 志 记录 之 前 崩溃 , 则 它 下 次 启动 时 , 可 从 其 本 地 日 志文 件 中 检索 和 
重 放 这 些 记录 。 如 果 主 数据 库 发 生 故 障 , 故障 转移 至 备用 数据 库 ， 可 以 保证 任何 已 在 主 数据 库 上 
落实 的 事务 , 也 在 备用 数据 库 上 落实 。 故障 转移 操作 之 后 , 当 客户 机 重新 与 新 的 主 数据 库 连 接 时 ， 
可 能 会 有 在 新 主 数据 库 上 已 落实 的 事务 , 对 于 原始 主 数 据 库 却 从 未 报告 为 已 落实 。 当 主 数据 库 在 
处 理 来 自 备 用 数据 库 的 应 答 消息 之 前 出 现 故障 时 , 即 会 出 现 此 种 情况 。 客户 机 应 用 程序 应 考虑 查 
询 数据 库 以 确定 是 否 存在 此 类 事务 。 

如 果 主 数据 库 失去 与 备用 数据 库 的 连接 , 则 不 再 认为 这 些 数 据 库 处 于 对 等 状态 , 而 且 将 不 阻 
止 事务 等 待 来 自 备 用 数据 库 的 应 答 。 如 果 在 数据 库 断 开 连 接 时 执行 故障 转移 操作 , 则 不 保证 所 有 
已 在 主 数据 库 上 落实 的 事务 将 出 现在 备用 数据 库 上 。 

当 数据 库 处 于 对 等 状态 时 ,如 果 主 数据 库 发 生 故 障 , 则 可 以 在 故障 转移 操作 之 后 , 作为 备用 
数据 库 重 新 加 入 HADR 对 。 因 为 在 主 数 据 库 接收 到 来 自 备用 数据 库 的 应 答 , 确认 日 志 已 写 入 备 
用 数据 库 上 的 日 志文 件 之 前 , 不 认为 事务 已 落实 , 所 以 主 数 据 库 上 的 日 志 顺 序 将 与 备用 数据 库 上 
的 日 志 顺 序 相 同 。 原 始 主 数据 库 ( 现在 是 备用 数据 库 ) 只 需要 通过 重 放 自 从 故障 转移 操作 以 来 ， 
在 新 的 主 数据 库 上 生成 的 新 日 志 记 录 来 进行 同步 更 新 。 

如 果 主 数据 库 发 生 故 障 时 并 未 处 于 对 等 状态 , 则 其 日 志 顺 序 可 能 与 备用 数据 库 上 的 日 志 顺 序 
不 同 。 如 果 必 须 执行 故障 转移 操作 , 主 数据 库 和 备用 数据 库 上 的 日 志 顺 序 可 能 不 同 ， 因 为 在 故障 
转移 之 后 ， 备 用 数据 库 启动 自己 的 日 志 顺 序 。 因 为 无 法 撤销 某 些 操作 ( 比如， 删除 表 ) ， 所 以 不 
可 能 将 主 数据 库 回 复 到 创建 新 的 日 志 顺 序 的 时 间 点 。 

如 果 日 志 顺 序 不 同 ， 当 在 原始 主 数据 库 上 发 出 指定 了 As STANDBY 选项 的 START HADR 
命令 时 , 将 返回 错误 消息 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 , 则 可 以 通过 发 出 未 指 
定 BY FORCE 选项 的 TAKEOVER HADR 命令 来 完成 数据 库 的 故障 恢复 。 如 果 原 始 主 数据 库 
无 法 重新 加 入 HADR 对 , 则 可 以 通过 复原 新 的 主 数据 库 的 备份 映像 来 将 此 数据 库 重 新 初始 化 为 
备用 数据 库 。 

2) NEARSYNC (接近 同步 ) 

此 方式 具有 比 同 步 方式 更 短 的 事务 响应 时 间 , 但 针对 事务 丢失 提供 的 保护 也 很 少 。 在 此 方式 
中 , 仅 当 日 志 记录 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 且 主 数据 库 已 接收 到 来 自 备用 系统 的 应 答 ， 
确定 日 志 也 已 写 入 备用 系统 上 的 主 存储 器 时 , 才 认为 日 志 写 入 是 成 功 的 。 仅 当 两 处 同时 发 生 故 障 ， 
并 且 目 标 位 置 未 将 接收 到 的 所 有 日 志 数据 转移 至 非 易 失 性 存储 器 时 ， 才 会 出 现 数据 的 丢失 。 

如 果 备 用 数据 库 在 将 日 志 记 录 从 存储 器 复制 到 磁盘 之 前 崩溃 , 则 备用 数据 库 上 将 丢失 日 志 记 
录 。 通 常 ， 当 备用 数据 库 重 新 启动 时 ， 它 可 以 从 主 数据 库 中 获取 丢失 的 日 志 记录 。 然 而 ， 如 果 主 
数据 库 或 网 络 上 的 故障 使 检索 无 法 进行 , 并 且 需 要 故障 转移 时 , 日 志 记录 将 不 会 出 现在 备用 数据 
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库 上 ， 而 且 与 这 些 日 志 记录 相关 联 的 事务 将 不 会 出 现在 备用 数据 库 上 。 

如 果 事 务 丢 失 ,， 则 在 故障 转移 操作 之 后 , 新 的 主 数据 库 与 原始 主 数据 库 不 相同 。 客 户 机 应 用 
程序 应 该 考虑 重新 提交 这 些 事务 ， 以 便 使 应 用 程序 状态 保持 最 新 。 

当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 , 如 果 主 数据 库 发 生 上 故障, 则 在 没有 使 用 完全 复原 
操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 能 无 法 作为 备用 数据 库 重 新 加 入 HADR 对 。 

如 果 故 障 转移 涉及 丢失 的 日 志 记录 ( 因为 主 数 据 库 和 备用 数据 库 已 发 生 故 障 ) , 主 数据 库 和 
备用 数据 库 上 的 日 志 顺 序 将 会 不 同 , 并 且 在 未 执行 复原 操作 的 情况 下 , 重新 启动 原始 主 数据 库 以 
作为 备用 数据 库 的 尝试 将 会 失败 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 , 则 可 以 通过 发 
出 未 指定 BY FORCE 选项 的 TAKEOVER HADR 命令 来 完成 数据 库 的 故障 恢复 。 

如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 库 的 备份 映像 来 将 
其 重新 初始 化 为 备用 数据 库 。 


提示 : 局 域 网 环境 一 般 采用 NEARSYNC 方式 进行 同步 。 

3) ASYNC (异步 ) 

提示 : 如 果 主 系统 发 生 故 障 ， 此 方式 发 生 事务 丢失 的 几率 最 高 。 在 三 种 方式 之 中 ,此 方式 
的 事务 响应 时 间 也 是 最 短 的 。 


在 此 方式 中 , 只 有 当日 志 记录 已 写 入 主 数据 库 上 的 日 志文 件 , 而 且 已 将 此 记录 传递 给 主 系统 
主机 的 TCP 层 时 ， 才 认为 日 志 写 入 是 成 功 的。 因为 主 系统 不 会 等 待 来 自 备 用 系统 的 应 答 ， 所 以 
当 事 务 仍 处 于 正在 传 入 备用 系统 的 过 程 中 时 ， 可 能 会 认为 事务 已 落实 。 

主 数据 库 主 机 上 、 网 络 上 或 备用 数据 库 上 的 故障 可 能 导致 传送 中 的 日 志文 件 丢失 。 如果 主 数 
据 库 可 用 ， 则 会 在 此 对 重新 建立 连接 时 ， 将 丢失 的 日 志文 件 重新 发 送 至 备用 数据 库 。 然 而 ， 如 果 
在 丢失 日 志文 件 时 要 求 执行 故障 转移 操作 ， 则 日 志文 件 和 相关 联 的 事务 都 将 不 会 到 达 备 用 数据 
库 。 丢 失 的 日 志 记 录 和 主 数据 库 上 的 故障 会 导致 事务 的 永久 丢失 。 

如 果 事务 丢失 , 则 在 故障 转移 操作 之 后 , 新 的 主 数据 库 与 原始 主 数据 库 不 是 完全 相同 的 。 客 
户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事务 ， 以 便 使 应 用 程序 状态 保持 最 新 。 

当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 , 如 果 主 数据 库 发 生 故 障 , 则 在 没有 使 用 完全 复原 
操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 能 无 法 作为 备用 数据 库 重 新 加 入 HADR 对 。 

如 果 故 障 转移 涉及 丢失 的 日 志 记 录 , 主 数据 库 和 备用 数据 库 上 的 日 志 顺 序 将 会 不 同 , 并 且 重 
新 启动 原始 主 数据 库 以 作为 备用 数据 库 的 尝试 将 失败 。 因 为 ， 如 果 在 异步 方式 中 发 生 故 障 转移 ， 
日 志 记录 更 有 可 能 丢失 ， 所 以 主 数据 库 不 能 重新 加 入 HADR 对 的 可 能 性 也 更 大 。 如 果 原始 主 数 
据 库 成 功 地 重新 加 入 HADR 对 , 则 可 以 通过 发 出 未 指定 BY FORCE 选项 的 TAKEOVER HADR 
命令 来 完成 数据 库 的 故障 恢复 ; 如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 
的 主 数据 库 的 备份 映像 将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 


2. BBP 系统 结构 


某 企 业 目 前 有 一 套 物 流 BBP 系统 ， 基 于 SAP 构建 ，SAP 后 台数 据 库 使 用 的 是 DB2 v8.2。 现 
有 一 台 闲 置 服务 器 (IP: 192.168.100.23 ) ， 使 用 这 人 台 服 务 器 作为 HADR 系统 的 备份 节点 , 已 经 
上 线 运行 的 BBP 服务 器 ( IP: 192.168.100.231 ) 作为 系统 的 主 节 点 。B2B 系统 目前 的 拓扑 与 实现 
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HADR 之 后 的 拓扑 图 如 图 17-4 所 示 。 


HADR 系统 将 目前 闲置 的 备份 机 充分 利用 了 起 来 ,一旦 主 节点 发 生 故障 ， 可 以 立即 手动 切 


换 到 备份 节点 ,与 此 同时 ,客户 端 会 自动 重新 连接 到 备份 机 ， 使 和 


是 


E 产 继续 进行 。 故 障 的 主机 可 


以 离线 进行 故障 恢复 。 恢 复 之 后 可 以 加 入 HADR 组 , 并 且 重 新 接管 所 有 应 用 。 表 17-2 简要 说 明 


了 实施 HADR 的 过 程 。 


Web 页 面 服务 器 Web 页 面 服务 器 
192.168.100.232 192.168.1 


SAP 应 用 服务 器 SAP 应 用 服务 器 
192.168.100.156| |192.168.100.230 


B268 系 统 拓扑 图 


Web 页 面 服务 器 Web 页 面 服务 器 
192.168.100.232 192.168.100.234 


SAP 应 用 服务 器 SAP 应 用 服务 器 
192.168.100.156| |192.168.100.230| 


B2B 系 统 HADR 拓 扑 图 


图 17-4 B2B 系 统 目前 的 拓扑 与 实现 HADR 之 后 的 拓扑 图 
表 17-2 在 上 述 环境 下 实施 HADR 的 简单 过 程 


序号 预计 消耗 时 间 /min 

i 对 主机 数据 库 做 离线 备份 ， 数 据 量 75GB。 二 
复制 主机 数据 库 的 离线 备份 镜像 到 备份 机 
仿 查 主机 和 备份 机 的 磁盘 分 区 、 数据 库 管理 器 配置 参数 、 数据库 

2 配置 参数 、 活 动 日 志 路 径 、 归 档 日 志 路 径 、 容 器 路 径 、 用 户 名 20 
和 密码 、 环 境 变 量 ， 如 有 不 同 ， 修 改 备份 机 配置 与 主机 一 致 

3 用 镜像 恢复 备份 机 上 的 数据 库 150 

4 再 次 检查 恢复 之 后 数据 库 的 配置 与 主机 是 否 一 致 5 
在 主机 和 备份 机 上 分 别 用 写 好 的 脚本 配置 HADR 所 需 的 参数 ( 脚 
本 见 附录 ) 。 

主机 执行 的 脚本 名 : hadr_pri.bat 
备份 机 执行 的 脚本 名 : hadr_std.bat 
启动 备份 机 上 的 HADR: 

6 Db2 “deactivate db bbp” 1 


Db2 “start hadr on db bbp as standby” 


启动 主机 上 的 HADR: 
ka Db2 “deactivate db bbp” 


Db2 “start hadr on db bbp as primary” 


检查 主机 和 备份 机 HADR 的 运行 状态 : 
Db2pd dbbbp hadr 

Db2 “get snapshot for db on bbp” 

等 待 两 边 HADR 处 于 对 等 状态 
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续 表 
序号 预计 消耗 时 间 /min 
Takeover 测试 。 
先 停止 三 台 应 用 服务 器 上 的 SAP。 
9 备份 机 上 执行 : 和 


Db2“takeover hadr on db bbp” 
Db2 “get snapshot for db on bbp” 
检查 是 否 备份 机 成 功 接管 了 主机 的 角色 。 
在 备份 机 上 创建 测试 表 : 
Db2 “create table bbpadm.hadrtest (aint ) ” 
Db2“insert into bbpadm.hadrtest values ( 100 ) ” 
9 在 主机 上 执行 : 1 
Db2 “takeover hadr on db bbp” 
Db2 “select * from bbpadm.hadrtest” 
Db2 “drop table bbpadm.hadrtest” 
检查 备份 机 上 创建 的 表 是 否 已 经 同步 到 主机 
Takeover by force 测试 
在 备份 机 上 执行 : 
Db2 “takeover hadr on db bbp” 
Db2 “get snapshot for db on bbp” 
在 主机 上 执行 : 
Db2 “takeover hadr on db bbp by force” 
Db2 “get snapshot for db on bbp” 
此 时 HADR 应 该 处 于 断 开 状 态 
Db2 “connect to bbp” 
从 强制 接管 恢复 到 HADR 配对 的 步骤 。 
10 在 主机 上 执行 : 10 
Db2 “stop hadr on db bbp” 
在 备份 机 上 执行 : 
Db2rfpen on bbp 
Db2 “terminate” ; db2stop 
Db2start 
Db2 “start hadr on db bbp as standby” 
在 主机 上 执行 : 
Db2 “start hadr on db bbp as primary” 
Db2 “get snapshot for db on bbp” 
检查 HADR 是 否 重新 配对 
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客户 端 自动 重启 路 由 测试 


预计 消耗 时 间 /min 


在 192.168.100.230 和 192.168.100.156 上 执行 : 10 
Db2“disconnect bbp user 用 户 名 using 密码 ” 


检 


Db2“takeover hadr on db bbp” 


Db2 


Db2 


“connect to bbp” 


“list db directory” 
查看 是 否 已 经 收 到 备份 机 地 址 和 端口 。 
在 HADR 备份 机 上 执行 : 


Db2 “get snapshot for db on bbp” 

在 192.168.100.230 和 192.168.100.156 上 执行 : 
Db2 “disconnect bbp” 
Db2“connect to bbp user 用 户 名 using 密码 ” 


Db2 “takeover hadr on db bbp” 


Db2 


查 是 否 收 到 了 另 


“list db directory” 
- 台 DB2 服务 器 的 地 址 和 端口 。 
回 切 HADR 角色 。 
主机 上 执行 : 


10 


Db2 “get snapshot for db on bbp” 
在 192.168.100.230 和 192.168.100.156 上 执行 : 
Db2“disconnect bbp” 
Db2“connect to bbp user 用 户 名 using 密码 ” 
Db2“list db directory” 


检查 是 否 
Hadr pri.bat 的 内 容 : 
db2 "UPDATE DB CFG 
db2 "UPDATE DB CFG 
db2 "UPDATE DB CFG 
db2 "UPDATE DB CFG 
db2 "UPDATE DB CFG 
db2 "UPDATE DB CFG 
db2 "UPDRATE DB CFG 


FOR 
FOR 
FOR 
FOR 
FOR 
FOR 
FOR 


bbp 
bbp 
bbp 
bbp 
bbp 
bbp 
bbp 


USING 
USING 
USING 
USING 
USING 
USING 
USING 


HADR 
HADR 
HADR 
HADR 
HADR 
HADR 
HADR 


收 到 了 备用 DB2 服务 器 的 地 址 和 端口 


LOCAL HOST 192.168.100.231" 
LOCAL SVC 64000" 

REMOTE HOST 192.168.100.23" 
REMOTE SVC 64001" 

REMOTE INST db2bbp" 
SYNCMODE NERARSYNC" 

TIMEOUT 60" 


db2 "update alternate server for db bbp using hostname 192.168.100.23 port 


5912™ 


db2 "update db cfg for bbp using logindexbuild on" 
db2 "update db cfg for bbp 
hadr std.bat 的 内 容 : 


using indexrec restart" 


db2 "UPDRATE 
db2 "UPDRATE 
db2 "UPDRATE 
db2 "UPDRATE 
db2 "UPDRTE 
db2 "UPDRTE 
db2 "UPDRTE 
db2 "update 
人 SEE 人 

db2 "update 
db2 "update 


17.2.3 通 


DB 
DB 
DB 
DB 
DB 
DB 
DB 


CEFG 
CEG 
CEG 
CEG 
CFG 
CFG 
CFG 


FOR 
FOR 
FOR 
FOR 
FOR 
FOR 
FOR 


bbp 
bbp 
bbp 
bbp 
bbp 
bbp 
bbp 


USING 
USING 
USING 
USING 
USING 
USING 
USING 
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HADR LOCAL HOST 192.168. 
HADR LOCAL SVC 64001" 


HADR REMOTE HOST 192.168. 


HADR REMOTE SVC 64000" 
HADR REMOTE INST db2bbp" 
HADR SYNCMODE NEARSYNC" 
HADR TIMEOUT 60" 
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E023 


1 


alternate server for db bbp using hostname 192.168.100.231 


db cfg for bbp using 


logindexbuild on" 


db cfg for bbp using indexrec restart" 
完成 配置 之 后 ， 在 主机 或 者 备份 机 上 的 DB2 命令 行 环境 中 输入 以 下 命令 


Db2 get snapshot for db on bbp 
即 可 以 查看 HADR 的 运行 状态 ， 


过 主机 软件 实现 


图 17-5 


如 图 17-5 所 示 。 


HADR 的 运 


52: 


898881283CBAES66 
P00001283CBAE4P3 


行 状态 


后 端 专用 网 络 同步 


用 这 种 方式 来 同步 数据 , 数据 不 会 流 经 前 端 网 络 ， 


而 


的 存储 设备 中 。 这 就 需要 将 主 站 点 的 后 端 网 络 设施 和 备份 站 点 的 后 


接 通 过 裸 光纤 连接 两 台 SAN 交换 机 ; 
那 要 求 


如 果 用 前 者 连接 两 个 站 点 ， 


可 以 自主 布线 , 不 需要 经 过 市 政 部 门 
路 


FC 协议 了 。 和 否则 ， 如 果 两 个 站 点 
门 的 光缆 , 但 是 这 条 光缆 上 的 数据 4 


的 协议 转换 设备 ， 两 个 站 点 各 一 个 ， 


或 者 租用 电信 部 门 的 光缆 才 


17-6 所 示 。 


后 端 网 络 交换 设施 


协 
转 


电信 部 门 高 
速 光线 专线 


全 部 通过 


了 很 远 的 距离 ， 那 么 就 必须 使 用 
须 符合 电信 部 门 传输 设备 所 使 用 
如 图 


后 端 网 络 传输 到 备份 站 点 对 应 
后 端 网 络 设备 连接 起 来 。 或 者 直 
> 线 。 


两 个 站 点 之 间 的 道路 上 可 以 自己 布线 ， 比 如 一 个 大 院内 ， 
- 预 ， 这 样 便 可 以 直接 连接 两 端的 SAN 交换 机 ， 直 接 承载 


后 者 ， 也 就 是 租用 电信 部 
的 协议 。 后 者 需要 添加 额外 


协 


后 端 网 络 交换 设施 


转 


图 17-6 连接 两 个 站 点 的 后 端 网 
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现在 电信 部 门 的 光纤 专线 一 般 为 SDH 传输 方式 ， 接 入 到 用 户 端的 时 候 ， 一 般 将 信号 调制 成 
E1、OC3 等 编码 方式 ， 所 以 必须 将 FC 协议 承载 于 这 些 协议 之 上 ， 也 就 是 我 们 在 前 面 第 13 章 中 
所 描述 的 Protocol Over Protocol 模型 ， 完 成 这 个 动作 的 ， 就 是 协议 转换 器 。 

协议 转换 器 在 一 端 按照 某 种 协议 的 逻辑 进行 工作 , 而 在 另 一 端 则 按照 另 一 种 协议 的 逻辑 进行 
工作 ， 把 数据 从 一 端 接收 过 来 ， 经 过 协议 转换 ， 以 另 一 种 协议 的 逻辑 发 送出 去 ， 到 达 对 端 后 ,再 
进行 相反 的 动作 。 

有 些 路 由 器 则 直接 在 其 内 部 集成 了 各 种 协议 转换 器 ， 可 以 说 路 由 器 就 是 一 种 协议 转换 器 。 我 们 
可 以 看 一 下 机 房 中 的 网 络 路 由 器 ,上面 有 各 种 各 样 的 接口 ,为 何不 清一色 都 是 RJ-45 以 太 网 接口 呢 ? 

因为 路 由 器 不 只 是 路 由 以 太 网 数据 , 还 要 路 由 其 他 网 络 协议 的 数据 , 甚至 还 要 在 不 同 网 络 协 
议 之 间 做 转换 。 而 如 果 把 这 些 协 议 都 做 到 SAN 交换 机 上 ,那么 这 台 SAN 交换 机 ， 就 是 一 台 不 折 
不 扣 的 SAN 路 由 器 了 。 对 于 没有 费用 购买 SAN 路 由 器 的 用 户 来 说 , 用 一 个 层 层 的 协议 转换 设备 
来 完成 也 是 很 划算 的 ， 这 就 像 给 照相 机 加 一 层 层 的 特殊 镜头 一 样 。 图 17-7 是 一 个 层 层 协议 转换 
器 的 实例 。 


多 路 复 


多 路 复 
结 Fc 协 议 FC overlP 。 ETH overE1 用 的 E1 用 的 E1 。 ETHoverE1 Fc overlP 。 纯 Fc 协 议 


| ll 
图 17-7 利用 SDH 网 络 连接 后 端 网 络 

源 端的 纯 FC 协议 , 经 过 FCIP 网 关 , 变 成 了 基于 以 太 网 的 亿 协议 (FC over IP over ETH ) ， 
经 过 E1/ 以 太 网 转换 器 ,承载 到 了 E1 协议 之 上 , 然后 多 路 E1 信号 汇聚 到 光端机 , 通过 一 条 或 者 
几 条 光纤 ， 传 输 给 电信 部 门 的 SDH 交换 设施 上 进行 传输 ， 到 达 目 的 之 后 ， 进 行 相反 的 动作 ， 最 
终 转 换 成 纯 FC 协议 。 这 样 ， 源 和 目的 都 不 会 感觉 到 中 间 一 层 层 协 议 转换 设备 的 存在 。 

主 站 点 和 备份 站 点 的 后 端 SAN 交换 机 能 够 成 功 连 接 之 后 , 两 个 SAN 网 络 便 可 以 融合 了 , 就 
像 一 个 SAN 网 络 一 样 。 所 以 ， 主 站 点 的 服务 器 也 就 可 以 访问 到 备份 站 点 的 磁盘 阵列 。 这 样 ， 不 
需要 经 过 前 端 网 络 , 就 可 以 直接 访问 备份 站 点 的 存储 设备 , 也 就 可 以 直接 在 备份 站 点 的 存储 设备 
上 读 写 数据 了 。 如 图 17-8 所 示 ， 备份 站 点 磁盘 阵列 上 的 一 个 LUN ( 卷 B ) 可 以 直接 被 主 站 点 的 
服务 器 识别 ， 这 样 ， 主 站 点 的 服务 器 就 可 以 同时 操作 本 地 磁盘 阵列 和 备份 站 点 的 磁盘 阵列 了 。 


图 17-8 后 端 网 络 通路 示意 图 
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我 们 来 看 一 下 这 种 方式 下 数据 走 过 的 路 径 : 
本 地 磁盘 阵列 一 SAN 网 络 交换 设施 一 本 地 服务 器 内 存 一 SAN 网 络 交 换 设施 一 通过 协 转 流入 
电信 部 门 网 络 ( 如 果 有 ) 一 远 端 SAN 网 络 交换 设施 一 远 端 磁盘 阵列 ， 如 图 17-9 所 示 。 


图 17-9 经 过 后 端 网 络 同步 数据 
分 析 : 上 述 的 两 种 方式 中 , 第 二 种 方式 的 步骤 比 第 一 种 少 了 两 步 , 数据 到 达 远 端 SAN 交 
换 设施 之 后 ， 立 即 被 传送 到 了 磁盘 阵列 这 个 最 终 目 标 ， 而 不 必 再 经 过 一 台 服 务 器 了 ,为 
何 呢 ? 


因为 第 二 种 方式 中 , 主 站 点 的 服务 器 对 备份 站 点 的 存储 设备 有 了 直接 访问 权 , 而 第 一 种 方式 
中 ， 双 方 都 没有 对 方 存储 设备 的 直接 访问 权 ， 必须 通 过 对 方 服务 器 的 参与 。 

然而 , 第 二 种 方式 中 数据 仍然 至 少 需 要 经 过 一 台 服 务 器 , 为 何 呢 ? 因 为 涡轮 泵 ( 实现 数据 同 
步 功能 的 软件 ) 是 运行 在 服务 器 上 的 , 没有 涡轮 梢 ,水 就 不 会 流动 ,数据 也 无 法 流动 ， 而 不 可 能 
有 一 种 泵 ， 可 以 让 水 不 经 过 它 就 可 以 流动 。 同 样 ， 数 据 流 也 不 可 能 不 经 过 和 泵 就 自己 流动 。 

现在 ， 两 个 SAN 已 经 连接 了 ， 而 且 主 站 点 的 服务 器 可 以 畅通 无 阻 地 访问 备份 站 点 的 磁盘 阵 
列 存储 设备 了 ,万 事 俱 备 ， 只 欠 东 风 。 究 竟 在 这 种 方式 中 ， 要 怎么 来 设计 这 个 涡轮 泵 呢 ? 

其 实 没有 什么 特别 之 处 ,我 们 来 分 析 第 一 种 方式 的 同步 方法 ,那个 硝 用 的 是 从 本 地 提取 数据 ， 
发 送 到 前 端 网 络 ， 网 络 那 头 用 一 个 接收 者 将 接收 的 数据 写 入 到 盘 阵 中 。 

分 析 : 同 理 , 第 二 种 方式 下 , 大 思路 当然 还 是 这 样 , 只 不 过 是 从 后 端 网 络 提取 数据 之 后 ， 

再 发 送 回 后 端 网 络 的 另 一 个 目的 ,然而 这 一 切 只 需要 一 个 泵 就 能 完成 ， 因 为 这 个 泵 现在 

已 经 可 以 掌管 数据 的 起 源 设备 和 数据 的 终结 设备 了 。 


我 们 理所当然 地 设计 了 这 个 泵 ， 它 的 作用 方式 就 是 ， 将 数据 从 本 地 的 卷 A 中 提取 出 来 ， 然 
后 直接 通过 SAN 网 络 写 入 位 于 备份 站 点 的 卷 B。 如 果 数据 是 直接 在 内 存 中 生成 的 ， 需 要 写 入 保 


623 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


624 


存 ， 则 写 入 本 地 卷 A 一 份 ， 同 时 写 入 远 端 的 卷 B 一 份 。 这 种 方式 显然 比 第 一 种 方式 来 得 快 ， 但 
是 它 对 网 络 速度 要 求 更 高 ， 成 本 也 更 高 。 第 一 种 方式 中 ， 有 两 个 泵 ， 而 第 二 种 方式 中 ， 只 有 一 个 
和 泵 ,这 样 会 不 会 造成 “动力 ”不 足 昵 ? 不 会 的 , 水 在 流动 过 程 中 是 有 阻力 的 ， 而 数据 流 是 没有 阻 
力 的 ， 所 以 如 果 增 加 额外 的 泵 ， 反 而 会 影响 数据 流 的 速度 。 

这 种 实现 方式 又 叫做 “ 卷 镜像 ”, 意思 就 是 两 个 卷 像 镜 物 与 实物 完全 一 样 。 第 一 种 方式 为 何 
不 叫 镜像 呢 ? 因为 第 一 种 方式 跨越 的 距离 太 远 ， 这 样 不 能 达到 两 个 卷 在 任何 时 刻 的 数据 都 相同 ， 
在 讲 同步 和 异步 的 时 候 还 会 涉及 这 方面 的 问题 。 这 种 方式 能 很 好 地 保证 数据 同步 的 实时 性 , 但 是 
不 适合 远 距离 大 数据 量 数据 同步 ， 除 非 不 惜 成 本 搭建 高 速 远 距离 专线 链 路 。 

第 二 种 方式 , 卷 同步 软件 是 工作 在 卷 这 一 层 的 , 所 以 它 检测 的 是 数据 块 的 变化 而 不 是 文件 的 
变化 ,同步 的 数据 内 容 是 数据 块 而 不 是 文件 ， 和 第 一 种 方式 有 所 不 同 。 


1. Veritas Volume Manager 软件 介绍 


Veritas Volume Manager 也 是 Veritas 公司 Storage Foundation 套件 中 的 一 个 模块 ， 它 的 功能 就 
是 辅助 或 者 代替 操作 系统 自己 的 磁盘 管理 模块 来 管理 底层 的 物理 磁盘 ( 当然 也 有 可 能 是 SAN 上 
的 LUN 逻辑 磁盘 ) 。 

一 般 操作 系统 自己 的 磁盘 管理 模块 功能 有 限 ， 比 如 Windows 提供 的 磁盘 管理 器 组 件 ， 其 功 
能 只 限于 对 识别 到 的 物理 磁盘 进行 分 区 、 格 式 化 、 挂 载 到 某 个 盘 符 下 , 并且 分 区 只 能 连续 ， 而 且 
不 能 动态 调整 分 区 大 小 , 要 调整 也 只 能 删除 分 区 再 重新 建立 。 当 然 一 些 第 三 方 软件 可 以 做 到 调整 
分 区 大 小 ， 不 过 仍然 需要 重启 。Windows Server 操作 系统 提供 的 动态 磁盘 管理 ， 虽 然 可 以 做 到 
RAID 卡 的 部 分 功能 ， 但 是 仍然 不 够 灵活 ， 而 且 效率 低下 。 而 VxVM ( Veritas Volume Manager ) 
卷 管理 软件 可 以 彻底 奉 换 操作 系统 的 卷 管理 功能 。 

提示 : 本 书 第 5 章 中 曾经 通俗 地 阐释 了 卷 管理 软件 的 思想 ，VxVM 就 是 这 样 一 个 卷 管理 

软件 ， 它 把 操作 系统 底层 的 磁盘 统统 当 作 “面团 ”， 可 以 业 合 起 来 ， 然 后 再 分 配 。 


它 改变 了 操作 系统 的 磁盘 管理 器 的 分 区 管理 的 闲置 , 将 所 有 磁盘 虚拟 成 卷 池 , 然后 从 池 中 分 
配 新 的 卷 ,新 卷 可 以 动态 地 增 大 和 减 小 容量 ,可 以 动态 分 割 、 合 并。 支持 卷 多 重 镜像 。 支 持 RAID 0， 
RAID 1， RAID 0+1，RAID 5。 支 持 RAID 组 在 线 动态 扩容 ， 可 随时 向 RAID 组 中 添加 新 磁盘 
而 不 影响 使 用 。 卷 之 上 还 需要 有 一 层 文件 系统 , VxVM 同样 有 自己 的 文件 系统 , 叫做 VxFS。VxFS 
是 一 个 高 效 的 日 志 型 文件 系统 ,这 就 使 得 在 发 生 崩 演 之 后 文件 系统 的 自 检 过 程 非常 快 。 另外 , 还 
支持 文件 系统 大 小 动态 扩充 和 收缩 。 支 持 Direct IO。 支 持 文件 系统 快照 功能 。 

用 户 只 要 在 服务 器 上 安装 VxVM 软件 ， 经 过 相关 配置 ， 就 可 以 实现 对 服务 器 上 两 个 卷 的 镜 
像 操 作 ,， 实 现 两 个 卷 的 数据 同步 。 一 旦 某 时 刻 主 站 点 发 生 故 障 , 则 备份 站 点 的 卷 上 数据 和 主 站 点 
发 生 故 障 的 时 候 完 全 一 致 。 此 时 只 要 在 备份 站 点 的 服务 器 上 挂 载 这 个 卷 到 某 个 盘 符 ( Windows ) 
或 者 目录 ( UNIX ) 下 ， 便 可 以 继续 使 用 了 。 


2. Logcal Volume Manager 软件 介绍 


Logcal Volume Manager (LVM ) 是 Linux 系统 上 的 一 个 开源 的 软件 ， 后 来 被 IBM 的 AIX 操作 
系统 用 于 默认 的 卷 管理 模块 LVM 相对 于 VxVM 来 说 , 是 一 个 更 加 开放 、 通 用 的 卷 管理 软件 。 LVM 
同样 也 可 以 对 两 个 卷 进行 镜像 操作 。 在 本 书 第 5 章 已 经 介绍 过 LVM， 这 里 就 不 做 过 多 描述 了 。 
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17.2.4 ”通过 数据 存储 设备 软件 实现 专用 网 络 同步 

在 前 两 种 方式 中 , 描述 过 数据 要 流动 , 就 需要 一 个 泵 来 提供 动力 第 一 种 方式 中 , 有 两 个 泵 ， 
数据 流 经 的 管道 最 长 ;第 二 种 方式 中 ， 有 一 个 泵 ， 数 据 流 经 的 管道 比 第 一 种 要 短 。 这 两 种 方式 ， 
系 都 被 安装 在 了 服务 器 上 。 而 第 三 种 方式 ， 泵 没有 安装 在 服务 器 上 ， 也 没有 安装 在 网 络 设备 上 ， 
而 是 被 安装 在 了 存储 设备 上 ， 如 图 17-10 所 示 。 


图 17-10 经 过 后 端 网 络 同步 数据 

数据 最 终 还 是 要 存储 在 存储 设备 上 , 与 其 让 别人 从 自己 身上 提取 数据 然后 发 送 到 远 端 , 不 如 
自己 动手 ， 丰 衣 足 食 。 第 三 种 方式 就 是 利用 的 这 种 思想 ， 自 己 做 主将 自己 的 数据 通过 后 端 SAN 
网 络 设施 传输 到 目标 设备 上 。 

如 图 所 示 ， 主 站 点 的 磁盘 阵列 设备 上 的 同步 软件 ， 从 自身 的 一 个 卷 (LUN A ) 提取 数据 ， 
通过 SAN 交换 机 传输 给 了 备份 站 点 的 磁盘 阵列 设备 上 的 同步 软件 接收 端 ， 并 将 接收 到 的 数据 写 
入 镜像 卷 (LUNB ) 。 

数据 流 的 路 径 如 下 : 本 地 磁盘 阵列 一 本 地 SAN 网 络 交换 设施 一 电信 部 门 交换 机 组 ( 如 果 有 ) 
一 远 端 SAN 网 络 交换 设施 一 远 端 磁盘 阵列 。 

路 径 比 第 二 种 方式 又 少 了 两 步 。 更 加 重要 的 是 , 这 种 方式 彻底 解脱 了 服务 器 , 服务 器 上 不 需 
要 增加 任何 额外 的 负担 ， 所 有 工作 全 部 由 磁盘 阵列 设备 自己 完成 。 

提示 : 在 本 书 第 5 章 详细 讲解 过 磁盘 阵列 。 磁 盘 阵 列 本 身 就 是 一 个 计算 机 系统 ， 有 自己 

的 CPU、RAM、ROM, 甚至 有 自己 的 磁盘 。 磁盘 阵列 就 是 一 台 管 理 和 虚拟 化 大 量 物理 磁 

盘 的 主机 系统 。 既 然 是 主机 系统 ， 那 当然 可 以 在 其 上 运行 各 种 功能 的 软件 了 。 所 以 ， 这 

种 数据 同步 软件 应 运 而 生 。 
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目前 几乎 每 个 厂家 的 高 端 磁盘 阵列 设备 , 都 具有 数据 同步 功能 。 比如 IBM 公司 DS 系列 盘 阵 
上 的 数据 同步 功能 叫做 Remote Mirror，HDS 公司 的 叫做 TrueCopy，EMC 公司 的 叫做 SRDF。 
不 管 叫 什么 ， 它 们 的 思想 和 原理 都 是 一 样 的 ， 只 不 过 在 实现 方法 和 效果 上 有 所 不 同 。 


这 种 方式 的 数据 同步 , 由 于 底层 存储 设备 不 会 识别 卷 上 的 文件 系统 , 所 以 同步 的 是 块 而 不 是 
文件 , 也 就 是 说 存储 系统 只 要 发 现 某 卷 上 的 某 个 块 变 化 了 ,就 会 把 这 个 块 复制 到 远程 设备 上 。 此 
外 , 备份 站 点 的 存储 设备 必须 和 主 站 点 的 存储 设备 型 号 一 致 , 因为 不 同 厂家 的 磁盘 阵列 产品 之 间 
无 法 做 数据 同步 。 而 在 主机 上 的 同步 引擎 ,就 没有 这 种 限制 ， 因 为 主机 上 的 同步 软件 所 操作 的 是 
操作 系统 卷 ， 而 不 是 磁盘 阵列 上 的 卷 , 操作 系统 隐藏 了 底层 存储 阵列 上 的 卷 。 不 管 什么 厂家 什么 
型 号 的 盘 阵 , 经 过 了 操作 系统 的 屏蔽 , 对 应 用 程序 看 来 , 统统 都 是 一 个 卷 , 或 者 一 个 盘 符 或 目录 。 


17.2.5 ”案例 : IBM 公司 Remote Mirror 容 灾 实施 


Remote Mirror 是 IBM 公司 的 DS4000 系列 中 端 磁盘 阵列 上 的 一 个 软件 模块 ， 
本 地 磁盘 阵列 上 某 个 或 者 某 些 卷 的 数据 , 同步 到 远 端 磁盘 阵列 上 对 应 的 卷 ,支持 同 
支持 一 致 性 组 。 

某 企业 存储 系统 如 图 17-11 所 示 。 


其 功能 就 是 将 
步 和 异步 复制 ， 


图 17-11 某 企业 存储 系统 图 

这 个 企业 有 两 台 DS4500 磁盘 阵列 ， 主 、 备 份 站 点 各 一 台 。 现 在 将 主 站 点 的 两 个 卷 LUN A 

和 LUN B 同 步 到 备份 站 点 的 两 个 卷 LUN C 和 LUN D 上 。 此 时 需要 启动 DS4500 的 Remote Mirror 
功能 。 启用 这 个 功能 , 要 求 主 站 点 和 备份 站 点 上 必须 分 别 建立 一 个 用 于 数据 缓冲 以 及 相关 重要 数 
据 存放 的 卷 ， 且 必须 为 镜像 卷 ， 大 小 100MB 即 可 。 
(1) 在 Storage Manager 配 置 界面 中 ， 选 择 Storage Subsystem 一 remote mirror 一 Active 菜 


单 命令 , 选择 在 现 有 的 array 上 建立 一 个 mirror 的 Repository 逻辑 卷 , 如 


图 17-12 所 示 。 


(2 ) 单 击 Next 按钮 ， 弹 出 如 图 17-13 所 示 的 对 话 框 ， 提 示 DS4500 磁盘 阵列 将 前 端的 2 号 
端口 专门 用 于 连接 远程 的 磁盘 阵列 设备 来 传输 数据 ,所 以 这 个 端口 将 禁止 用 于 其 他 主机 


的 连接 。 
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图 17-12 创建 Repository 卷 图 17-13 重要 提示 窗口 
(3 ) 单 击 Finish 按钮 ， 提 示 在 备份 节点 上 也 需要 相同 的 操作 ， 如 图 17-14 所 示 。 
(4) 主 站 点 上 的 两 个 Repository 建立 成 功 后 的 界面 ， 如 图 17-15 所 示 。 


500_4_GDPPrim - Completed 
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[We] 
图 17-14 提示 备份 节点 需要 相同 的 操作 图 17-15 成 功 建立 Repository 卷 
(5 ) 在 备份 站 点 上 重复 上 述 步骤 。 然 后 , 在 备份 站 点 磁盘 阵列 上 建立 两 个 目标 卷 ， 大 小 必须 
大 于 源 卷 ， 如 图 17-16 所 示 。 
(6 ) 在 主 节点 上 右 击 Create Remote Mirror， 如 图 17-17 和 图 17-18 所 示 。 
(7) 此 时 ， 本 地 磁盘 阵列 会 显示 出 网 络 上 的 另 一 台 磁 盘 阵列 设备 ， 如 图 17-19 所 示 。 
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图 17-16 建立 两 个 目标 卷 图 17-17 创建 远程 镜像 
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17-18 创建 远程 镜像 


图 17-19 远程 设备 列表 


(8 ) 选择 备份 磁盘 阵列 上 的 镜像 目标 盘 ， 如 


17--20 所 示 。 


(9 ) 选择 模式 ， 如 图 17-21 所 示 。 
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图 17-20 远程 设备 上 的 卷 列表 图 17-21 同步 或 者 异步 模式 选择 
(10 ) 设置 同步 的 优先 级 ， 如 图 17-22 所 示 。 
(11 ) 输入 “yes” 以 便 确 认 操 作 ， 如 图 17-23 所 示 。 
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图 17-22 同步 优先 级 选择 
(12 ) 完成 后 出 现 如 图 17-24 所 示 的 提示 框 。 


EDS4500 4 GDPPrim - Preview (Create Remote Mirror) |X 
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17-23 确认 


(13 ) 用 同样 的 方法 作 另 外 一 个 确认 提示 , 久 


0 图 17-25 所 示 。 


圳 DS4500_4_GDPPrim - Creation --- 
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图 17-24 成 功 提示 图 17-25 确认 提示 
( 14 ) 完成 后 ， 监 控 主 站 点 磁盘 阵列 的 变化 ， 如 图 17-26 所 示 。 
(15 ) 监控 备份 站 点 磁盘 阵列 的 变化 ， 如 图 17-27 所 示 。 
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图 17-26 镜像 后 卷 图 标的 变化 图 17-27 备份 站 点 图 标的 变化 
(16 ) 主 站 上 右 击 源 盘 /属性 可 以 查看 镜像 的 完成 情况 ， 如 图 17-28 所 示 。 
(17 ) 备份 站 方法 相同 ， 如 图 17-29 所 示 。 
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图 17-28 镜像 状态 窗口 图 17-29 备份 站 镜像 状态 窗口 
17.26… 处 结 


cat 式 ， 可 以 发 现 以 下 特点 。 
第 一 种 方式 数据 经 过 的 路 径 最 长 ， 同 步 实 时 性 最 差 ， 但 是 也 最 廉价 。 


第 二 种 方式 数据 经 1 径 适 中 , 数据 同步 实时 性 强 , 但 是 对 后 端 链 路 要 求 比 第 一 种 高 ， 
适合 大 量 数 据 同步 。 
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第 三 种 方式 , 数据 经 过 的 路 径 最 短 , 对 服务 器 性 能 没有 影响 , 但 是 仍然 不 适合 在 远 距离 低速 
链 路 的 环境 下 运行 ,而且 还 不 能 保证 数据 对 应 用 程序 的 可 用 性 。 因 为 存储 设备 与 应 用 程序 之 间 还 
有 操作 系统 这 一 层 ,操作 系统 有 自己 的 缓存 机 制 , 如果 存储 设备 上 的 数据 同步 引擎 没有 与 操作 系 
统 配 合 良 好 的 话 , 很 有 可 能 造成 数据 的 不 一 致 性 , 这 样 会 影响 到 应 用 程序 , 甚至 使 应 用 程序 崩溃 。 

主 站 点 发 生 故 障 之 后 , 备份 站 点 的 存储 设备 会 感知 到 , 然后 强行 接管 主 站 点 的 工作 , 断 开 同 
步 连接 ， 备 份 站 点 成 为 当前 的 主 站 点 , 接受 应 用 程序 的 读 写 操作 , 并 记录 自从 断 开 连接 之 后 发 生 
变化 的 数据 块 。 待 探测 到 主 站 点 恢复 正常 之 后 (或 者 手动 重新 配置 同步 ) ， 备 份 站 点 先 将 变化 的 
数据 块 复制 回 原来 的 主 站 点 , 复制 完成 后 , 原来 的 主 站 点 再 次 接管 回 主角 色 , 成 为 当前 的 主 站 点 ， 
接受 应 用 程序 的 读 写 操作 。 


17.3 ” 容 灾 中 数据 的 同步 复制 和 异步 复制 


17.3.1 同步 复制 例 解 


下 面 分 析 一 个 实际 容 灾 案例 中 数据 的 流动 情况 。 这 是 一 个 基于 存储 设备 的 自主 同步 的 环境 ， 
如 图 17-30 所 示 。 


图 17-30 同步 复制 的 过 程 
(1 ) 某 时 刻 , 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 IO 请 求 ,向 某 个 LBA 写 入 数据 。 待 写 的 数 
据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 时 磁盘 阵列 控制 器 不 会 给 服务 器 的 SAN 网 络 
适配器 驱动 程序 发 送 写 入 成 功 的 应 答 , 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 


功 的 应 答 。 

(2 ) 主 站 点 磁盘 阵列 将 变化 的 数据 从 缓存 中 写 入 LUN A 中 ( 根据 控制 器 策略 ， 写 入 一 般 会 
有 延迟 ) 。 与 此 同时 ， 主 站 点 的 数据 同步 引擎 获知 到 了 这 个 变化 , 立即 将 变化 的 数据 块 
从 缓存 中 直接 通过 SAN 交换 机 发 往 备份 站 点 的 磁盘 阵列 上 的 缓存 中 。 

(3 ) 备份 站 点 磁盘 阵列 上 运行 的 数据 同步 引擎 接收 端 成 功 地 接收 到 数据 块 之 后 ， 会 在 底层 
FC 协议 隐 式 地 发 送 一 个 ACK 应 答 ， 或 者 通过 上 层 显 式 地 发 送 给 主 站 点 一 个 应 答 。 
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(4 ) 主 站 点 接收 到 这 个 应 答 之 后 ,立即 向 服务 器 发 送 一 个 FC 协议 的 隐 式 ACK 应 答 , 这 样 ， 
服务 器 上 的 FC HBA 驱动 程序 便 会 探测 到 发 送 成 功 ， 从 而 一 层 层 向 操作 系统 的 更 上 层 
发 送 成 功 信号 。 最 终 应 用 程序 会 得 到 这 个 成 功 的 信号 。 
(5 ) 如 果 按 照 上 述 方式 进行 , 即 如 果 备份 站 点 的 磁盘 阵列 由 于 某 种 原因 迟 迟 未 收 到 数据 , 则 
不 会 发 送 应 答 信 号 ,那么 主 站 点 的 磁盘 阵列 控制 器 也 就 不 会 给 服务 器 发 送 写 入 成 功 的 信 
号 , 这 样 服务 器 上 的 应 用 程序 就 会 处 于 等 待 状态 , 造成 应 用 程序 等 待 ,从 而 连接 应 用 程 
序 的 客户 端 也 得 不 到 响应 。 如 果 应 用 程序 使 用 的 是 同步 IO ， 则 其 相关 的 进程 或 者 线程 
就 会 被 挂 起 。 这 种 现象 也 叫做 IO Wait， 即 IO 等 待 ， 意 思 就 是 向 存储 设备 发 起 一 个 IO 
而 迟 迟 接收 不 到 写 入 成 功 的 应 答 信和 号。 如果 连 接 两 个 站 点 之 间 的 网 络 链 路 出 现 拥塞 、 故 
障 ， 便 会 发 生 IO Wait。 
上 述 的 数据 复制 方式 ,就 叫做 同步 复制 ,因为 主 站 点 必须 等 待 备份 站 点 的 成 功 信号 , 两 边 保 
持 严 格 的 同步 ， 步 调 一 致 ， 一 荣 俱 荣 ， 一 损 俱 损 。 


17.3.2 ”异步 复制 例 解 
再 来 看 另外 一 种 实现 方式 ， 如 图 17-31 所 示 。 


图 17-31 异步 复制 的 过 程 
(1 ) 某 时 刻 , 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 IO 请 求 , 向 某 个 LBA 写 入 数据 。 待 写 的 数 
据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 时 磁盘 阵列 控制 器 不 会 给 服务 器 的 SAN 网 络 
适配器 驱动 程序 发 送 写 入 成 功 的 应 答 , 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 


功 的 应 答 。 

(2 ) 主 站 点 磁盘 阵列 控制 器 根据 策略 ,如 果 设置 为 Write Back 模式 , 则 在 第 一 步 之 后 立即 向 
服务 器 发 送 FC 协议 的 底层 应 答 。 如 果 设 置 为 Write Through 模式 , 则 先 将 数据 写 入 LUN 
A， 然 后 再 向 服务 器 应 答 。 

(3 ) 主 站 点 磁盘 阵列 将 这 份 数据 通过 SAN 网 络 发 送 给 备份 站 点 的 磁盘 阵列 缓存 中 。 

(4) 备份 站 点 磁盘 阵列 成 功 接收 后 ， 返 回 成 功 信号 。 
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如 果 按照 上 述 方式 进行 , 即 , 主 站 点 磁盘 阵列 只 要 接收 到 服务 器 写 入 的 数据 , 就 立即 向 服务 
器 返回 成 功 信 号 ,这 样 应 用 程序 不 需要 等 待 ,数据 同步 动作 不 会 影响 应 用 程序 的 响应 时 间 。 向 服 
务 器 发 送 变化 的 数据 , 可 以 在 稍 后 进行 , 而 不 必 严 格 同步 。 这 种 数据 复制 的 方式 就 叫做 异步 复制 。 
也 就 是 说 两 边 步调 无 须 一致 ， 保 证 重要 的 事情 先 完成 ,不 重要 的 稍 后 再 说 。 一 旦 遇 到 网 络 连接 阻 
塞 或 者 中 断 ， 只 要 服务 器 还 能 访问 本 地 的 磁盘 阵列 ,那么 应 用 就 不 会 受 丝毫 影响 , 本 地 磁盘 阵列 
会 记录 自从 网 络 断 开 之 后 , 本 地 卷 上 所 有 发 生变 化 的 数据 块 的 位 置 ， 待 网 络 恢复 之 后 ,本 地 磁盘 
阵列 会 根据 这 些 记录 ， 将 发 生变 化 的 数据 块 继续 复制 到 远程 备份 磁盘 阵列 。 

有 得 必 有 失 。 异 步 复制 保证 了 服务 器 应 用 程序 的 响应 速度 ,然而 付出 了 代价 , 这 个 代价 就 是 
牺牲 了 主 站 点 和 备份 站 点 数据 的 严格 一 致 。 主 站 点 的 数据 和 备份 站 点 的 数据 会 有 一 个 间 阶 
( GAP ) ， 也 就 是 未 被 成 功 复制 到 远 端 而 积压 在 本 地 的 数据 。 此 时 如 果 主 站 点 一 旦 发 生 故障 ， 这 
部 分 数据 将 永久 丢失 。 而 同步 复制 方式 下 ,没有 间隙 ,如 果 主 站 点 发 生 了 故障 , 备份 站 点 的 数据 
就 是 主 站 点 发 生 故 障 那 个 时 刻 的 严格 数据 镜像 ,不 会 有 数据 丢失 。 同 样 ,同步 复制 的 代价 ,就 是 
牺 和 性 了 服务 器 的 应 用 程序 响应 时 间 。 

提示 : 在 实际 容 灾 系 统 设计 的 时 候 ， 一 定 要 考虑 这 一 点 ， 要 明白 用 户 是 愿意 牺牲 数据 安 

全 性 来 换取 高 响应 时 间 ， 还 是 愿意 牺牲 响应 时 间 来 换取 数据 的 安全 性 。 
目前 很 多 设备 厂商 都 有 折 中 的 解决 方案 , 比如 在 网 络 正常 的 情况 下 , 实现 同步 复制 , 一 旦 检 
测 到 网 络 连 接 超时 ， 则 转 为 异步 复制 ， 待 网 络 正 常 后 ， 再 转 为 同步 复制 。 


17.4 ” 容 灾 系统 数据 一 致 性 保证 与 故障 恢复 机 制 


本 书 第 16 章 中 在 介绍 CDP 的 时 候 曾 经 提 过 数据 一 致 性 的 问题 .本 节 将 具体 分 析 一 下 数据 一 
致 性 的 保证 办 法 和 具体 技术 细节 。 


17.4.1 数据 一 致 性 问题 的 产生 


设想 这 样 一 种 情况 ， 如 
图 17-32 所 示 ， 主 机 HOST 
上 运行 了 一 个 数据 库 系 统 , 数 


据 库 将 Online Log 存放 在 本 同步 复制 
地 站 点 存储 设备 的 Log 卷 中 ， 
数据 文件 存放 在 DAT 卷 中 。 rm 上 
(1 ) 某 时 刻 ， 数 据 库 向 点 点 
Log 中 写 入 了 一 条 图 17-32 数据 一 致 性 示例 


Transaction 记录 , 主 
机 将 这 个 针对 Log 卷 的 写 请 求 发 送 给 本 地 站 点 存储 设备 ,并 等 待 写 入 成 功 的 SCSI 应 答 。 

(2 ) 本 地 站 点 存储 设备 接收 到 了 针对 Log 卷 的 写 IO， 在 将 数据 写 入 Log 卷 的 同时 ， 将 这 份 
IO 数据 发 送 至 远程 容 灾 站 点 的 存储 设备 。 

(3 ) 远程 存储 设备 接收 到 这 个 针对 Log 卷 的 IO ,立即 将 其 写 入 缓存 ( 或 者 写 入 磁盘 , 视 
Cache 写 策略 而 定 ) ， 并 通知 本 地 站 点 存储 设备 IO 完成 。 

(4) 本 地 存储 设备 接收 到 远程 IO 完成 的 消息 ,立即 通知 HOST 主机 本 次 针对 Log 卷 的 写 
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IO 完成 。 

在 主机 上 的 数据 库 系 统 接收 到 Log 写 入 成 功 之 后 ， 才 可 以 将 对 应 的 Transaction 数据 写 入 数 
据 文 件 ， 如 果 数 据 库 并 未 接收 到 成 功 的 消息 ， 则 不 会 继续 下 一 步 动作 。 在 将 数据 写 入 DAT 卷 的 
时 候 ， 系 统 进行 与 刚才 的 4 步 相 同 的 动作 。 可 以 看 到 , 在 这 种 完全 同步 的 数据 复制 情况 下 ,不 会 
产生 任何 数据 一 致 性 问题 ， 写 IO 完全 按照 先后 顺序 被 同时 体现 到 本 地 和 远程 存储 系统 中 ， 任 何 
一 步 中 断 ， 下 一 步 就 不 会 发 生 。 

注意 : 同步 IO 所 能 严格 保证 的 也 只 是 灾 备 端 数据 的 时 序 一 致 性 ， 而 不 能 保证 到 应 用 层 

的 一 致 性 。 为 何 呢 ? 因为 比如 数据 库 系统 , 都 有 自己 的 缓存 , 其 中 包含 有 大 量 的 脏 数据 ， 

只 要 这 些 脏 数 据 不 被 刷 盘 , 那么 存储 系统 就 算是 用 了 同步 10, 也 不 能 把 这 些 脏 数据 同步 

到 远程 存储 中 。 而 异步 数据 复制 则 可 以 使 用 运行 在 客户 端的 代理 程序 ， 在 每 次 数据 复制 

触发 之 前 ,通过 代理 程序 将 对 应 应 用 系统 的 脏 数据 刷新 到 存储 系统 中 ， 然 后 再 触发 一 份 

本 地 存储 的 快照 , 然后 再 触发 数据 复制 过 程 , 这 样 就 可 以 保证 应 用 级 别 的 数据 一 致 性 了 。 


然而 , 在 异步 数据 复制 过 程 中 , 事情 可 就 不 是 这 样 了 , 会 出 现 这 样 一 种 情况 , 即 先后 发 生 的 
两 个 有 逻辑 关联 性 的 时 间 ， 在 被 复制 到 远程 站 点 之 后 ， 远 程 系 统 可 能 只 保存 了 后 来 发 生 的 事件 ， 
而 先 发 生 的 事件 却 没 了 。 这 就 是 彻底 的 数据 不 一 致 , 严重 时 会 导致 应 用 程序 在 分 析 这 些 数据 时 产 
生 异 常 甚至 无 法 成 功 启动 ,最 严重 的 则 是 应 用 程序 成 功 启动 了 , 但 是 没有 一 致 性 检查 机 制 , 直接 
在 这 份 不 一 致 的 逻辑 错乱 数据 
基础 上 继续 运行 处 理 ， 这 种 无 
知行 为 可 能 会 造成 更 加 惨痛 的 
后 果 ， 比 如 程序 给 出 了 不 符合 
实际 的 错误 数据 从 而 影响 人 类 


异步 复制 


远程 容 灾 站 点 


如 图 17-33 所 示 , 同样 为 
上 述 的 拓扑 ， 复 制 方式 改 为 异 图 17-33 数据 一 致 性 示例 
步 方式 。 
(1) 某 时 刻 ， 主 机 向 本 地 存储 的 Log 卷 写 入 一 份 数据 。 
(2 ) 本 地 存储 设备 接收 到 这 份 IO 数据 之 后 ,将 其 写 入 缓存 ， 然 后 立即 将 写 入 成 功 的 应 答 消 
息 返回 给 主机 。 
(3 ) 主机 数据 库 系统 得 知 成 功 写 入 Log 的 消息 ， 随 后 便 做 出 判断 将 数据 写 入 数据 文件 。 向 
DAT 卷发 送 了 一 份 写 IO 数据 。 
(4) 本 地 存储 系统 收 到 这 份 数据 之 后 ,立即 将 其 写 入 缓存 并 且 将 写 入 成 功 的 消息 返回 给 主机 。 
(5 ) 稍 后 ， 异 步 复 制 过 程 开始 ， 本 地 存储 系统 由 于 各 种 原因 ， 首 先 将 DAT 卷 刚才 被 更 新 的 
那 份 数据 发 送 到 了 远程 存储 系统 。 
(6 ) 远程 存储 系统 接收 到 这 份 数 据 ， 将 其 写 入 缓存 然后 立即 返回 写 入 成 功 的 信息 给 本 地 
存储 。 
(7) 之 后 ，Log 卷 刚才 被 更 新 的 那 份 数据 也 被 发 送 ， 在 尚未 发 送 完成 之 前 ， 本 地 站 点 发 生 
灾难 ， 整 个 机 房 由 于 地 震 完 全 埔 塌 。Log 卷 刚 被 更 新 的 数据 或 变 为 电磁 波 永远 消失 在 
宇宙 中 。 
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我 们 来 看 一 下 灾难 发 生 之 后 ,远程 站 点 的 数据 状态 。 很 显然 , 在 主 站 点 首先 发 生 的 事件 ( 写 
Log ) 并 没有 被 同步 到 远程 站 点 ， 而 后 来 发 生 的 事件 〈 写 数据 文件 ) 却 被 同步 到 了 远程 站 点 。 此 
时 远程 站 点 的 数据 影像 是 一 份 逻辑 错乱 的 不 一 致 影像 , 需要 使 用 和 处 理 这 份 数 据 的 应 用 程序 来 对 
数据 做 一 致 性 检查 从 而 恢复 数据 的 一 致 性 。 然 而 这 个 过 程 也 是 有 代价 的 , 为 了 保证 一 致 性 , 很 有 
可 能 要 丢失 一 部 分 原本 不 应 该 丢失 的 数据 。 

有 人 在 此 会 产生 一 个 质疑 , 是 的 , 我 们 这 就 来 论述 为 何 本 地 站 点 不 能 按照 顺序 来 发 送 所 有 的 
写 IO 数据 。 如 果 按 照 顺序 发 送 , 比如 使 用 TCP 协议 来 发 送 , 不 就 可 以 保证 发 送 端 和 接收 端的 数 
据 是 绝对 按照 顺序 排列 的 么 ?当然 是 这 样 的 , 本 地 站 点 在 传送 数据 所 利用 的 协议 这 方面 确实 没有 
问题 ， 底 层 协议 绝对 是 遵循 先后 顺序 的 。 

问题 : 本 地 站 点 在 将 数据 传送 给 传输 协议 进行 传输 的 时 候 ， 却 并 不 是 按照 写 IO 发 生 顺 

序 的 。 什 么 ?怎么 可 能 ， 难 道 本 地 存储 设备 不 知道 IO 发 生 的 先后 顺序 么 ? 它 不 会 记录 

一 下 么 ? 答对 了 ， 本 地 存储 系统 真 的 就 不 会 记录 这 些 I0 的 先后 顺序 。 


17.4.2 ”对 异步 数据 复制 过 程 中 一 致 性 保证 的 实现 方式 


1. 异步 数据 复制 实现 方式 及 存在 的 一 致 性 问题 


为 何 本 地 站 点 不 去 记录 写 IO 的 先后 顺序 呢 ? 答案 是 为 了 节省 计算 资源 和 空间 。 首 先 ， 可 以 
在 脑海 中 演绎 一 下 ， 一 个 写 IO 进来 之 后 ， 系 统 首先 要 做 的 就 是 尽快 高 效 地 将 其 写 入 对 应 卷 对 应 
的 磁盘 ， 而 不 是 在 缓存 中 排队 等 待 被 复制 到 远程 站 点 。 就 算是 系统 先 将 这 些 数据 写 入 ,之 后 驻 留 
在 缓存 中 直到 被 传送 , 这 样 做 依然 也 会 耗费 很 大 的 缓存 空间 , 而 且 这 样 做 搞 不 好 会 积压 越 来 越 长 
的 队列 ,致使 系统 进退 两 难 , 即使 其 他 任务 再 忙 也 不 得 不 先 处 理 这 些 积压 的 队列 ,导致 系统 前 端 
的 性 能 大 受 影 响 。 

那 怎么 办 呢 ? 又 不 记录 顺序 , 又 不 让 积压 在 缓存 排队 , 就 这 么 让 这 些 数据 自由 地 写 在 硬盘 上 
石沉大海 ? 待 到 要 传送 这 些 数据 到 远 
端 时 ， 我 们 又 该 怎样 大 海 捞 针 呢 ? 呵 
呵 ， 说 道 捞 针 ， 您 还 真 说 对 了 ， 解 决 
这 个 问题 的 办 法 ,就 是 用 针 , 什么 针 ? 
指针 啊 ! 呵呵 ， 我 们 是 一 定 要 记录 这 
些 IO 的 行踪 的 ， 绝 对 不 能 让 它们 溜 下 | 
掉 ， 所 以 ， 在 数据 复制 开始 之 前 ， 我 本 地 主机 本 地 存储 系统 远程 存储 系统 
们 就 已 经 为 整个 卷 创建 了 一 份 图 17-34 同步 位 图 
Bitmap， 如 图 17-34 所 示 。 

初始 Bitmap 是 全 为 0 的 ， 只 要 接收 到 一 个 针对 源 卷 某 地 址 的 写 IO ， 就 立即 将 Bitmap 中 对 
应 这 个 地 址 的 位 置 为 1， 再 来 一 个 ， 就 再 置 一 个 ， 已 经 置 过 位 的 就 不 再 置 了 ， 反 正 已 经 被 覆盖 过 
多 次 了 。 系 统 就 这 样 一 直 置 下 去 ， 你 甚至 可 以 在 系统 将 整个 Biemap 都 置 成 了 全 1 之 前 ,什么 都 
不 做 ， 数 据 不 被 复制 ， 这 么 长 时 间 了 都 不 作为 ， 也 不 怕 此 时 一 旦 发 生 灾难 ， 这 一 整 卷 的 变化 数据 
都 没 被 复制 到 远程 。 估 计 没 人 打算 这 么 做 , 一 旦 数据 复制 动作 被 触发 ， 则 系统 会 不 停 地 从 Bitmap 
中 的 第 1 位 开始 向 最 后 一 位 扫描 ， 每 当 发 现 某 位 为 1， 则 表明 这 一 位 对 应 的 源 卷 地 址 上 的 数据 尚 
未 被 传送 到 远程 ， 则 系统 立即 读 出 源 卷 对 应 地 址 的 数据 并 传送 到 远程 ,传送 成 功 之 后 , 立即 将 这 
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个 位 置 为 0， 表 明 此 地 址 数据 已 被 传送 ， 然 后 接着 扫描 下 一 位 ， 做 同样 的 动作 。 然 而 ， 具 体 实 现 
的 机 制 并 不 一 定 就 得 是 一 位 一 位 地 扫描 ， 可 以 设 定 一 个 扫描 窗口 长 度 , 一 批 一 批 地 扫描 , 数据 被 
批 一 批 地 读 出 ,一 批 一 批 地 传送 ,一 批 一 批 地 置 0。 扫 描 到 表 尾 之 后 立即 折 回 表 头 再 次 重新 扫 

描 。 这 个 Bitmap 是 不 断 地 被 置 1 和 置 0 的, 数据 写 线程 和 数据 复制 线程 ， 线 程 同 时 操作 这 个 表 ， 
争 抢 这 个 表 ， 有 可 能 刚 被 置 0 的 位 接着 又 被 置 了 1， 也 就 是 对 应 的 地 址 又 被 写 入 了 数据 。 

数据 复制 线程 和 数据 写 线程 很 有 可 能 出 现 竞争 情况 ,比如 复制 线程 扫描 到 某 个 为 1 的 位 并 且 
准备 读 取 对 应 的 数据 进行 传送 , 但 是 数据 还 没有 被 传送 完 之 前 , 数据 写 线程 收 到 针对 这 个 地 址 的 
又 一 次 写 IO, 则 如 果 此 时 写 线程 再 次 将 这 一 位 置 为 1 的话 ( 原本 就 是 1 ) ， 当 复制 线程 成 功 传送 
完 数据 之 后 ， 将 会 把 这 个 位 置 为 0， 而 这 是 不 应 该 发 生 的 ， 也 就 是 说 漏 掉 了 一 个 写 IO 没有 被 复 
制 到 远程 ， 这 在 数据 一 致 性 上 是 绝对 不 允许 的 。 但 是 这 里 是 异步 复制 ， 利 用 这 种 扫描 Bitmap 的 
方式 进行 的 异步 复制 本 来 就 不 可 能 保证 数据 的 先后 性 , 也 就 根本 谈 不 上 一 致 性 , 那么 刚才 那 种 竞 
争 引 发 的 问题 是 否 就 可 以 忽略 不 计 了 呢 ? 

不 可 以 。 如 果 最 后 被 更 新 的 地 址 的 数据 在 很 长 时 间 里 (或 者 永远 ) 都 不 被 再 次 更 新 , 那么 最 
后 一 次 的 更 新 就 需要 等 待 很 长 时 间 , 或 者 永远 无 法 传递 到 远程 。 一 旦 在 这 段 时 间 内 ( 最 后 一 次 漏 
掉 更 新 后 直到 下 一 次 这 个 地 址 再 次 被 更 改 的 期 间 ) ,操作 员 希 望 将 异步 模式 变 为 同步 模式 ， 先 暂 
停 应 用 程序 IO， 等 待 数据 完全 同步 到 远程 之 后 ， 将 复制 关系 改 为 同步 ， 一 段 时 间 内 ， 这 个 地 址 
仍然 未 被 更 改 ， 而 此 时 系统 发 生 灾难 。 操 作 员 庆幸 地 认为 两 个 站 点 的 数据 是 完全 一 致 的 ( 由 于 之 
前 变 为 了 同步 模式 ) 。 可 惜 , 他 错 了 , 他 被 这 个 Bug 搞 惨 了 , 由 于 最 后 那个 被 更 新 的 数据 块 永远 
也 没有 被 同步 到 远程 ， 而 这 个 数据 块 内 恰好 又 是 一 笔 非常 关键 的 数据 ， 异 地 启动 应 用 程序 之 后 ， 
由 于 数据 的 丢失 ， 给 业务 带 来 了 巨大 的 损失 。 当 然 ， 这 是 一 个 极端 的 例子 ， 但 是 也 不 能 不 防止 。 
所 以 , 还 是 引入 避免 竞争 的 设计 为 好 ,比如 在 发 生 置 位 冲突 时 ,数据 写 线程 先 将 保存 状态 ,然后 
继续 执行 ， 等 待 复制 线程 结束 传送 置 位 之 后 ， 再 重新 置 位 。 

注意 : 数据 写 线程 在 接收 到 写 10 之 后 一 定 要 先 将 Bitmap 置 位 成 功 后 再 将 数据 写 人 源 

卷 ， 数 据 写 入 源 卷 后 才 通知 上 层 成 功 完成 。 其 中 任何 一 步 被 异常 中 断 的话 ， 那 么 随后 的 

动作 都 必须 停止 。 究 其 原因 ， 是 因为 如 果 先 将 数据 写 入 硬盘 后 再 置 位 ,一旦 在 尚未 管 位 

成 功 前 发 生 异 常 中 断 ， 比 如 系统 Down 机 ， 则 此 时 Bitmap 中 对 应 这 个 地 址 的 位 依然 为 0 

(如 果 置 位 前 就 为 1 则 忽略 本 情景 ) ， 而 源 卷 对 应 地 址 却 被 更 改过 了 数据 ， 此 时 ， 再 次 

同步 时 , 就 会 发 生 与 上 文 相同 的 Bug。 而 如 果 先 置 位 成 功 再 写 信 源 卷 , 即便 置 位 成 功 后 ， 

写 人 源 卷 之 前 ， 系 统 Down 机 ， 那 么 重启 后 再 次 同步 的 过 程 就 会 将 原本 已 经 同步 的 数据 

块 再 同步 一 次 ， 无非 就 是 浪费 了 一 点 可 以 忽略 不 计 的 链 路 带宽 ,但 是 不 会 导致 Bug。 

在 进行 数据 异步 复制 的 初期 , 系统 需要 首先 将 源 卷 的 所 有 内 容 复制 到 目标 卷 , 然后 才 可 以 开 
始 Catchup 追踪 不 断 变化 的 数据 并 且 持续 传送 。 这 个 步骤 叫做 初始 化 传输 。 此 时 ,在 初始 化 传输 
之 前 , 系统 会 生成 一 份 全 为 1 的 Bitmap, 这 样 , 扫描 线程 就 需要 传输 源 卷 上 的 所 有 数据 到 远程 了 ， 
其 他 后 续 步骤 与 上 文 所 述 的 后 期 Catchup 过 程 相同 , 唯一 区 别 就 是 初始 化 传输 时 需要 Catchup 的 
是 整个 卷 。 

这 种 数据 异步 复制 设计 导致 数据 传输 和 数据 写 入 的 同步 时 间 方面 总 有 一 段 Gap, 扫描 线程 在 
不 断 追 赶 不 断 被 写 入 的 IO 以 将 它们 传输 至 远 端 , 受制 于 系统 写 IO 负载 和 数据 传输 线路 的 因素 ， 
很 少 有 两 者 齐头并进 的 时 候 。 所 以 异步 数据 容 灾 在 主 站 点 灾难 发 生 的 时 候 几 乎 都 是 要 丢 数据 的 。 

由 于 针对 源 卷 的 写 IO 地 址 是 随机 的 乱 序 的 , 而 系统 扫描 Bitmap 时 不 能 感知 IO 的 顺序 , 只 
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能 按照 自然 数 顺序 扫描 以 便 传送 被 更 新 的 数据 , 这 样 做 的 结果 就 是 , 数据 被 传送 到 远程 站 点 的 时 
间 也 不 是 按照 写 IO 发 生 的 先后 顺序 排列 的 ,对 端 接收 和 写 入 的 时 候 当 然 也 不 是 按照 先后 顺序 的 ， 
这 就 最 终 导致 了 容 灾 端 存储 系统 中 数据 的 不 一 致 。 

如 果 用 这 种 Bitmap 记录 模式 来 进行 数据 异步 复制 , 不 仅仅 是 在 多 个 卷 之 间 可 能 发 生 不 一 致 ， 
而 且 就 算 本 地 和 远程 各 只 有 一 个 卷 ， 那 依然 也 会 发 生 乱 序 传输 ， 也 会 不 一 致 。 

有 人 再 次 质疑 ， 称 其 有 办 法 做 到 既 按 照 顺序 传输 又 不 影响 性 能 。 写 IO 一 进来 ， 也 该 怎么 写 
盘 就 怎么 写 , 但 是 如 果 为 每 个 卷 也 创建 一 张 表 , 每 个 表 保存 每 一 个 写 IO 的 LBA 地 址 和 当前 系统 
的 时 间 惟 ， 如 果 遇 到 一 个 以 前 已 经 保存 过 的 地 址 条 目 ， 则 删除 之 前 的 ， 保 存 最 新 的 时 间 戳 。 这 样 
系统 到 时 候 就 可 以 扫描 时 间 戳 从 而 按照 先后 顺序 发 送 数据 了 。 

这 种 设计 存在 问题 。 首 先 ， 这 张 表 以 谁 来 排序 呢 ? LBA 地 址 还 是 时 间 戳 ? 一 定 要 以 时 间 截 
来 排序 ， 否 则 还 需要 做 额外 的 索引 表 以 便 查询 ,既然 这 样 ， 那 么 如 果 遇 到 刚才 说 的 那 种 情况 ， 即 
针对 同一 个 LBA 再 次 由 写 IO 进入 ,那么 就 删除 原来 的 条 目 ， 此 时 ,既然 表 是 以 时 间 戳 排序 , 那 
么 系统 此 时 搜索 的 是 这 个 LBA 针对 的 条 目 ，LBA 是 乱 序 的， 怎么 保证 查询 性 能 ? 如 果 还 需要 额 
外 做 索引 的 话 ， 那 就 得 不 偿 失 了 。 就 算 做 了 索引 , 快速 查 到 了 对 应 条 目 将 其 删除 之 后 ， 这 个 空位 
必须 要 利用 的 ， 否 则 表 将 无 限 扩大 ， 那 么 就 要 将 整个 底部 上 移 ， 这 些 动作 都 是 非常 耗费 资源 的 。 

提示 : 另外 ， 时 间 戳 的 粒度 有 多 大 ? 参考 本 书 第 16 童 对 于 CDP 回溯 粒度 的 像 深 论 述 即 

又 可 得 知 ， 这 种 设计 实际 上 也 根本 无 法 保证 能 够 记录 每 一 个 IO 的 先后 顺序 。 所 以 ， 这 

种 设计 太 过 复杂 而 且 还 不 能 百 分 百 保证 顺序 ， 因 此 不 能 应 用 。 


通过 快照 来 做 异步 复制 

首先 在 源 卷 上 做 快照 , 然后 将 这 份 快照 对 应 的 数据 块 全 部 复制 到 远程 站 点 。 在 复制 期 间 , 源 
卷 数据 一 定 会 有 后 续 的 更 改 ,， 不 管 它 ， 因 为 会 被 CoFW, 还 有 一 份 快照 留 底 。 等 首次 复制 完成 之 
后 ， 目 标 卷 做 一 次 快照 ， 这 份 快照 内 容 上 等 同 于 源 卷 的 第 一 次 快照 。 一 段 间隔 之 后 ， 源 卷 再 次 做 
一 份 快照 ,然后 比 对 本 次 源 卷 快照 和 上 一 次 源 卷 快照 之 间 的 变化 的 数据 块 , 比 对 方法 见 其 他 章节 。 
得 到 变化 数据 块 列表 之 后 , 将 这 些 数 据 块 依次 复制 到 目标 卷 , 复制 完成 后 目标 卷 做 一 次 快照 , 然 
后 将 上 一 个 目标 卷 快照 删除 , 同时 , 源 卷 也 将 第 一 次 快照 删除 , 两 边 各 自 都 留存 最 近 这 一 次 快照 ， 
然后 一 段 间隔 之 后 ， 重 复 相同 的 过 程 。 

这 种 做 法 的 好 处 是 可 以 充分 利用 原 有 的 快照 功能 ， 无 须 做 过 多 开发 即 可 实现 远程 复制 功能 ， 
但 是 做 不 到 同步 复制 ， 而 且 快 照 的 间隔 不 能 过 短 ， 所 以 RPO 会 加 长 。 但 是 不 失 为 一 种 简便 的 方 
法 ,同时 这 各 方法 在 实现 一 致 性 保护 方面 也 比较 容易 ,比如 做 快照 时 如 果 引 入 主机 端 一 致 性 代理 ， 
则 可 以 做 到 应 用 层 的 一 致 性 而 不 仅 是 底层 时 序 一 致 性 了 。 


2. 数据 一 致 性 保证 的 办 法 


上 文中 描述 了 利用 追踪 位 图 法 来 进行 异步 复制 过 程 中 所 存在 的 时 序 一 致 性 无 法 保证 的 问题 。 
本 节 介绍 三 种 用 来 保证 异步 复制 过 程 中 数据 一 致 性 的 设计 思想 和 方法 。 

1) 设计 思想 1: 基于 追踪 日 志 法 

最 简单 的 一 种 保证 数据 时 序 一 致 性 的 方法 ， 就 是 将 所 有 进入 的 写 IO 写 入 源 数据 卷 的 同时 ， 
将 其 复制 一 份 暂 存 在 一 个 日 志 中 ， 完 全 按照 IO 进入 的 先后 顺序 排列 。 之 后 ， 按 照 FIFO 先进 先 
出 的 方式 将 日 志 进行 回放 , 生成 数据 流通 过 网 络 传输 到 远程 阵列 中 。 这 种 方法 最 彻底 地 保证 了 时 


回 
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序 一 致 性 ,但 是 存在 的 问题 也 不 可 忽略 ,也 就 是 这 种 日 志 需 要 占据 大 量 空间 ， 如 果 对 于 一 个 写 负 
载 很 重 的 系统 来 讲 ， 日 志 将 占用 大 量 空间 。 此 外 ， 写 日 志 过 程 必须 发 生 在 IO 路 径 前 部 ， 因 为 如 
果 不 在 前 部 将 IO 顺序 记录 下 来 ,那么 一 旦 等 到 写 IO 全 部 进入 后 端 Page Cache 缓存 后 ， 将 无 法 
再 分 辨 出 顺序 。 所 以 ， 这 种 做 法 对 IO 资源 、 计 算 资 源 、 存 储 空间 资源 都 有 很 大 影响 。 相 比 于 追 
踪 位 图 法 来 讲 ， 不 适合 高 负载 的 环境 下 。 

2 ) 设计 思想 2: 基于 追踪 位 图 的 批量 传输 法 

(1 ) 单 本 地 存储 系统 解决 办 法 

通过 前 文中 对 追踪 位 图 法 的 分 析 看 到 , 时 序 一 致 性 难以 保证 。 事 已 至 此 , 是 否 这 个 问题 就 无 
解 了 呢 ? 难道 只 有 同步 数据 复制 才能 保证 一 致 性 么 ? 

非 也 。 人 的 智慧 是 无 穷 的 。 要 解决 这 个 问题 ， 必 须 找到 一 个 能 够 分 辨 单个 IO 顺序 的 机 制 或 
者 位 置 ， 而 且 不 能 用 时 间 惟 ,因为 已 经 讨论 过 时 间 戳 的 局 限 性 了 。 而 整个 存储 系统 唯一 能 够 涛 别 
IO 先后 顺序 的 地 方 就 是 总 入 口 的 IO Queue。Queue 是 一 个 先进 先 出 的 队列 ， 虽 然 队 列 不 对 每 个 
IO 记录 时 间 戳 , 但 是 如 果 在 Queue 中 任何 一 点 切 开 暂停 , 或 者 叫 Suspend, 就 一 定 能 够 保证 切口 
两 侧 的 IO 一 定 是 按照 时 间 先 后 排列 的 。 

此 时 ， 如 果 系统 首先 将 所 有 Suspend 之 前 发 生 的 IO 统统 复制 到 远程 站 点 而 确保 本 地 站 点 在 
传送 这 些 数据 的 过 程 中 不 发 生 灾 难 或 链 路 问题 ,也 就 是 说 必须 保证 这 些 Suspend 之 前 发 生 的 所 有 
写 IO 无 一 遗漏 地 被 复制 到 远程 ， 那 么 也 就 保证 了 远程 站 点 数据 的 一 致 性 。 如 果 复制 过 程 中 发 生 
灾难 或 者 链 路 问题 ， 即 数据 只 传输 了 一 半 ， 而 本 地 系统 在 传输 这 些 数据 的 时 候 是 乱 序 传输 的 ， 
不 能 分 辩 被 Suspend 之 前 发 生 的 这 些 IO 的 先后 顺序 ， 所 以 远程 系统 中 的 那 一 半数 据 ， 很 有 可 能 
就 是 不 一 致 的 。 这 个 问题 的 解决 办 法 我 们 在 下 文中 详细 论述 , 在 此 我 们 先 一 路 假设 灾难 和 链 路 问 
题 都 不 会 发 生 。Suspend 之 前 所 发 生 的 IO,， 其 处 理 过 程 与 上 一 节 中 所 述 的 异步 复制 过 程 相 同 ， 系 
统 也 同样 需要 在 Bitmap 中 标记 对 应 的 位 ， 再 等 待 扫描 线程 的 扫描 然后 传送 。 

Suspend 之 前 发 生 的 IO 在 被 复制 到 远程 的 过 程 中 ,被 Suspend 住 的 那些 写 IO 该 如 何 处 理 呢 ? 
此 时 系统 绝 不 可 能 一 直 将 它们 Suspend, 因为 异步 复制 是 需要 时 间 的 , 而 主机 客户 端的 IO 决 不 能 
为 了 等 待 它们 完成 而 一 直 被 Suspend 住 。 实 际 上 ， 当 系统 做 出 Suspend 动作 之 后 ， 会 将 被 拘 住 的 
部 分 另存 为 一 个 新 写 IO Queue 并 且 立 即 开始 处 理 , 漏 下 去 的 那 部 分 Queue 也 同时 会 被 系统 逐渐 
处 理 掉 。 然 后 系统 再 从 新 Queue 中 再 次 执行 Suspend 一 一 传输 过 程 ， 周 而 复 始 。 

新 Queue 与 原 Queue 不 能 共用 一 份 Bitmap ( 前 一 节 所 述 的 Bitmap ) ， 因 为 Suspend 之 后 系 
统 将 要 传输 的 只 是 被 漏 下 去 的 那 部 分 原 Queue， 只 有 这 部 分 IO 才 会 走 前 一 节 所 述 的 异步 复制 流 
程 , 更 新 Bitmap 从 而 等 待 被 扫描 后 传送 。 如 果 新 Queue 中 的 IO 此 时 插 进 来 , 那 IO 的 顺序 就 无 
从 保证 了 ， 所 以 需要 为 新 Queue 也 建立 一 个 对 应 的 空 的 全 0 的 Bitmap ， 同 时 在 处 理 新 Queue 中 
的 IO 的 过 程 中 更 新 这 份 新 Bitmnap。 

当 系统 将 Suspend 之 前 的 所 有 IO 复制 到 远程 的 时 候 ， 被 复制 出 去 的 IO 在 旧 Bitmap 中 对 应 
的 位 并 不 被 重 置 为 0， 目 的 是 为 了 防止 复制 过 程 被 突然 中 断 。 如 果 一 旦 被 中 断 ， 远 程 系统 就 需要 
将 数据 回 退 到 复制 之 前 的 状态 ( 下文 详 述 ) ， 而 且 本 地 系统 的 旧 Bitmap 中 的 所 有 信息 都 需要 保 
留 ， 并 与 新 Bitmap 进行 OR 操作 从 而 合并 为 一 份 活动 的 Bitmap， 然 后 等 待 下 次 Suspend 的 到 来 ， 
即 本 次 复制 宣告 失败 。 如 果 复 制 过 程 成 功 结束 ， 则 旧 活动 Bitmap 无 须 保留 ， 系 统 会 将 其 删除 ， 
然后 将 新 Bitmap 角色 转变 为 活动 Bitmap， 并 创建 一 份 新 的 空 Bitmap 以 供 下 次 Suspend 时 使 用 。 
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整个 过 程 的 示意 图 如 图 17-35 
所 示 。 

就 这 样 , 系统 在 执行 完 一 次 批量 ”|Hosr| | 
传输 后 ， 接 着 再 次 Suspend, 重复 刚 nn 
才 的 动作 , 周而复始 地 将 本 地 存储 系 | 
统 发 生 的 写 IO 数据 一 批 一 批 地 传送 ”二 一 pi 
至 远程 站 点 。 所 以 ,怎么 折腾 也 是 异 。 丰 和 作 和 拓 量 人 是 十 生生 
步 , 没 必要 非得 一 个 一 个 地 按照 顺序 
传送 IO， 一 批 一 批 地 传 既 简单 又 划算 。 

这 个 过 程 的 实质 其 实 就 是 批 与 批 之 间 可 以 保证 绝对 按照 时 间 顺 序 排列 ， 但 是 一 批 当中 的 IO 
则 无 法 判断 先后 时 间 。 所 以 上 文中 提 到 过 , 在 批量 传输 过 程 中 一 定 要 保证 本 地 不 发 生 灾难 或 者 链 
路 没有 问题 。 

还 没 结束 。 细心 的 人 已 经 发 现 了 。 上 面 的 做 法 不 正 是 刻 舟 求 剑 、 掩耳盗铃 么 ? 虽然 项 上 给 抬 
住 一 下 子 ， 形成 两 份 bitmap, 但 是 底下 的 卷 就 一 个 ,数据 不 停 地 被 更 新 到 卷 中 的 数据 块 中 ， 而 当 
前 活动 bitmap 是 不 允许 再 更 改 的 ,被 冻 住 了 ， 本 批 次 需要 传输 哪些 块 已 经 定 死 了 ， 而 这 也 正 是 
当初 为 何 要 新 生成 一 份 第 二 bitmap 的 原因 。 但 是 ， 当 前 活动 bitmap 冻 住 了 ， 底 层 卷 却 没有 被 冻 
住 , 所 有 更 新 都 是 直接 覆盖 源 数据 块 的 。 试 想 这样 一 种 情况 : 某 时 刻 系统 扫描 活动 位 图 进行 批量 
同步 ， 当 扫描 到 一 半 的 时 候 , 底层 卷 有 某 个 块 被 更 新 了 ， 而 这 个 块 地 址 恰好 落 在 已 扫描 完成 的 区 
域 , 那么 此 时 没有 任何 问题 。 但 是 后 来 ,底层 卷 中 某 个 块 又 被 更 新 了 ， 而 这 个 块 地 址 恰好 落 入 了 
尚未 被 扫描 到 的 区 域 ， 那 么 当 系统 扫描 到 活动 biumap 中 对 应 这 个 块 的 位 的 时 候 ， 如 果 这 个 位 恰 
好 又 为 1， 那 么 就 会 将 对 应 的 块 读 出 来 并 且 传 送 到 远程 。 这 样 的 话 远 端的 数据 卷 的 状态 就 时 序 不 
一 致 了 , 因为 这 个 块 是 后 来 发 生 的 , 在 它 之 前 还 有 一 个 块 的 更 新 , 而 这 笔 更 新 却 并 没有 传 到 远程 ， 
这 就 是 典型 的 不 一 致 。 如 何 解决 ?两 条 路 : 要 么 将 底层 卷 的 分 成 两 个 ,要么 就 将 底层 卷 冻 住 , 等 
本 批 次 同步 完成 之 后 青 解冻 。 

显然 , 把 卷 也 分 成 两 个 的 路 子 行 不 通 , 动 一 动 内 存 里 的 数据 怎么 都 行 , 但 是 不 要 去 动 底层 的 
数据 结构 ， 和 否则 会 很 难 收场 。 那 么 就 只 能 将 底层 卷 冻 住 了 ， 显 然 想到 利用 快照 技术 来 冻 住 卷 , 形 
成 同步 开始 时 刻 的 一 份 快照 ， 这 样 的 话 ， 系 统 扫 描 活动 bitmap 进行 传输 的 时 候 就 不 需要 担心 底 
层 卷 数据 随时 变化 而 导致 的 不 一 致 了 。 然 而 , 也 没有 必要 完全 使 用 传统 的 快照 技术 , 可 以 在 其 上 
做 一 些 修改 ， 删 掉 一 些 不 必要 的 功能 模块 ， 只 保留 最 核心 的 CoFW 线程 核心 即 可 ， 并 且 其 作用 
逻辑 也 可 以 更 加 简化 : 

”只 CoFW 那些 当前 活动 bitmap 中 被 标记 为 1 的 块 ; 

”只 CoFW 那些 当前 活动 bitmap 中 尚未 被 扫描 到 ， 也 就 是 尚未 被 传送 到 远 端 的 块 。 

当 本 批 次 传输 完成 之 后 , 删 掉 这 个 快照 。 当 下 一 批 次 同步 更 新 开始 时 ,再 做 快照 , 然后 利用 
两 份 循环 位 图 完成 数据 传输 。 当 然 , 如 果 为 了 节省 开发 成 本 等 因素 考虑 ， 直 接 使 用 已 有 的 快照 模 
块 也 可 以 。 

(2 ) 多 本 地 存储 系统 解决 办 法 

以 上 的 设计 虽然 可 以 严格 保证 单 台 本 地 存储 系统 向 单 台 远程 存储 系统 复制 数据 时 的 数据 一 
致 性 , 但 如 果 本 地 有 多 台 物 理 上 独立 分 开 的 存储 设备 , 而 某 主机 上 的 某 个 应 用 程序 又 同时 向 每 个 
设备 上 的 一 个 卷 写 数据 , 这 些 卷 之 间 又 有 逻辑 相关 性 , 则 此 时 就 必须 要 求 所 有 存储 系统 都 要 伺机 
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Suspend 住 IO， 而 且 Suspend 的 时 间 点 也 需要 恰到好处 ， 不 允许 某 个 设备 上 有 某 个 IO 是 先 于 其 
他 某 设备 的 某 IO 执行 的 却 被 Suspend 住 , 而 其 他 设备 上 后 发 生 的 IO 却 没 被 Suspend 住 而 漏 下 去 
执行 了 。 

这 种 目的 应 该 怎样 达到 呢 ? 让 所 有 系统 在 其 Queue 的 任意 位 置 Suspend? 不 可 能 , 系统 与 系 
统 设 计 不 同 ，Queue 也 不 同 ， 相 关联 的 IO 处 于 各 个 系统 中 的 Queue 的 位 置 也 不 同 ， 所 以 系统 不 
可 能 恰到好处 都 默契 地 Suspend 在 一 个 一 致 点 。 本 质 上 , 存储 系统 也 不 可 能 感知 其 他 系统 中 某 IO 
与 自身 系统 中 的 某 IO 是 否 有 逻辑 相关 性 。 但 是 ， 我 们 可 以 巧妙 地 避 开 这 个 问题 ， 从 一 种 根本 的 
并 且 自 然 形成 的 角度 来 解决 这 个 问题 。 

设想 一 下 ， 如 果 是 从 Queue 的 中 部 某 处 来 Suspend， 则 多 个 独立 存储 系统 一 定 要 有 机 制 来 相 
互 协作 , 开发 这 种 机 制 不 是 不 可 以 ， 而 是 得 不 偿 失 , 开销 太 大 ， 有 没有 一 种 不 用 额外 开发 就 自然 
存在 的 机 制 呢 ? 然 也 。 如 果 不 是 从 Queue 中 部 来 Suspend， 而 是 所 有 设备 由 其 中 一 台 设备 作为 
Commander， 向 所 有 存储 系统 发 出 命令 ， 令 其 在 某 时 刻 准 点 同时 ( 关于 同时 ， 请 参考 下 文 论述 ) 
直接 从 各 自 Queue 的 尾部 触发 Suspend, 即 任何 尚未 到 达 存 储 设备 内 部 的 、 主 机 尚未 发 送 的 , 或 
者 在 主机 的 HBA 卡 Queue 中 的 ， 或 者 已 经 发 送 但 是 依然 在 线路 上 传递 着 的 所 有 IO ， 都 被 物理 
地 隔离 到 了 所 有 存储 系统 之 外 , 这 样 的 话 , 所 有 存储 系统 就 都 可 以 完全 保证 漏 下 去 等 待 执行 的 所 
有 IO 中 的 最 晚 发 生 的 一 个 ， 与 被 拘 住 的 那个 点 最 早 到 来 的 IO 是 先后 连续 的 了 。 触 发 Suspend 
之 后 ,按照 与 上 一 节 中 相同 的 步 又 进行 。 同 样 ， 期 间 也 不 能 出 现 本 地 灾难 或 者 链 路 问题 。 当 所 有 
本 地 存储 系统 完成 本 批 次 的 数据 复制 之 后 ,会 向 Commander 通知 状态 ，Commander 确认 所 有 成 
员 都 完成 任务 之 后 ， 再 次 发 起 下 一 轮 Suspend。 如 图 17-36 为 这 种 思想 的 示意 图 。 
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图 17-36 多 本 地 存储 系统 解决 办 法 


注意 :这 种 方法 要 求 所 有 本 地 存储 设备 的 系统 时 间 严 格 保持 精确 同步 , 否则 同样 会 发 生 不 
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一 致 。 比 如 ， 主 机 分 别 先后 于 Tl1、T2、T3 时 刻 向 存储 系统 A、B、C 发 起 三 个 写 IO 操作 ， 
现在 系统 决定 在 T4 时 刻 发 起 全 局 Suspend， 但 是 存储 系统 B 的 系统 时 间 比 A 和 C 的 快 ， 
则 就 有 可 能 在 A 和 C 尚未 到 达 T4 时 刻 之 前 ，B 已 经 达到 了 规定 的 时 间 ， 则 B 此 时 立即 
Suspend， 此 时 主机 针对 B 系统 的 写 IO 恰好 尚未 到 达 B， 被 排除 在 外 。 而 晚 些 时 刻 ，A 和 
C 同时 达到 了 T4 时刻 ,同时 Suspend, 而 恰好 针对 A 和 C 系统 的 写 I0 都 已 经 进入 了 Queue， 
则 整体 系统 在 Suspend 之 前 Queue 中 的 写 10 只 包含 了 针对 A 和 C 的 ,没有 针对 B 的， 而 
针对 C 的 写 IO 是 晚 于 B 发 生 的 ， 所 以 此 时 整体 系统 数据 处 于 不 一 致 状态 。 


说 到 这 里 ， 又 有 了 一 个 矛盾 ， 上 文 曾经 论述 过 ， 时 间 戳 并 不 能 保证 单个 IO 级 别 的 顺序 ， 即 
使 本 地 的 所 有 存储 系统 的 时 间 再 精确 , 也 不 可 能 无 限 精确 下 去 ,总 会 在 某 个 数量 级 产生 差异 , 如 
果 此 时 系统 的 写 IOPS 非常 大 ， 大 过 了 时 间 戳 的 数量 级 ， 则 上 面 的 方法 也 就 不 能 保证 单个 IO 级 
别 的 顺序 的 Suspend 粒度 了 。 

有 人 出 主意 了 ,这 样 行 不 行 , 即 触发 Suspend 的 时 候 直接 发 送 触发 指令 ， 而 不 是 事先 通知 所 
有 系统 在 某 个 时 刻 触发 ? 不行 的 。 想 出 这 种 办 法 的 人 忽略 了 其 本 质问 题 , 即 多 个 独立 系统 的 时 间 
不 可 无 限 精 确 , 就 算是 用 指令 立即 触发 , 那 也 要 考虑 指令 到 达 各 个 独立 存储 系统 的 时 延误 差 . 和 
各 个 存储 系统 的 处 理 时 延 ， 一 旦 处 理 不 同步 ， 一 样 还 是 造成 了 不 一 致 。 

江 郎 才 尽 了 么 ? 尚 早 。 既然 多 个 系统 时 间 不 可 无 限 精 确 , 那么 单个 系统 的 时 间 至 少 对 于 自己 
来 讲 是 精确 的 ， 不 存在 不 同步 的 问题 。 如 果 能 让 一 个 独立 的 系统 来 总 控 所 有 IO 的 进出 ， 从 物理 
上 将 所 有 IO 串 行 化 , 然后 在 这 个 关口 实现 Suspend, 那么 这 个 问题 就 非常 完美 地 解决 了 。 看 看 系 
统 拓扑 图 ， 最 佳 的 串 行 化 关口 是 谁 呢 ? 没 错 ， 就 是 主机 。 在 主机 上 进行 IO 物理 串 行 化 是 最 彻底 
的 。 在 主机 的 HBA 驱动 上 层 设计 一 个 串 行 化 器 也 可 以 说 是 Suspender， 由 这 个 Suspender 来 
Suspender 主机 上 的 IO, 然后 通知 所 有 其 连接 的 本 地 存储 系统 做 好 准备 。 这 一 过 程 将 会 是 很 快 的 ， 
在 几 十 毫秒 级 别 。 随 后 Suspender 释放 主机 IO。 

经 过 这 样 设计 之 后 , 各 个 本 地 存储 系统 之 问 就 不 需要 太 过 精确 的 时 间 同 步 了 , 几 毫 秒 甚 至 几 
秒 的 误差 都 可 以 容忍 ,因为 此 时 主机 上 的 Suspender 已 经 完全 暂 定 了 向 存储 系统 发 送 IO, 存储 系 
统 有 足够 的 时 间 将 全 部 剩余 的 IO 收纳 进来 然后 做 好 准备 。 

如 图 17-37 所 示 为 主机 端 Suspend 解决 办 法 示意 图 。 

虽然 可 以 自己 开发 一 个 Suspender, 但 是 如 果 有 现成 的 东西 ,为 何不 拿 来 用 呢 ? 第 16 章 介绍 
过 VSS 服务 ，VSS 服务 是 一 种 最 好 的 Suspender， 它 直接 作用 于 应 用 层 ，Suspend 在 应 用 层 ， 这 比 
在 哪 一 层 Suspend 都 要 更 佳 。 所 以 ， 完 全 可 以 利用 VSS 来 实现 一 致 性 组 的 功能 。 

然而 , 问题 并 未 就 此 彻底 解决 。 如 果 有 多 台 主 机 共同 连接 本 地 存储 系统 , 或 者 多 台 主 机 之 间 
具有 逻辑 相关 性 ， 那 么 如 果 只 在 其 中 一 台 主机 上 实行 Suspend， 那 么 未 必 能 够 同时 保证 其 他 主机 
写 IO 的 一 致 性 ， 所 以 这 里 又 回 到 了 刚才 那个 问题 ， 即 如 何 将 所 有 主机 的 系统 时 间 做 到 精确 同步 
从 而 精确 同时 Suspend， 答 案 一 样 是 不 可 能 。 这 次 是 真 的 江 郎 才 尽 了 人 么 ? 依然 尚 早 。 既 然 主机 和 
存储 都 不 能 做 到 , 那 为 何不 在 它们 之 间 插 入 一 个 独立 的 串 行 化 器 呢 ? 完全 可 以 的 。 交 换 机 就 是 这 
个 角色 的 最 佳 候选 者 , 如 果 在 交换 机 上 开发 一 种 模块 专门 实现 这 个 动作 , 并 且 可 以 与 阵列 进行 指 
令 交互 , 形成 一 个 标准 协议 , 那 就 是 最 好 不 过 的 了 。 其 次 ,虚拟 化 存储 网 关 设备 也 同样 是 一 个 极 
佳 的 角色 。 

然而 ， 目 前 针对 多 主机 间 一 致 性 组 实现 方面 ， 尚 未 有 成 型 的 产品 出 现 。 
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图 17-37 主机 端 Suspend 解决 办 法 


如 图 17-38 和 图 17-39 所 示 为 基于 交换 机 和 基于 虚拟 化 网 关 的 一 致 性 组 实现 方式 。 
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图 17-38 基于 FC 交换 机 的 一 致 性 组 解决 办 法 
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图 17-39 基于 虚拟 化 网 关 的 一 致 性 组 解决 办 法 


提示 : 目前 就 作者 的 了 解 程度 范围 内 ,很 多 人 对 数据 一 致 性 保护 方面 的 理解 很 局 限 ， 总 认 
为 只 要 为 每 个 10 打 入 时 间 戳 ， 就 一 定 能 够 保证 数据 是 按照 先后 顺序 写 和 的。 这 一 点 很 具 
有 误导 性 。 我 们 可 以 分 析 一 下 ， 比 如 本 地 先后 发 生 了 A、B、C 三 个 10， 此 时 给 它们 分 别 
打 入 时 间 戳 T1、T2、T3， 然 后 通过 链 路 发 送 到 对 端 ， 然 而 ， 在 发 送 的 过 程 中 ，A 先 被 发 
出 , 而 C 第 二 个 被 发 出 ,最 后 一 个 发 出 的 是 B ( 根据 上 文 所 述 的 异步 复制 的 设计 思想 , 发 
生 这 种 情况 是 肯定 的 ) ， 对 端 会 分 别 先后 接收 到 A、C、B。 试问 ,此 时 远程 系统 如 何 判断 
到 底 什么 时 候 将 这 些 数据 写 信 呢 ? 如 果 系 统 打算 在 接收 到 A、C 之 后 就 写 人 ， 那 么 根据 时 
间 蕉 判断 ，C 在 A 后面 , 的确， 所 以 系统 写 信 了 A 和 C, 殊不知 , 还 有 一 个 了 尚未 被 接收 
到 呢 。 如 果 B 尚未 收 到 之 前 链 路 断 开 或 者 本 地 灾难 ,那么 远程 对 应 的 数据 就 是 不 一 致 的 了 。 
有 人 说 了 , 远程 就 不 能 等 B 来 了 再 写 入 么 ?不 能 。 因 为 远程 怎么 知道 还 有 一 个 B 没 过 来 ? 
有 人 又 说 了 , 根据 上 文 所 述 的 设计 思想 , 本 地 会 一 批 一 批 地 将 数据 传送 啊 ,这 一 批 中 只 要 
有 一 个 10 没 传 成 功 ， 那 么 远程 就 会 回 滨 啊 ! 是 啊 ， 正 是 因为 这 样 ， 那 么 是 否 还 有 必要 给 
每 个 10 打 入 时 间 蕉 呢 ? 打 入 了 又 有 什么 用 呢 ? 远程 必须 成 批 的 数据 一 次 写 入 磁盘 才 可 以 
保持 一 致 ， 那 又 何必 在 乎 这 一 批 10 中 谁 先 被 写 入 谁 后 被 写 入 呢 ? 

有 人 又 问 了 ,我 如 果 在 本 地 系统 发 送 IO 的 时 候 严格 按照 顺序 发 送 ， 那 么 远程 接收 到 数据 
包 之 后 ， 上 层 的 协议 ， 比 如 TCP 或 者 FC， 也 一 定 会 按照 顺序 排列 起 来 ， 这 样 不 就 可 以 保 
证 每 个 IO 都 是 按照 顺序 进入 远程 系统 的 么 ? 的 确 ， 是 这 样 的。 但 是 上 文中 也 说 过 ， 在 本 
地 系统 内 记录 10 的 先后 顺序 而 且 还 要 按照 顺序 发 送 10， 这 种 开销 太 大 。 再 说 了 ， 如 果 是 
多 系统 协作 进行 一 致 性 保护 ， 你 还 这 么 设计 么 ? 单 系统 已 经 够 复杂 ,多 系统 你 再 去 横向 比 
对 多 个 独立 系统 之 间 的 10 谁 先 谁 后 的 话 ， 那 就 得 不 偿 失 了 。 

经 过 以 上 的 分 析 ， 我 们 可 以 判断 ， 给 每 个 10 打 入 时 间 蕉 是 根本 没 必要 的 ， 多 此 一 举 。 如 
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果 选 择 使 用 对 IO 打 入 先后 顺序 信息 的 一 致 性 保障 设计 方法 的 话 ， 请 使 用 自然 数 序号 而 不 

是 时 间 改 进行 。 

3) 设计 思想 3: IO 序号 法 

(1 ) 单 本 地 存储 系统 解决 办 法 

上 文 论述 了 为 何 时 间 惟 无 法 判断 单个 IO 的 先后 顺序 以 及 不 能 判断 两 个 IO 之 间 是 否 还 有 漏 
掉 的 IO。 如 果 要 从 为 每 一 个 IO 打 入 一 个 信息 以 用 来 识别 先后 的 角度 解决 这 个 问题 , 就 需要 找 一 
种 能 够 反映 单个 IO 先后 顺序 并 且 还 可 以 让 接收 方 判断 出 两 个 识别 信息 之 间 是 否 还 有 其 他 识别 信 
息 未 收 到 。 很 显然 ， 这 种 识别 信息 就 是 自然 数 。 

本 地 系统 在 接收 到 每 个 写 IO 之 后 ， 为 这 个 IO 打 入 一 个 自然 数 序号 ， 在 初始 化 数据 同步 完 
成 之 后 所 接收 到 的 第 一 个 IO， 为 其 打 入 自然 数 1， 然 后 没 接收 一 个 再 +1， 一 直 排 列 下 去 。 依 然 
使 用 Bitmap 来 对 本 地 卷 更 新 过 的 地 址 做 记录 ， 不 同 的 是 ， 这 个 Bitmap 中 还 需要 对 应 每 一 位 增加 
一 个 对 序号 的 记录 项 ， 当 本 地 系统 读 出 待 传送 的 数据 后 ， 根 据 Bitmap 中 对 应 位 所 记录 的 序号 ， 
将 这 个 序号 追加 在 所 传送 的 IO 数据 之 后 。 远 程 接收 到 数据 之 后 ， 会 按照 自然 数 的 顺序 将 数据 写 
入 远程 卷 ， 比 如 某 时 刻 收 到 序号 为 1024 的 IO， 将 其 写 入 卷 中 ， 随 后 又 接收 到 了 序号 为 1026 的 
IO， 此 时 系统 就 会 得 知 序号 为 1025 的 IO 丢失 或 者 尚未 传送 到 ， 系 统 会 缓存 所 有 已 经 接收 到 的 
1025 之 后 的 IO 数据 ， 直 到 接收 到 1025 号 IO ， 然 后 将 这 些 数 据 写 入 卷 中 。 

经 过 这 样 的 设计 ,本 地 系统 不 再 需要 Suspend 操作 了 , 而且 灾难 之 后 丢失 的 数据 也 较 上 一 种 
实现 方式 降低 了 许多 ( 上 一 种 一 丢 一 整 批 , 也 就 是 一 整 份 Bitmap 中 的 数据 , 这 种 则 是 只 丢失 Gap 
内 的 数据 ) ，RPO 能 够 降低 一 些 。 但 随 之 而 来 的 则 是 Biemap 的 庞大 、 占 用 内 存 过 多 、IO 数据 
带 序号 传送 耗费 了 更 多 的 网 络 带宽 、 定 长 的 序号 一 旦 耗 尽 需要 两 端 协商 重 置 序号 等 问题 。 而 其 中 
最 为 突出 的 就 是 耗费 更 多 的 网 络 带 宽 , 异步 数据 复制 的 起 因 就 是 因为 链 路 带宽 过 低 不 能 满足 同步 
复制 的 要 求 。 而 这 种 设计 方式 便 是 雪上 加 霜 了 , 造成 复制 速度 降低 ,所 以 ,这 种 设计 思想 虽然 在 
系统 写 IO 负载 不 高 的 时 候 会 降低 一 些 RPO。 但 是 在 写 负载 非常 高 的 时 候 , 由 于 链 路 带宽 的 额外 
负担 ， 则 数据 复制 的 Gap 会 加 大 ， 此 时 是 否 能 降低 RPO 也 就 要 综合 考虑 了 ， 搞 不 好 适得其反 。 

综 上 所 述 ， 现 在 大 部 分 厂商 都 在 使 用 第 一 种 设计 思想 。 

(2 ) 多 本 地 存储 系统 解决 办 法 

多 本 地 存储 系统 情况 下 ， 对 IO 序号 法 设计 思想 来 说 就 是 一 个 梦 魔 ， 因 为 此 时 IO 序号 需要 
在 全 局 下 保持 各 自 的 先后 , 而 这 种 先后 顺序 仅 靠 每 个 存储 系统 是 无 法 判断 的 。 需要 在 一 个 上 游 设 
备 中 将 IO 串 行 化 然后 编号 ， 发 送 给 存储 系统 。 这 样 做 就 需要 改变 存储 系统 前 端 ， 这 个 工程 无 疑 
是 巨大 的 ， 而 且 也 得 不 偿 失 。 

所 以 ，IO 序号 法 目前 来 说 尚 无 实际 应 用 。 本 书 以 后 的 例子 都 基于 第 一 种 设计 思想 来 论述 。 

(3 ) 数据 复制 过 程 中 的 错误 恢复 机 制 

上 文中 留 了 一 个 问题 尚未 解决 , 即 一 旦 在 数据 复制 的 过 程 中 本 地 发 生 灾 难 或 者 链 路 出 现 问题 
中 断 , 那么 此 时 处 于 远程 存储 系统 中 的 数据 几乎 就 是 不 一 致 的 。 这 个 问题 如 何 解决 ?很 显然 我 们 
需要 回 退 已 经 被 复制 到 远程 站 点 的 数据 ,存储 系统 的 回 退 , 我 们 立即 想到 了 快照 。 是 的 ,如果 在 
每 次 数据 开始 复制 之 前 , 能 够 为 远程 存储 系统 对 应 的 卷 制作 一 份 快照 的 话 , 那么 一 旦 后 来 的 复制 
发 生 问题 ， 就 可 以 直接 将 对 应 的 卷 回 滚 到 上 一 次 快照 的 时 间 点 ， 虽 然 此 时 丢失 了 数据 , 但 是 这 是 
异步 容 灾 所 无 法 避免 的 , 起 码 这 样 做 能 够 保证 数据 的 一 致 性 。 所 以 , 我 们 在 每 次 数据 被 成 功 地 复 
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制 之 后 , 还 需要 多 加 一 个 步骤 , 即 为 远程 存储 系统 制作 一 份 快照 , 制作 成 功 后 才 会 通知 Suspender。 

对 于 多 本 地 存储 系统 的 关联 性 数据 复制 ， 在 Suspender 发 起 Suspend 指令 并 命令 所 有 存储 系 
统 开始 数据 复制 之 后 ,一 旦 其 中 某 一 台 存 储 系统 发 生 数 据 复 制 错 误 ,或 者 干脆 这 台 设 备 发 生 故 障 ， 
那么 Suspender 永远 也 不 会 收 到 这 个 设备 返回 的 成 功 消息 了 ， 在 一 定 的 允许 时 间 之 内 ，Suspender 
只 要 没有 从 任何 一 台 设 备 接收 到 成 功 消息 , 则 便 会 立即 向 对 应 的 所 有 远程 存储 系统 设备 发 送 命令 
让 其 回 滚 到 上 一 个 快照 时 刻 。 而 由 于 本 次 复制 并 未 成 功 ， 所 以 本 地 所 有 存储 系统 会 将 当前 活动 
Bitmap 与 新 Bitmap ( 即 对 应 Suspend 之 后 发 生 的 IO 的 Bitmap ) 进行 OR 操作 , 合并 为 一 份 活动 
Bitmap ， 并 创建 一 份 新 的 空 Bitmap 以 便 为 下 次 Suspend 之 后 作为 新 Suspend Bitmap 使 用 。 下 次 
Suspend 之 后 ， 即 使 上 次 传 了 一 半 的 数据 也 依然 需要 再 传 一 遍 ， 这 也 是 为 何 要 进行 OR 操作 的 原 
因 。 但 是 EMC 公司 SRDF/A 的 设计 则 可 以 在 本 地 记录 上 次 传 过 的 数据 ,恢复 之 后 ,只 传递 上 次 
未 传 过 的 和 新 一 轮 Suspend 后 改变 的 。 当 然 这 样 做 就 需要 远程 系统 暂时 不 回 深 ,保持 上 次 已 经 传 
输 完 成 的 那 部 分 数据 ， 当 确认 本 地 站 点 由 于 某 种 原因 无 法 增 量 传输 之 后 再 回 滚 。 

如 果 所 有 本 地 存储 系统 的 数据 复制 过 程 都 成 功 结束 ， 则 这 些 存储 系统 会 通知 Suspender， 然 
后 Suspender 会 向 所 有 对 应 的 远程 存储 系统 发 送 命令 ， 即 触发 一 份 对 应 卷 的 快照 。 快 照 成 功 后 ， 
Suspender 继续 开始 Suspend 操作 , 周而复始 地 将 数据 一 批 一 批 地 复制 到 远程 , 并 且 每 次 成 功 后 制 
作 快 照 ， 并 删除 倒数 第 三 个 快照 ( 倒数 第 二 份 快照 用 于 异常 情况 之 后 的 回 滚 ) 。 

对 于 普通 异步 复制 或 一 致 性 异步 复制 ， 系 统 Down 机 重启 之 后 ， 将 会 继续 进行 扫描 Bitmap 
并 传送 对 应 数据 的 过 程 。 在 第 17.4.2 节 中 所 述 的 两 个 潜在 的 Bug 一 定 要 特别 注意 。 

对 于 同步 模式 的 数据 复制 , 错误 恢复 过 程 就 相对 简单 了 。 比 如 某 时 刻 链 路 突然 中 断 , 或 者 系 
统 Down 机 后 重启 。 如 果 是 严格 同步 ,那么 受 影响 的 应 用 程序 就 会 出 错 ， 业 务 无 法 继续 进行 。 而 
此 时 可 以 人为 干预 断 开 同步 复制 逻辑 Sesion， 重 新 启动 应 用 程序 ， 对 底层 卷 的 写 IO 不 再 被 同步 
传输 到 远程 ， 但 是 会 在 本 地 创建 一 份 新 Bitmap 用 来 记录 所 有 在 断 开 复制 Session 之 后 本 地 卷 所 有 
被 更 改过 的 数据 地 址 。 这 样 , 在 链 路 恢复 之 后 , 重新 启动 复制 逻辑 Session， 此 时 系统 就 会 根据 这 
份 Bitmap 而 只 将 变化 过 的 数据 再 次 同步 到 远程 。 以 上 过 程 可 以 预先 在 容 灾 系统 中 进行 设置 从 而 
自动 执行 。 


3. 一 致 性 组 


说 到 这 里 ， 该 说 一 下 一 致 性 组 了 。 其 实 仔细 看 完 前 面 的 论述 后 应 该 就 能 体会 到 这 个 “组 ” 字 
的 含义 了 。 第 一 个 含义 : 数据 是 被 一 批 一 批 ,或 者 一 组 一 组 地 传输 到 远程 的 ,组 和 组 之 间 能 够 保 
证 先后 顺序 ， 组 内 则 无 法 保证 ， 如 果 一 整 组 数据 完整 传 到 了 远程 ， 则 远程 的 数据 是 一 致 的 ， 如 果 
一 整 组 数据 在 传输 的 中 途 出 现 问 题 ， 则 需要 将 远程 的 数据 回 滚 到 上 一 个 一 致 点 ， 这 个 目的 需要 
用 快照 来 完成 。 第 二 个 含义 : 多 个 独立 存储 系统 上 的 多 个 卷 组 成 一 个 整体 , 个 体 与 个 体 之 间 必 须 
保证 数据 按照 整体 时 间 的 先后 传输 到 对 方 , 远程 的 多 个 存储 系统 上 的 多 个 卷 形成 的 组 , 在 整体 上 
必须 保持 数据 一 致 性 。 

这 就 是 一 致 性 组 技术 。 


4. 快照 异步 复制 方法 中 的 一 致 性 保护 和 一 致 性 组 


基于 快照 的 异步 复制 ， 相 比 上 文中 的 异步 复制 设计 虽然 RPO 加 大 , 但 是 在 一 致 性 方面 还 是 
很 不 错 的 。 比 如 在 做 快照 时 ， 可 以 通过 主机 端 Agent 来 将 缓存 数据 刷 入 磁盘 ， 根 据 主机 Agent 的 
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FE 用 层次 ， 最 高 可 以 做 到 应 用 级 的 一 致 性 ， 也 就 是 彻底 的 一 致 性 保证 。 其 次 ,在 数据 复制 期 间 ， 
于 两 端 都 做 了 快照 留 底 , 所 以 不 必 担 心中 途 链 路 中 断 等 导致 的 目的 端 数据 时 序 不 一 致 状况 , 一 
且 遇 到 中 断 , 则 目的 端 回 滚 到 最 近 的 快照 即 可 ， 随 后 择机 继续 执行 数据 复制 。 同 时 ,在 多 主机 多 
LUN 多 存储 系统 一 致 性 组 方面 , 更 是 没有 问题 , 同一 台 主机 上 的 多 个 LUN 需要 一 致 性 组 保证 的 
话 ， 那 么 可 以 通过 主机 上 的 Agent 来 同时 刷 这 些 LUN 的 数据 ， 之 后 做 快照 ; 如 果 是 多 台 主 机 的 
多 个 LUN ( 位 于 不 同 阵列 ) ， 也 可 以 通过 让 多 台 主机 上 的 Agent 同时 刷 对 应 LUN 的 数据 ,然后 
各 自 阵列 做 快照 。 这 里 相当 于 主机 快照 Agent 充当 了 上 文中 的 Suspender/Freezer 了 。 


17.4.3 ”灾难 后 的 切换 与 回 切 同步 过 程 


容 灾 的 目的 是 为 了 在 本 地 发 生 灾 难 , 或 者 并 未 发 生 破坏 性 灾难 ,但 是 正在 遭受 长 时 间 的 断 电 ， 
或 者 通风 系统 、 温 控 系 统 等 辅助 设施 的 长 期 故障 , 则 此 时 可 以 在 异地 将 业务 重新 跑 起 来 。 养 兵 干 
日 , 用 兵 一 时 。 如 果真 的 需要 将 业务 切 到 异地 运行 ,那么 应 用 程序 就 一 定 需要 向 异地 站 点 的 卷 中 
写 数据 。 而 一 旦 主 站 点 从 灾难 或 者 长 期 Outage 中 恢复 ， 那 么 就 需要 将 业务 青 次 回 切 到 本 地 主 站 
点 执行 。 这 个 时 候 ， 就 需要 将 在 异地 执行 时 被 更 改过 的 数据 重新 同步 到 主 站 点 。 

对 于 同步 数据 复制 架构 下 的 切换 与 回 切 ， 处 理 过 程 也 是 相当 简单 的 。 比 如 ， 主 站 点 在 任意 时 
刻 发 生 灾难 之 后 ， 主 站 点 和 异地 站 点 对 应 的 数据 是 绝对 相同 的 ， 在 业务 切换 到 异地 站 点 执行 之 前 ， 
异地 站 点 就 可 以 对 所 有 受 影响 的 卷 创 建 一 份 新 的 全 0 的 Bitmap， 用 来 记录 所 有 切换 之 后 针对 本 卷 
的 写 IO 数据 ， 被 写 过 则 将 IO 地 址 对 应 的 位 置 为 1。 在 主 站 点 恢复 运行 之 后 ,需要 将 异地 站 点 变 
更 的 数据 Resync 到 主 站 点 ， 此 时 异地 站 点 扫描 每 个 卷 的 Biomap， 把 为 1 的 位 所 对 应 的 地 址 的 数据 
读 取 并 覆盖 到 主 站 点 对 应 的 卷 的 对 应 地 址 。 结 束 之 后 ， 应 用 程序 即 可 重新 启动 ， 恢 复 最 初 的 状态 。 

而 对 于 普通 非 一 致 性 异步 复制 过 程 , 又 可 分 为 三 种 情况 ( 其 实 这 三 种 情况 的 处 理 方式 都 是 相 
同 的 ) 。 

第 一 种 情况 是 : 本 地 系统 发 生 灾难 , 但 是 硬盘 完好 没 被 破坏 。 一 切 活动 停止 ,数据 状态 永远 
定格 ， 对 应 的 本 地 卷 Bitmap 也 将 定格 ， 复 制 到 哪 算 哪 。 之 后 ,应 用 程序 在 异地 启动 ， 启 动 之 前 ， 
异地 系统 为 每 一 个 参与 容 灾 的 卷 创 建 一 份 新 的 全 0 的 Bitmap ， 然 后 开始 接受 应 用 的 写 IO， 每 接 
受 一 个 , 就 在 Bitmap 中 对 应 的 位 置 1, 然后 将 数据 写 入 容 灾 卷 。 当 主 站 点 恢复 之 后 , 需要 将 在 异 
地 变化 的 数据 重新 同步 Resync 回 主 卷 ， 此 时 ， 主 站 点 首先 将 灾难 之 前 被 定格 的 Bitmap 传送 到 异 
地 ， 异 地 系统 将 这 份 主 站 的 Bitmap 与 异地 的 Bitmap 进行 OR 操作 ( 至 于 为 何 要 使 用 OR 操作 ， 
读者 可 以 自行 推导 ， 可 以 参考 第 16 章 中 卷 Clone 一 节 里 的 算法 思想 ) 。 得 出 的 新 Biamap 中 ， 为 
1 的 位 就 表示 需要 进行 Resync 的 数据 地 址 ， 然 后 异地 系统 读 出 对 应 数据 传送 回 主 站 ， 主 站 覆盖 
之 后 ， 方 可 再 次 创建 异步 复制 Sesion ， 系 统 恢复 原状 ， 之 后 方 可 启动 应 用 程序 。 

第 二 种 情况 是 : 本 地 发 生 灾难 ， 玉 石 俱 焚 。 那 么 没什么 好 说 的 了 ， 应 用 程序 在 异地 启动 ， 本 
地 重建 之 后 , 购买 全 新 设备 , 异地 变 为 了 主 站 点 , 重建 后 的 本 地 变 为 了 容 灾 站 点 , 数据 重新 被 同步 。 

第 三 种 情况 是 : 本 地 没有 发 生 整 体 灾难 , 而 只 是 对 外 网 络 链 路 全 部 中 断 , 包括 数据 复制 链 路 。 
此 时 业务 需要 在 异地 启动 。 之 后 的 过 程 与 第 一 种 情况 完全 相同 。 

对 于 带 一 致 性 组 的 异步 复制 过 程 的 错误 恢复 , 步骤 与 普通 异步 复制 过 程 完全 相同 , 但 是 除了 
一 点 , 也 就 是 需要 Resync 时 ,本 地 站 点 需要 将 Suspend Queue 对 应 的 Bitmap 与 活动 Bitmap 进行 
OR 操作 后 再 发 送 给 异地 系统 ， 异 地 系统 将 这 份 OR 之 后 的 Bitmap 再 次 与 自己 的 Bitmap 进行 
OR 运算 之 后 才能 得 出 结果 。 
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17.4.4 周期 性 异步 复制 与 连续 异步 复制 


从 上 文 的 分 析 可 以 看 出 ， 每 次 异步 传输 触发 之 前 ， 系 统 需要 做 很 多 处 理 ， 包 括 生成 新 位 图 、 
锁 住 对 应 的 块 或 者 生成 快照 等 。 而 这 些 后 台 处 理 过 程 需 要 耗费 一 定 的 资源 。 系 统 可 以 使 用 两 种 模 


1. 连续 异步 复制 


这 种 模式 下 ， 系 统 不 停 地 做 复制 ,本 次 同步 完成 之 后 , 立即 开始 下 一 轮 的 同步 , 利用 循环 位 
图 及 快照 连续 不 断 地 将 数据 复制 到 远程 ， 而 不 管 每 次 复制 耗费 多 长 时 间 , 复制 了 多 少数 据 。 这 种 
方式 是 一 种 自 适 应 的 全 自动 方式 。 

比如 某 时 刻 系 统 触发 了 复制 操作 ,复制 用 了 10 分 钟 完 成 ,这 10 分 钟 期 间 , 源 卷发 生 了 200MB 
的 变化 ,那么 在 历时 10 分 钟 的 同步 结束 之 后 ,系统 立即 开始 对 这 200MB 数据 的 继续 同步 ; 假如 
这 次 同步 过 程 用 了 5 分 钟 ， 而 这 5 分 钟 期 间 源 卷发 生 了 100MB 的 变化 ， 然 后 系统 继续 同步 这 
100MB 数据 ; 用 了 2 分 钟 ， 期 间 又 产生 了 50MB 的 变化 ; 再 同步 这 50MB 用 了 1 分 钟 。 就 这 样 
一 直 往 下 收敛 , 最 后 导致 同步 的 间隔 越 来 越 短 , 每 次 传输 的 数据 越 来 越 小 ,最 后 会 达到 一 个 极端 
状况 ， 即 两 次 数据 同步 期 间 源 卷 没 有 发 生 改变 ， 那么 此 时 系统 会 依然 执行 相同 过 程 ， 只 是 最 后 传 
输 的 时 候 发 现 位 图 都 是 0， 所 以 立即 完成 本 次 传输 ， 然 后 再 次 触发 下 一 次 传输 ， 相 当 于 空转 ， 这 
样 就 耗费 了 不 必要 的 资源 。 但 是 却 可 以 最 大 程度 地 保证 系统 的 RPO。 


2. 周期 性 异步 复制 


这 种 模式 下 , 系统 严格 按照 预先 设 定 的 时 间 间 隔 或 者 待 同步 数据 的 积累 量 来 触发 复制 , 比如 
每 15 分 钟 ， 或 者 每 积累 50MB 的 数据 量 。 这 样 做 合乎 常理 ， 也 节约 系统 资源 ， 但 是 其 RPO 是 
固定 的 , 比如 就 是 15 分 钟 , 或 者 50MB 的 数据 。 灾难 发 生 之 后 , 这 15 分 钟 内 的 数据 或 者 这 50MB 
的 数据 一 定 是 丢失 找 不 回来 的 。 


17.5 ”四 大 厂商 的 数据 容 灾 系 统 方案 概述 
本 节 对 四 大 厂商 的 基于 存储 系统 底层 的 数据 容 灾 方案 进行 简要 介绍 。 
17.5.1 IBM 公司 的 PPRC 


PPRC 其 全 称 为 Peer-to- Peer Remote Copy， 即 点 对 点 的 远程 数据 复制 。 它 是 IBM 用 于 其 
DS 6000 和 DS 8000 中 高 端 存储 平台 上 的 一 种 远程 数据 容 灾 软 件 模块 。 这 个 名 称 只 是 一 个 统称 ， 
它 其 实 包含 了 Metro Mirror、Global Copy 和 Global Mirror 等 多 种 组 件 。 

Metro Mirror 方 式 是 一 种 同步 数据 复制 方式 ， 能 够 在 任何 情况 下 保证 数据 一 致 性 。 适 用 于 距 
离 较 近 并 且 链 路 带宽 足够 的 两 个 站 点 之 间 的 复制 。 

Global Copy 方式 则 是 一 种 不 带 一 致 性 组 功能 的 异步 数据 复制 方式 ， 这 种 方式 不 能 保证 数据 
的 一 致 性 。 适 用 于 距离 较 远 而 且 链 路 带宽 很 低 的 情况 下 的 数据 复制 。 它 的 数据 复制 方式 与 17.4.2 
一 节 中 描述 的 相同 。 

Global Mirror 则 是 一 种 带 有 一 致 性 组 保证 技术 的 异步 数据 复制 方式 , 可 以 保证 在 单 存储 系统 
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的 严格 数据 一 致 性 ,底层 也 是 使 用 双 循 环 位 图 法 。 但 是 对 于 多 存储 系统 , 不 能 严格 保证 数据 一 致 
性 ,Global Copy 只 是 使 用 了 多 存储 系统 时 间 同 步 , 然后 同一 时 间 Suspend 的 模式 进行 数据 一 致 性 
的 大 致 保障 的 ， 如 果 系统 IOPS 超过 了 时 间 精 确 级 别 ， 那 么 依然 不 能 保证 单个 IO 级 别 的 一 致 性 。 

在 多 存储 系统 架构 下 ， 用 户 需要 指定 其 中 一 台 为 Master， 其 他 参与 一 致 性 组 的 系统 都 为 
Subordinate。Master 负责 同步 全 局 系统 时 间 和 发 送 全 局 指令 从 而 命令 其 他 设备 执行 Suspend。 当 
所 有 系统 成 功 完成 本 次 Suspend 和 数据 传输 之 后 ，Master 还 负责 向 远程 关联 的 所 有 存储 系统 发 送 
指令 ， 命 令 这 些 远程 存储 系统 对 相应 的 卷 做 一 次 Snapshot。IBM 的 Snapshot 产品 名 称 为 
“FlashCopy”， 这 个 名 字 具 有 一 定 的 迷惑 性 ， 中 译名 “ 闪 速 复制 ”， 其 实 闪 速 的 只 是 创建 了 一 份 
地 址 映射 表 而 已 ， 数 据 并 未 被 全 部 复制 。FlashCopy 在 执行 的 时 候 有 个 选项 叫做 “NOCOPY”， 
这 个 选项 控制 着 Snapshot 生成 后 的 行为 , 如 果 被 设置 为 NOCOPY 模式 , 则 系统 只 保存 地 址 映射 
表 和 被 CoFW 出 来 的 数据 ; 而 如 果 选 择 了 COPY 模式 ， 则 系统 会 像 Clone Split 一 样 将 共享 数据 
块 全 部 复制 出 来 ， 加 上 CoFW 的 数据 块 共同 在 一 个 新 的 存储 空间 形成 一 份 与 源 卷 对 应 时 刻 一 致 
的 物理 卷 复制 。 

PPRC 可 以 实现 两 地 三 中 心 的 容 灾 架构 。 站 点 A 与 站 点 B 处 于 同城 距离 范围 内 , 使 用 Metro 
Mirror 进行 同步 数据 复制 。 站 点 B 再 与 位 于 异地 远 距 离 范围 的 站 点 C 之 间 进 行 Global Mirror 带 
有 一 致 性 组 的 异步 数据 复制 。 


17.5.2 EMC 公司 的 MirrorView、SanCopy 和 SRDF 


1. MirrorView 


MirrorView 是 专用 于 Clariion 存储 系统 平台 上 的 远程 卷 镜像 软件 模块 。 分 为 MirrorView/S 
和 MirrorView/A 两 种 模式 ， 前 者 为 同步 镜像 模式 ， 后 者 为 异步 镜像 模式 。 前 者 没什么 好 说 的 ， 
各 家 实现 方式 都 一 样 。MirrorView/A 底层 使 用 了 双 循环 位 图 法 +Snapvievw 来 保证 时 序 一 致 性 。 

MirrorView/A 只 支持 单 存储 系统 中 多 个 卷 的 一 致 性 组 。 而 IBM PPRC 则 支持 多 独立 系统 中 
多 个 卷 的 一 致 性 组 。 


2. Sancopy 


Sancopy 其 实 是 一 个 Snapshot Replicator。 也 就 是 说 ， 它 运行 于 存储 设备 中 ,专门 将 本 存储 系 
统 的 某 个 指定 的 源 卷 的 某 个 指定 的 Snapshot， 直接 通过 后 端 存储 网 络 复制 到 另外 一 台 或 者 多 台 存 
储 系统 的 指定 的 卷 中 。 由 于 Sancopy 是 复制 的 快照 , 需要 调用 Snapview 来 实现 快照 的 生成 , 所 以 ， 
Sancopy 的 源 卷 只 能 位 于 Clariion 平台 存储 系统 上 ,Sancopy 软件 自身 也 只 能 安装 并 运行 在 Clariion 
平台 上 。 而 复制 的 目的 卷 可 以 位 于 Clariion、Symmetrix DMX 以 及 其 他 经 过 认证 的 第 三 方 存储 系 
统 中 ,比如 IBM、HP、HDS 等 。 支 持 单 台 存储 系统 的 一 致 性 组 ， 即 在 Suspend 后 对 多 个 源 卷 同 
时 制作 快照 并 且 复 制 。 经 过 第 一 次 初始 化 复制 之 后 , 通过 不 断 地 对 源 卷 制作 快照 并 且 比 对 前 后 两 
次 快照 之 间 的 变化 数据 地 址 从 而 实现 增 量 的 数据 传输 。 在 初始 化 传输 时 ,由 于 需要 将 源 卷 所 有 数 
据 首先 同步 到 目的 卷 ， 所 以 要 求 源 卷 在 这 期 间 不 能 有 写 IO 发 生 。 从 技术 角度 来 讲 ， 实 现 允 许 源 
卷 写 IO 的 初始 化 传输 是 没有 问题 的 ， 制 作 一 份 对 源 卷 的 初始 快照 并 且 传输 到 目的 卷 ， 此 后 逐渐 
生成 快照 做 增 量 传输 ， 慢 慢 达 到 Catchup 状态 ， 这 种 做 法 理论 上 讲 没有 问题 。 但 是 Sancopy 自身 
无 法 做 到 ， 必 须 依 附 于 Snapview/snap 或 者 Snapview/Clone 来 做 到 。 
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Sancopy 支持 远程 复制 , 支持 通过 iSCSI 协议 复制 。Sancopy 本 质 上 就 是 把 源 卷 所 在 的 存储 系 
统 作为 一 个 Initiator, 目的 卷 所 在 的 存储 原本 就 是 Target, 这 样 Sancopy 所 在 的 存储 系统 就 会 识别 
并 且 挂 载 目 的 卷 到 本 地 , 然后 将 本 地 源 卷 的 某 个 Snapshot 直接 像 主机 访问 Target 一 样 复制 到 目的 
卷 ,之 后 再 做 增 量 复 制 。 所 以 这 种 模式 下 ，Target 端 无 须 做 任何 变化 ，Target 此 时 就 当 Sancopy 
端的 存储 系统 为 主机 。 
正 因为 本 质 上 就 是 Initiator-Target 关系 , 所 以 Sancopy 也 支持 将 源 卷 某 个 快照 复制 到 一 个 比 
源 卷 更 大 的 目的 卷 。 目 的 卷 比 源 卷 多 出 来 的 容量 在 物理 上 是 追加 到 了 源 卷 的 尾部 。 

Sancopy 其 实 与 MirrorView/A 在 底层 设计 有 很 多 都 是 相同 的 ,都 是 基于 Snapshot Catchup 模 
式 而 且 都 需要 调用 Snapshot/snap。 只 不 过 Sancopy 是 直接 以 Pitiator-Target 模式 工作 ， 所 以 可 以 
复制 到 众多 第 三 方 存储 卷 ;而 MirrorView 需要 源 和 目的 双方 都 运行 MirrorView 的 进程 ， 不 是 通 
用 的 SCSI Initiator-Target 模式 ， 所 以 其 只 支持 Clariion 之 间 的 互相 Mirror。 


3. SRDF 


1) SRDF/Synchronous ( SRDF/S) 

这 是 同步 数据 复制 ， 没 喻 好 说 的 ， 全 世界 的 厂家 都 是 一 样 的 实现 方式 。 

2) SRDF/Asynchronous ( SRDF/A) 

这 是 带 一 致 性 保障 的 异步 数据 复制 模式 。SRDF/A 的 设计 模式 大 致 思想 与 上 文 介绍 的 无 异 。 
同样 是 数据 批量 传送 ，Suspend 后 形成 一 批 ， 然 后 等 待 传输 。 如 图 17-40 所 示 ， 系 统 Suspend 之 
后 的 所 有 IO 在 图 中 就 是 Capture N， 对 应 前 文中 的 Suspend Queue; 当前 正在 传输 的 数据 对 应 图 
中 的 Transmit N-1; 远程 正在 接收 的 数据 批 ， 对 应 图 中 的 Recive N-1; 远程 已 经 接收 成 功 的 数 
据 批 ， 正 要 将 其 写 入 磁盘 ， 对 应 图 中 的 Apply N-2。 


Primary Symmetrix Secondary Symmetrix 


图 17-40 异步 SRD 


注意 : 为 何在 远程 站 点 ， 数 据 不 是 一 边 接收 一 边 被 写 人 磁盘 呢 ? 因为 SRDF/A 没有 用 到 
任何 快照 技术 来 照 下 远程 站 点 的 一 致 性 状态 ， 与 前 几 节 的 设计 思想 是 不 同 的。 所 以 ， 只 
能 利用 数据 库 所 常用 的 Two Phase Commit 思想 来 做 ， 即 接收 到 的 数据 批 ， 首 先 写 到 一 个 
额外 的 存储 空间 , 确保 整 批 数据 都 接收 到 了 , 然后 再 一 次 性 写 和 磁盘。 在 写 人 的 过 程 中 ， 
也 需要 再 记录 一 个 日 志 ， 因 为 一 旦 在 写 和 人 过程 中 系统 发 生 Down 机 等 异常 情况 ,重启 后 
还 可 以 追溯 这 个 日 志 以 便 了 解 上 一 次 成 功 写 到 哪里 了 ， 然 后 继续 从 断 点 处 开始 写 。 
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SRDEF/A 与 前 几 节 介 绍 的 实现 方法 还 有 其 他 一 些 不 同 ， 下 面 就 追加 介绍 一 下 这 些 不 同 之 处 。 
首先 ， 主 站 点 复制 引擎 接收 到 针对 源 卷 的 写 IO 数据 之 后 ， 在 这 些 数 据 没 有 被 复制 到 远程 之 前 ， 
都 会 驻 留 于 内 存 等 待 传输 ( 根据 多 种 事实 推断 ，SRDF/A 没有 利用 Bitmap 作为 设计 思想 ， 这 一 
点 只 是 推断 ， 但 是 无 法 确定 ) 。 这 种 设计 实在 不 太 划算 ， 虽 然 能 够 节省 一 些 磁盘 读 IO 操作 ， 但 
是 也 浪费 了 大 量 的 缓存 稀缺 资源 。 

果不其然 , 这 种 设计 模式 最 终 导 致 其 不 得 不 考虑 缓存 溢出 的 情况 , 所 以 又 开发 了 一 些 补救 措施 。 
比如 , 一 种 叫做 Write Folding 的 技术 ,如 果 某 个 写 IO 是 针对 之 前 已 经 写 过 的 地 址 再 次 写 ， 而 之 前 的 
写 IO 数据 尚未 被 复制 到 远程 , 那么 系统 就 不 复制 原来 的 写 IO 了 转 而 只 复制 新 的 写 IO ( 这 一 点 如 果 
利用 Bitmap 来 实现 的 话 是 自然 就 可 以 实现 的 ， 所 以 再 次 推断 SRDF/A 没有 用 Bitmap 实现 ) 。 

再 严重 一 些 ， 见 势 不 妙 的 时 候 ， 就 提高 对 主机 写 IO 的 响应 时 间 以 降低 主机 端 写 IO 的 频率 
(Write Pacing ) ， 其 次 ， 如 果 这 招 都 不 好 用 了 ， 了 眼看 缓存 将 满 ， 那 么 还 可 以 将 缓存 中 的 一 些 数据 
destage 到 磁盘 ， 相 当 于 page/swap ， 以 腾 出 一 些 空间 ( Delta Set Extension ) 。 这 样 的 话 ， 最 终 还 
是 要 多 耗费 磁盘 读 了 ， 而 且 是 先 耗费 了 缓存 资源 , 可谓 是 赔 了 夫人 又 折 兵 , 还 给 主机 故意 提高 响 
应 时 间 。 其 次 , 还 有 一 点 不 同 之 处 , 这 一 点 是 个 优点 。 即 上 文中 曾经 提 到 过 的 , 在 遇 到 传输 错误 、 
链 路 异常 等 情况 时 ， 再 次 传输 时 ，SRDF/A 可 以 只 传输 上 次 传输 中 未 完成 的 部 分 。 

以 上 为 本 地 单 存储 环境 ， 实 现 一 致 性 组 较为 容易 。 虽 然 SRDF/A 也 是 支持 本 地 多 存储 系统 
下 的 一 致 性 保障 的 ， 然 而 ,根据 推断 ，SRDEF/A 与 [BM Global Mirror 一 样 ， 也 不 能 实现 单个 IO 
级 别 的 一 致 性 。SRDE/A 与 IBM Global Mirror 有 一 点 不 同 ， 即 前 者 是 将 Commander 放置 于 主机 
端 而 不 是 本 地 存储 系统 中 的 一 台 。 让 人 费解 的 是 , 既然 已 经 涉及 到 了 主机 的 参与 ， 那么 为 何不 在 
主机 端 一 并 实现 Serializer 和 Suspender 的 功能 呢 ? 这 一 点 根据 现 有 的 资料 判断 无 法 判断 。 

至 于 多 主机 环境 下 的 一 致 性 组 , 更 是 无 法 支持 了 , 目前 似乎 没有 厂家 支持 这 么 高 级 别 的 一 臻 
性 组 保证 。 


17.5.3 ”HDS 公司 的 Truecopy 


Truecopy 也 分 为 Synchronous 模式 和 Asynchronous 模式 。 同步 模式 没什么 可 说 的 。 异 步 模式 
也 是 使 用 批量 传输 法 保证 数据 一 致 性 ， 底 层 设计 细节 不 再 更 述 。 


17.5.4 NetApp 公司 的 Snapmirror 


Snapmirror 也 分 为 同步 和 异步 模式 。 在 异步 模式 下 ，Snapmirror 针对 源 卷 每 隔 一 段 时 间 做 一 
次 快照 , 通过 比 对 两 次 Snapshot 的 变化 数据 地 址 ,从 而 将 这 些 变化 的 数据 传输 到 远程 存储 系统 对 
应 的 卷 中 。 这 种 思想 的 本 质 其 实 也 是 批量 传送 ， 对 源 卷 的 Snapshot 就 相当 于 一 次 Suspend， 比 对 
两 份 快照 的 变化 数据 地 址 ， 就 相当 于 记录 Bitmap。 

对 于 多 台独 立 存 储 系统 之 间 一 致 性 组 保证 方面 ，NetApp 是 基于 主机 VSS 实现 的 。 其 
Snapmanager 产品 (与 EMC 的 Replication Manager 类 似 ) ， 作 为 一 个 Requestor 向 VSS 发 送 快 照 
请 求 ,VSS 将 Suspend 对 应 的 应 用 程序 的 IO, 这 样 , 不 管 这 个 应 用 程序 需要 读 写 的 卷 分 布 于 单个 
存储 系统 还 是 多 个 存储 系统 , 所 有 的 系统 都 有 足够 的 时 间 来 对 相应 的 卷 进行 快照 操作 。 作 为 VSS 
的 Provider，Snapdriver 作为 快照 代理 ， 将 向 所 有 对 应 的 存储 系统 发 起 快照 请 求 。 快 照 完 成 后 ， 
Snapmanger 可 以 调用 Snapmirror 对 变化 的 数据 进行 传输 。 针对 多 主机 之 间 的 一 致 性 组 实现 , 尚未 
有 解决 方案 。 
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对 于 同步 模式 ，Snapmirror 是 利用 Catchup 模式 实现 的 。Snapmirror 首先 进入 异步 模式 ， 即 数 
据 复制 的 Session 建立 之 后 ， 立 即 生成 首次 快照 ， 然 后 初次 数据 传递 过 程 需要 传递 源 卷 上 所 有 被 这 
份 Snapshot 所 占用 的 数据 ， 需 要 比较 长 的 时 间 。 传 完 后 再 次 做 Snapshot， 比 对 两 次 Snapshot 中 变化 
的 数据 地 址 ， 再 次 同步 。 就 这 样 一 直 进行 下 去 ， 当 达到 一 定 的 Gap 阔 值 时 ， 系 统 进 入 同步 复制 阶 
段 ， 针 对 源 卷 的 每 一 个 写 IO 在 进入 本 地 日 志 链 后 立即 同步 到 远程 ， 远 程 系统 接收 到 写 IO 之 后 ， 
先 将 其 存放 于 Vol0 下 面 的 日 志 链 文 件 中 ， 然 后 在 后 台 将 日 志 读 出 重 放 ， 从 而 写 入 对 应 的 卷 。 
提示 : 由 于 WAFL 的 快照 方式 与 其 他 厂商 的 常规 设计 不 同 ， 所 以 在 比 对 两 份 Snapshot 
的 时 候 并 不 是 按照 本 书 第 16 章 中 介绍 的 机 制 进行 的 
WAEL 的 每 份 Snapshot 其 实 就 是 一 份 真实 的 文件 系统 MetaData Tree。 这 个 Tree 中 记录 了 整个 
物理 存储 空间 的 Bitmap ，AEFS 以 及 每 个 Snapshot 都 会 有 自己 的 Bitmnap ， 通 过 下 列 规则 比 对 两 份 
Bitmap 即 可 得 出 变化 的 数据 地 址 。 
= 规则 1: 后 面 的 Bitmap 中 为 1 的 但 是 前 面 Bitmap 中 为 0 的 位 ， 则 表明 这 个 地 址 对 应 的 
数据 发 生 了 更 改 。 
= 规则 2: 后面 Bitmap 中 为 1 并 且 前 面 Bitmap 中 也 为 1 的 位 ， 表 明 这 个 地 址 对 应 的 数据 
是 两 份 Snapshot 共用 的 ， 一 定 也 没有 变化 过 。 
= 规则 3: 绝对 不 可 能 存在 后 面 Bitmap 中 为 0 而 前 面 Bitmap 中 为 1 的 数据 。 因 为 WAFIl 
从 来 不 覆盖 正在 被 某 Snapshot 占用 的 数据 。 
虽然 EMC 的 MirrorView 也 同样 是 采用 比 对 快照 的 方式 进行 数据 复制 ,但 是 其 本 质 上 有 区 别 。 
NetApp 在 数据 复制 到 远程 之 后 ， 快 照 也 就 自然 而 然 地 生成 了 ， 因 为 WAFI 的 快照 本 身 就 是 一 个 
卷 的 全 部 内 容 ， 而 传统 的 Snapshot， 源 卷 是 源 卷 ， 相 关 的 映射 表 和 其 他 元 数据 等 都 存在 于 源 卷 额 
外 的 存储 空间 , 即 这 些 映射 表 里 记 录 的 是 源 卷 的 数据 变化 而 不 是 记录 自己 所 占用 空间 的 变化 , 更 
不 会 将 自己 占用 的 空间 的 数据 变更 同步 到 远程 ,所 以 EMC 的 MirrorView 在 同步 完 一 批 数据 之 后 
需要 在 远程 系统 创建 一 份 快照 。 而 WAFI 在 同步 完 一 批 数据 之 后 ， 只 需要 进行 一 个 叫做 “Jump 
Ahead” 的 操作 即 可 ， 即 ， 将 容 灾 卷 上 的 AFS 入 口 指针 指向 最 新 的 Snapshot 入 口 指针 ， 并 且 删 除 
前 一 份 Snapshot。 当 然 这 份 Snapshot 就 是 刚 被 同步 过 来 的 数据 所 自然 形成 的 而 不 是 待 同步 完成 后 
期 制作 的 。 
提示 : 利用 比 对 快照 方式 进行 异步 数据 传送 的 设计 模式 的 一 个 好 处 就 是 不 用 为 错误 恢复 
机 制 而 额外 设计 复杂 的 流程 。 一 旦 发 生 Down 机 或 者 灾难 ， 容 灾 站 点 只 需要 Rollback 到 
上 一 个 Snapshot 即 可 ， 主 站 点 重启 之 后 立刻 就 可 以 接受 I0, 无 须 做 任何 前 处 理 。 关 于 比 
对 Snapshot 的 具体 技术 细节 实现 原理 请 参考 本 书 第 16 章 的 有 关内 容 。 


17.6 ”生产 者 的 容 灾 一 一 服务 器 应 用 程序 的 容 灾 


IT 系统 的 生产 者 ， 也 就 是 各 种 服务 器 上 运行 的 应 用 程序 。 毫 无 疑问 ， 主 站 点 发 生 故 障 ， 必 
须要 在 备份 站 点 重新 运行 这 些 应 用 程序 。 我 们 是 否 可 以 在 备份 站 点 预备 应 用 程序 的 安装 文件 , 发 
生 故 障 后 ， 在 备份 站 点 服务 器 上 安装 配置 这 些 应 用 程序 呢 ? 

这 人 么 做 虽然 可 行 ， 但 是 一 些 较为 复杂 的 应 用 程序 ， 安 装 和 配置 要 花费 大 量 的 时 间 ， 比 如 SAP 企 
业 REP 系统 的 安装 ， 可 能 需要 一 天 的 时 间 ， 再 加 上 不 可 预料 的 因素 ， 耗 时 可 能 更 长 。 如 果 没 有 预先 
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安装 配置 好 这 些 应 用 程序 ,未雨绸缪 ， 则 事故 发 生 的 时 候 ， 企 业 就 需要 忍受 停机 所 带 来 的 损失 了 。 
17.6.1 ”生产 者 容 灾 概述 


我 们 必须 将 应 用 程序 在 备份 站 点 预先 安装 并 日 配置 好 , 但 是 不 能 让 它们 处 于 工作 状态 , 应 当 
时 刻 保证 同一 时 刻 只 有 一 个 站 点 的 生产 者 在 生产 ， 因 为 IT 系统 生产 出 来 的 产品 是 具有 一 致 性 的 
数据 ， 而 且 数 据 是 有 时 效 的 ， 具有 上 下 文联 系 的 。IT 生产 是 一 个 连续 的 数据 处 理 过 程 ， 一 旦 中 
途 产生 数据 不 一 致 性 , 就 需要 恢复 数据 到 某 个 一 致 的 时 刻 , 然后 从 这 个 时 刻 继续 生产 。 而 不 像 实 
物 生产 那样 ， 产 品 是 一 件 件 的 物品 ， 都 具有 相同 的 属性 。 所 以 保证 同一 时 刻 ， 整 个 IT 系统 只 有 
一 个 站 点 的 生产 者 处 理 同 一 份 数据 ， 这 一 点 非常 重要 。 

然而 , 既 要 求 两 个 站 点 同一 时 刻 只 能 有 一 个 站 点 的 生产 者 处 理 一 份 数据 , 又 要 求 当 生产 站 点 
发 生 事故 的 时 候 , 备份 站 点 的 生产 者 立即 启动 , 接着 处 理 备份 站 点 经 过 主 站 点 数据 同步 过 来 的 数 
据 。 要 做 到 这 一 点 , 就 需要 让 备份 站 点 的 应 用 程序 感知 到 主 站 点 应 用 程序 的 状态 , 一 旦 检测 到 主 
站 点 应 用 程序 故障 ， 则 备份 站 点 应 用 程序 立即 启动 ， 开 始 生 产 。 

第 16 章 曾经 说 过 高 可 用 性 群集 ， 而 在 容 灾 技术 领域 中 ， 群 集 的 概念 扩大 到 了 很 远 的 范围 ， 备 
份 站 点 与 主 站 点 可 能 不 在 同一 机 房 中 而 在 相隔 很 远 的 两 座 建筑 物 里 , 甚至 两 个 城市 中 。 这样 , 备份 
应 用 程序 就 要 跨越 很 远 的 距离 与 主 应 用 程序 通信 来 交换 状态 。 由 于 应 用 程序 运行 状态 数据 , 相对 于 
其 处 理 的 数据 来 说 , 数据 量 是 很 小 的 , 所 以 即使 是 跨越 广域网 通信 , 也 不 必 担心 延迟 太 大 。 如 果 是 
通过 广域网 连接 两 个 站 点 的 前 端 网 络 ， 则 最 好 使 用 专线 连接 ; 如 果 是 基于 Intemet 的 VPN 连接 ， 
虽然 可 以 获得 高 带宽 /价格 比 ， 但 是 延迟 无 法 保证 最 小 ,除非 购买 电信 部 门 提供 的 QOS 服务 。 

类 似 HACMP、MSCS 这 种 HA 软件 ， 都 是 使 用 共享 存储 的 方式 来 作用 的 ， 即 HA 系统 中 的 
所 有 节点 ， 共 享 同一 份 物理 存储 ， 不 管 某 时 刻 由 谁 来 操作 处 理 这 些 数据 ， 最 终 的 数据 只 有 一 份 ， 
而 且 是 一 致 的 、 具 有 上 下 文 逻辑 关系 的 。 而 远程 异地 容 灾 系统 中 , 数据 在 主 站 点 和 备份 站 点 各 有 
一 份 ， 而 且 必 须 保证 两 边 数 据 的 同步 。 

生产 的 时 候 , 必须 以 一 边 数据 为 准 , 另 一 边 与 之 同步 , 绝对 不 能 发 生 两 边 同 时 进行 生产 的 情 
况 , 除非 两 边 生产 者 处 理 的 是 两 份 逻辑 上 无 任何 关联 的 数据 。 所 以 , 远程 容 灾 系统 所 要 关注 的 有 
两 个 重要 因素 , 即 生产 者 和 生产 资料 。 只 要 生产 资料 在 主 站 和 备 站 完全 同步 ,那么 就 可 以 逻辑 上 
认为 , 数据 只 有 一 份 , 备 站 的 数据 是 主 站 的 镜像 , 平时 虚无 续 缉 不 可 用 ; 但 是 一 旦 主 站 发 生 故 障 ， 
备 站 的 镜像 立即 成 为 实 实在 在 可 用 的 数据 , 同时， 生产 者 在 备 站 启动 生产 ,处 理 数据 。 这 就 是 异 

然而 , 传统 的 基于 共享 存储 模式 的 HA 软件 , 不 适用 于 异地 容 灾 系 统 , 因为 共享 存储 模式 的 
HA 软件 ， 是 基于 资源 切换 为 基础 的 ， 它 把 各 个 组 件 都 看 成 是 资源 ， 比 如 应 用 程序 、IP 地 址 、 主 
机 名 、 应 用 所 要 访问 的 存储 卷 等 。 发 生 故 障 时 ,备份 机 HA 软件 检测 到 对 方 的 故障 ,然后 强行 将 
这 些 资源 迁移 到 本 地 。 比 如 , 在 备份 机 修改 相应 网 卡 的 耳 地 址 , 并 发 出 ARP 广播 来 刷新 所 有 本 
广 域 内 的 客户 端 以 及 本 地 网 关 设备 所 保存 的 ARP 映射 记录 , 以 让 所 有 网 络 上 的 终端 获知 此 IP 对 
应 的 新 MAC 地 址 ， 修 改 主机 名 映射 文件 ( Host 文件 ) ， 挂 载 共享 存储 设备 上 的 卷 ， 最 后 启动 备 
份 应 用 系统 。 

应 用 系统 可 以 访问 已 经 强行 挂 载 的 共享 卷 而 存 取 数据 ， 客 户 端 可 以 继续 使 用 原来 的 IP 地 址 
来 访问 服务 器 上 运行 的 应 用 程序 ,因为 这 个 耳 已 经 由 故障 的 计算 机 转移 到 了 备份 计算 机 , 这样 ， 
生产 就 可 以 继续 进行 了 。 要 保证 生产 者 在 切换 之 后 生产 可 以 继续 , 则 必须 先 保证 生产 者 所 依赖 的 
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所 有 条 件 已 经 切换 成 功 ， 这 些 条 件 包括 IP 地 址 ( 非 必需 ) 和 卷 等 。 


1. 本 地 容 灾 系统 中 的 两 种 存储 模式 
本 地 HA 系统 中 , 多 个 节点 如 果 共 同 拥有 同一 个 或 者 同 几 个 卷 , 但 是 同一 时 刻 只 有 活动 节点 


才 挂 载 该 卷 进行 IO 读 写 ， 这 种 模式 就 叫做 共享 存储 模式 。 即 HA 系统 中 的 每 个 节点 都 拥有 同一 
份 存储 卷 ， 只 不 过 不 活动 的 节点 不 对 其 进行 挂 载 并 IO。 


如 果 HA 系统 中 每 个 节点 都 有 自己 独占 的 存储 卷 , 这 些 卷 除 了 拥有 者 可 以 读 写 之 外 , 任何 情 


况 下 ， 其 他 节点 都 不 能 读 写 ， 数 据 的 共享 是 通过 同步 复制 技术 同步 到 所 有 节点 上 的 存储 卷 中 的 ， 
这 种 方式 就 叫做 Share-Nothing 模式 。 即 HA 系统 中 的 所 有 节点 之 间 不 共享 任何 东西 ， 所 有 元 素 
都 是 独 享 的 ,甚至 网 络 地 址 都 是 各 用 各 的 。 数 据 存 在 多 份 ,每 个 节点 一 份 ， 节 点 之 间 通 过 同步 复 
制 技术 来 同步 数据 ， 某 节点 发 生 故障 之 后 ， 这 个 节点 对 应 的 备份 节点 直接 启动 应 用 程序 , 由 于 之 
前 数据 已 经 在 所 有 节点 上 同步 ， 所 以 此 时 数据 是 完整 一 致 的 。 由 于 Share-Nothing 模式 下 , 不 存 


在 各 


E 何 的 “接管 ”, 所 以 此 时 客户 端 需要 感知 到 服务 端 群集 的 这 种 切换 动作 , 并 通过 客户 端 手动 


或 者 自动 切换 配置 以 便 连 接 新 服务 器 。 表 17-3 对 比 了 HA 的 两 种 存储 模式 。 


表 17-3_HA 群集 中 两 种 存储 模式 的 对 比 


共享 存储 Share-Nothing 

数据 林 身 是 否 容 灾 是 

软 硬 件 成 本 低 

前 端 网 络 资源 耗费 高 
和 | | E 
维护 数据 是 否 需要 停机 需要 不 需要 
实现 复杂 程度 | ”高 | 低 

是 否 需 要 第 三 方 软件 是 否 
故障 因素 数量 3 个 2 全 


共享 存储 模式 下 , 容 灾 系统 的 各 个 节点 共享 同一 份 数据 。 如 果 这 份 数 据 发 生 损 坏 ， 则 必 
须 用 备份 镜像 加 以 还 原 ， 而 且 需 要 承受 停机 带 来 的 损失 。 而 Share-Nothing 模式 下 ， 系 
统 中 每 个 节点 都 有 自己 的 数据 复制 , 如 果 其 中 一 份 数据 被 破坏 , 系统 可 以 切换 到 另外 的 
节点 , 不 影响 应 用 , 不 需要 停机 , 被 损坏 的 数据 可 以 在 任何 时 候 加 以 还 原 修复 , 并 且 修 
复 后 的 节点 可 以 再 次 加 入 容 灾 系 统 。 

软 硬 件 成 本 

共享 存储 模式 下 ,由 于 各 个 节点 需要 共享 一 份 存储 数据 ,所 以 需要 外 接 的 磁盘 阵列 系统 ， 
而 且 为 了 保证 数据 访问 速度 ， 外 接 存 储 系统 必须 自身 实现 RAID 机 制 ， 主 机 上 也 需要 
安装 连接 盘 阵 的 适配器 。 这 样 就 增加 了 整个 系统 的 成 本 。Share-Nothing 模式 下 ， 各 个 
节点 自身 保存 各 自 的 数据 ,而 不 必 使 用 外 接 存储 系统 。 另 外 , 共享 存储 模式 还 需要 额外 
的 HA 软件 及 额外 的 成 本 ， 而 Share-Nothing 模式 不 需要 。 

前 端 网 络 资源 耗费 

共享 存储 模式 下 , 各 个 节点 之 间 交 互信 息 一 般 通过 以 太 网 络 , 而 存储 数据 通过 后 端 存储 
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网 络 。 由 于 各 个 节点 在 前 端 网 络 上 只 传输 控制 数据 , 所 以 对 前 端 以 太 网 络 资源 的 耗费 相 
对 较 低 。 而 Share-Nothing 模式 下 ， 由 于 各 个 节点 之 间 的 数据 同步 完全 通过 前 端 网 络 ， 
所 以 对 前 端 网 络 资源 耗费 相对 较 高 ， 适 合 局 域 网 环境 。 

， ”管理 难度 
共享 存储 模式 下 , 不 但 需要 管理 节点 间 的 交互 配置 , 还 需要 管理 外 部 存储 系统 , 增加 了 
管理 难度 。Share-Nothing 模式 下 ， 只 需要 管理 各 个 节点 间 的 交互 配置 即 可 。 

" ”是否 需要 停机 
共享 存储 模式 下 , 由 于 需要 将 数据 从 单机 环境 转移 到 共享 存储 环境 供 其 他 节点 使 用 , 往 
往 需 要 停机 来 保证 数据 的 一 致 性 。 而 Share-Nothing 模式 下 ,数据 同步 是 动态 的 , 不 需 
要 停机 。 

， ”实现 复杂 程度 
首先 ,共享 存储 模式 下 ,有 三 种 基本 元 素 :节点 、 节 点 间 交 互 、 共 享 数据 ,而 Share-Nothing 
模式 下 ， 只 有 两 种 元 素 : 节点 、 节 点 间 交 互 。 其 次 ,如 果 使 用 共享 存储 模式 做 容 灾 , 需 
要 将 数据 移动 到 共享 存储 上 ， 增 加 额外 的 工作 量 、 时 间 和 不 可 控 因素 。 

， ”是 否 需 要 第 三 方 软件 
共享 存储 模式 下 , 备份 节点 需要 通过 第 三 方 软件 来 监控 主 节 点 的 状态 , 在 发 生 故 障 的 时 
候 主动 接管 资源 ， 比 如 各 种 操作 系统 提供 的 HA 软件 (HACMP、MSCS、SUN Cluster 
等 ) 。Share-Nothing 模式 下 不 需要 任何 第 三 方 软件 参与 。 

， ”故障 因素 数量 
共享 存储 模式 下 ， 如 果 出 现 容 灾 系统 本 身 的 功能 故障 ， 需 要 在 操作 系统 、 应 用 程序 、 
HA 软件 三 个 方面 排查 故障 。Share-Nothing 模式 下 ， 只 需要 在 操作 系统 、 应 用 程序 二 
者 之 间 排查 故障 。 


2. 异地 容 灾 系统 中 的 IP 切换 


在 异地 容 灾 系统 中 , 主 服务 器 和 备份 服务 器 不 太 可 能 在 一 个 广播 域 中 , 一 般 都 是 通过 网 关 设 
备 来 转发 之 间 通 信 的 IP 包 ， 所 以 不 可 能 用 所 谓 资 源 切 换 的 方式 来 切换 IP 地 址 。 如 果 想 对 客户 端 
透明 ， 即 客户 端 可 以 无 须 感知 故障 的 发 生 ， 继 续 使 用 原来 的 IP 地 址 来 连接 备份 服务 器 ， 那 么 就 
需要 在 网 络 路 由 设备 上 做 文章 了 ， 动 态 修改 路 由 器 上 的 路 由 表 ， 将 人 P 包 路 由 到 备份 站 点 而 不 是 
主 站 点 。 如 果 客 户 利用 域名 来 访问 服务 器 , 那么 也 可 以 直接 在 DNS 设备 上 修改 IP 指向 记录 来 完 
成 这 个 功能 。 

最 方便 而 且 普 遍 的 做 法 是 : 让 所 有 客户 机 利用 主机 名 来 连接 服务 器 ， 这 样 ， 主 站 点 故障 后 ， 
通知 所 有 客户 端 修改 它们 的 host 文件 即 可 将 原来 的 主机 名 映射 到 新 的 耳 地 址 而 不 用 重启 计算 机 。 
这 方面 ， 异 地 容 灾 系 统 中 的 HA 软件 几乎 发 挥 不 了 作用 。 


3. 异地 容 灾 系统 中 的 卷 切换 


异地 容 灾 系 统 中 在 主 站 点 和 备份 站 点 各 有 卷 , 两 个 卷 之 间 可 以 通过 前 端 网 络 同步 , 或 者 通过 
后 端 网 络 同 步 。 主 站 点 后 ,备份 服务 器 上 的 HA 软件 检测 到 主 服务 器 通信 失败 , 便 会 感知 故障 发 
生 , 然后 通过 某 各 方式 , 断 开 主 卷 和 备份 卷 的 同步 关系 ( 如 果 不 断 开 , 则 卷 会 被 锁定 而 不 可 访问 )。 
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如 果 同 步 引擎 是 运行 在 存储 设备 上 的 ， 那 么 除非 HA 软件 可 以 操控 运行 在 存储 设备 上 的 同步 引 
获 ， 否 则 必须 由 系统 管理 员 手动 利用 存储 设备 的 配置 工具 来 断 开 同步 关系 。 同 步 关 系 断 开 后 , 本 
地 的 卷 才 能 被 访问 ， 这 样 ，HA 软件 才能 在 备份 机 上 调用 操作 系统 的 相关 功能 来 挂 载 这 个 卷 。 

如 果 同 步 引擎 本 身 就 是 由 运行 在 主机 和 备份 机 上 的 HA 软件 提供 的 ,那么 就 可 以 实现 在 检测 
到 通信 失败 之 后 ， 由 HA 软件 本 身 来 自动 断 开 同步 关系 ， 然 后 在 备份 机 上 挂 载 对 应 的 卷 。 


4. 异地 容 灾 系 统 中 的 应 用 切换 


应 用 , 也 就 是 生产 者 的 切换 , 是 所 有 HA 容 灾 系统 在 故障 发 生 后 所 执行 的 最 后 一 步 动作 。 与 
共享 存储 模式 的 HA 容 灾 相 同 ， 异 地 容 灾 中 的 应 用 切换 ， 也 是 由 备份 机 的 HA 软件 来 执行 脚本 ， 
或 者 通过 其 他 功能 调用 相关 应 用 的 接口 来 启动 备份 机 的 应 用 。 

比如 ， 对 于 DB2 数据 库 来 说 ， 启 动 数据 库 实例 所 使 用 的 命令 为 :db2start，HA 软件 只 要 检 
测 到 主 站 点 故障 ， 只 要 在 备份 机 的 db2cmd 命令 行 方式 下 执行 这 条 命令 ， 便 可 使 备份 机 的 DB2 
数据 库 实例 启动 起 来 。 应 用 的 启动 必须 在 所 有 资源 成 功 切换 到 备份 机 后 发 生 , 因为 应 用 启动 的 时 
候 必 然 会 读 取 卷 上 的 一 些 数 据 ， 如 果 卷 还 没有 被 挂 载 , 应 用 启动 的 时 候 就 会 报错 ， 比 如 : 找 不 到 
数据 文件 。 


5. Veritas Cluster Server 软件 介绍 


VCS( Veritas Cluster Server ) 可 以 基于 VVR 的 配合 , 而 实现 异地 容 灾 系 统 。 在 一 个 CLUSTER 
环境 中 ， 如 果 一 台 服 务 器 运行 多 个 应 用 ， 只 有 一 个 应 用 出 现 故障 时 ， 那 么 VCS 可 以 只 将 该 应 用 
切换 到 预先 定义 的 服务 器 上 ， 另 一 个 应 用 仍然 在 原来 的 服务 器 上 继续 运行 。 

VCS 将 其 监视 的 应 用 当 作 一 组 资源 来 管理 ， 这 一 组 资源 定义 为 资源 组 (RG ) 。 例 如 
Web-Server， 要 保证 这 个 应 用 正常 运行 ，VCS 将 监视 存放 数据 的 磁盘 组 ， 该 磁盘 组 上 的 文件 系 
统 、 网 卡 、IP 地 址 及 Web 服务 进程 。 既 然 VCS 是 基于 应 用 的 高 可 用 软件 , 一 台 服务 器 上 运行 的 
多 个 应 用 可 以 切换 到 不 同 的 服务 器 上 。 

例如 ,图 17-41 所 示 的 服务 器 A 
运行 着 IIS 网 页 访问 服务 和 DB2 数据 
库 服务 ， 服 务 器 B 运行 着 FTP 服务 和 
邮件 转发 服务 ， 服 务 器 C 运行 着 NFS 
服务 和 SMB 网 络 文件 系统 服务 。 当 服 
务 器 A 出 现 故 障 时 , 资源 组 RG-Web 
切换 到 服务 器 B 上 , 资源 组 RG-DB2 
切换 到 服务 器 C 上 。 当 然 条 件 是 它们 
都 能 存 取 对 应 的 应 用 数据 。 系 统管 理 
员 制 定 合适 的 故障 条 件 ， 例 如 现场 完 图 17-41 多 Active 集群 
全 瘫痪 10 分 钟 或 某 个 应 用 停止 运行 半 
小 时 。 当 这 种 情况 发 生 时 ,可 以 设 定 有 GCM ( Global Cluster Manager ) 自动 切换 应 用 , 或 向 系统 
管理 员 报 警 ,得 到 确认 后 ,再 切换 应 用 。 无 论 应 用 切换 是 自动 还 是 需要 确认 ， 两 个 场地 之 间 应 用 
的 启动 过 程 均 无 须 人 工 干预 。 
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17.6.2 案例 一 : 基于 Symantec 公司 的 应 用 容 灾 产品 VCS@ 


图 17-42 所 示 为 两 台 DB2 数据 库 服 
务 器 ， 下 面 要 将 其 配置 为 一 个 HA 双 机 热 
备 系统 ,主机 硬件 或 者 应 用 程序 故障 之 后 ， 

由 VCS 自动 检测 故障 ,并 在 备份 机 上 重新 
启动 各 种 环境 以 及 应 用 程序 。 

主 服务 器 名 称 为 dbsvr1，IP 地 址 为 192 168.0.1 
192.168.0.1; 备份 服务 器 名 称 为 dbsvr2, IP dbsv1 
地 址 为 192.168.0.2。 

台 计 算 机 操作 系统 都 是 Solaris 9， 

利用 Symantec 的 Storage foundation (和 包含 

了 VxVM 和 VxFS ) 作为 卷 和 文件 系统 管 

理工 具 。 

在 两 个 系统 中 分 别 安装 了 DB2 数据 

库 程 序 ， 而 数据 库 文件 存放 在 共享 磁盘 阵 

列 上 面 。 共享 卷 由 VxVM 对 底层 磁盘 进行 图 17-42 两 台 服务 器 的 双 机 系统 
虚拟 化 而 生成 。VxVM 先 将 操作 系统 底层 

磁盘 ( 盘 阵 上 的 LUN ) 组 成 磁盘 组 ， 然 后 在 这 个 组 中 再 划分 卷 ， 这 就 和 RAID 卡 的 做 法 类 似 ， 
只 不 过 VxVM 作用 在 主机 操作 系统 层 ， 而 RAID 卡 作用 在 硬件 层 。 

本 例 所 生成 的 共享 磁盘 组 命名 为 DBDG， 只 包含 一 个 物理 磁盘 ， 设 备 名 为 c0t0d0， 然 后 划 
分 一 个 卷 ， 卷 名 DBVolume。 用 VxFS 格式 对 这 个 卷 进行 格式 化 ， 青 将 格式 化 好 的 卷 挂 载 到 虚拟 
日 录 中 。 本 例 将 其 挂 载 于 /home/db2 下 面 。 

对 卷 的 划分 和 格式 化 仅 需 在 一 台 计 算 机 上 配置 即 可 , 配置 完 后 , 只 需要 将 这 个 卷 进行 导出 操 
作 ， 另 一 台 计 算 机 就 可 以 导入 并 识别 出 这 个 卷 的 格式 ， 再 直接 挂 载 到 虚拟 目录 。 

为 了 对 客户 端 透明 , 我 们 用 一 个 虚拟 主机 名 和 虚拟 IP 作为 访问 DB2 数据 库 服 务 的 地 址 。 虚 
拟 主机 名 为 dbsvr， 虚 拟 IP 为 192.168.0.3。 

虚拟 IP 不 是 一 个 神秘 的 东西 ， 我 们 知道 一 块 以 太 网 卡 可 以 有 多 个 IP 与 之 对 应 ， 如 果 把 
192.168.0.3 这 个 亿 绑 定 到 dbsrv1 主机 的 网 卡 上 , 那么 dbsrv1 主机 就 同时 拥有 两 个 IP: 192.168.0.1 
和 192.168.0.3。 这 样 ,客户 端 用 ARP 协议 请 求 192.168.0.3 这 个 IP 地 址 对 应 的 MAC 地 址 时 ,dbsrv1 
这 台 主 机 便 会 应 答 ， 客 户 端 知道 192.168.0.3 这 个 地 址 的 MAC 地 址 ( dbsrv1 主机 网 卡 的 MAC 地 
址 ) ,就 可 以 建立 与 dbsrv1 主机 的 通信 。 

一 且 dbsrv1 主机 发 生 故 障 ， 那 么 dbsrv2 主机 上 的 VCS 软件 就 会 将 192.168.0.3 这 个 IP 地 址 
设置 到 dbsrv2 主机 的 网 卡 上 , 并 发 出 Free ARP 广播 , 将 新 的 人 P 与 MAC 地 址 的 对 应 关系 通告 到 
网 络 上 的 其 他 终端 。 客 户 机 再 次 连接 的 时 候 , 就 会 建立 和 dbsrv2 主机 的 通信 , 而 客户 端 对 这 个 IP 
的 拥有 者 是 dbsrv1 还 是 dbsrv2 丝毫 没有 察觉 , 也 没有 必要 察觉 到 。 这 个 切换 卫 的 动作 ,也 是 VCS 
将 虚拟 IP 作为 一 个 资源 来 切换 的 过 程 。 

提示 : Storage Foundation 的 安装 过 程 这 里 就 不 做 描述 了 ， 本 例假 设 在 两 台 计 算 机 上 都 已 经 


| 192.168.0.2 
dbsrv2 
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成 功 地 安装 Storage Foundation 组 件 了 。 
相关 配置 配置 过 程 


(1) 在 dbsrv1 主机 上 创建 供 DB2 数据 文件 使 用 的 共享 存储 及 文件 系统 。 

# vxdg init DBDG cot0d0 \\ 创 建 磁盘 组 DBDG， 使 用 c0t0d0 这 个 硬盘 

# vxassist -g DBDG make DBVolume 5g \\ 在 磁盘 组 上 创建 5GB 大 小 的 卷 DBVolume 

# mkfs -F vxfs -Oo largefiles /dev/vx/rdsk/DBDG/DBVolume \\ 将 卷 DBVolume 

格式 化 为 VxFS 文件 系统 

# mkdir /home/db2  \\ 创 建 挂 载 点 ， 将 用 于 DBVolume 卷 的 挂 载 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/db2 \\ 将 格式 化 好 的 卷 

DBVolume 挂 载 于 /home/db2 下 ， 这 样 就 可 以 通过 CD /home/db2 进入 这 个 目录 从 而 对 

这 个 卷 的 内 容 进 行 访问 了 

(2 ) 使 两 个 系统 可 以 通过 RSH 方式 互相 访问 ,在 dbsrv1 上 面 做 如 下 操作 。 

# echo “dbsrv2 192.168.0.2” >> /etc/hosts \\ 将 对 方 加 入 自己 的 主机 列表 

# echo “dbsrv2 db2inst1l” >> $HOME/ .rhosts \\ 使 得 对 方 主机 可 以 通过 RSH 

以 dpb2inst1 的 身份 登录 本 机 。Db2instl 是 DB2 数据 库 所 必需 的 用 户 

# echo “dbsrv 192.168.0.3、 >> /etc/hosts \\ 将 虚拟 主机 加 入 自己 的 主机 列表 

(3 ) 在 dbsrv2 上 面 做 类 型 的 操作 ， 将 dbsrv2 改 为 dbsrv1，IP 也 做 相应 的 改变 ， 虚 拟 主机 IP 
和 主机 名 不 变 。 

(4 ) 在 两 台 计 算 机 上 分 别 执行 下 列 命令 ,创建 相同 的 用 户 组 。 

# groupadd -g 999 db2iadml \\ 创 建 DB2 实例 管理 组 ; 

# groupadd -g 998 db2fadml \\ 创 建 DB2 fencing 管理 组 ; 

# groupadd -g 997 db2asgrp \\ 创 建 DB2 数据 库 管理 组 ; 

# useradd -g db2iadml -u 1005 -d /home/db2 -m db2instl 


\\ 创 建 DB2 实例 管理 用 户 
# useradd -g db2fadml -u 1006 -d /home/db2fencl -m db2fencl 


\\ 创 建 DB2 fencing 管理 用 户 
# useradd -g db2asgrp -u 1007 -d /home/db2as -m db2as 


\\ 创 建 DB2 数据 库 管理 员 账 户 

注意 : 上 述 用 户 组 或 者 用 户 的 ID 可 以 是 尚未 被 使 用 的 任意 数字 ， 但 一 定 要 保证 两 台 计算 

机 上 面 的 用 户 ID 是 一 致 的 ， 否 则 数据 库 切 换 的 操作 会 失败 ; 数据 库 实 例 管理 员 的 账户 目 

录 要 存放 在 共享 盘 上 面 ， 也 就 是 /home/db2 目录 

(5 ) 在 两 台 计算 机 上 面 分 别 安装 DB2 数据 库 程 序 。 用 instal 程序 来 安装 DB2， 然 后 手动 创 
建 实例 和 数据 库 。 因 为 实例 目录 需要 放 到 共享 卷 上 ， 也 就 是 /home/db2 目录 。 

(6 ) 安装 完 DB2 程序 后 ,分别 在 两 台 计 算 机 安装 DB2 的 许可 证 。 

# /opt/IBM/db2/V8.1/adm/db2licm -a db2ese.lic 

(7) 在 dbsrv1 上 面 创建 实例 ( 存放 到 共享 盘 ) 。 

# cd /usr/opt/db2 08_ 01/instance 

# ./db2icrt -u db2fencl db2inst1 \\ 创 建 一 个 名 为 db2instl 的 实例 ，DB2 会 
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将 实例 目录 存放 到 同名 的 用 户 名 目录 下 ， 也 就 是 dbinstl 用 户 的 主 目录 : home/DB2 目录 

下 ， 从 而 将 实例 目录 放 到 了 共享 卷 上 。 

(8 ) 修改 DB2 节点 文件 /home/db2/sqllib/db2nodes.c 名 ,将 原来 的 db2srv1 主机 名 修改 为 dbsrv 
这 个 虚拟 主机 名 。 

0 dbsrv 0 

(9 ) 创建 数据 库 testdb。 

# su - db2inst1l \\ 切 换 数据 库 实 例 管理 用 户 ; 

# db2start \\ 启 动 数据 库 ; 

# db2 create database testdb  \\ 创 建新 的 数据 库 tdstdb， 由 于 当前 用 户 是 

db2inst1， 所 以 testdb 数据 库 被 创建 在 /home/db2 目录 下 ， 也 就 是 共享 卷 上 ; 

# db2 terminate 断 开 与 DB2 服务 后 端 处 理 进程 的 连接 ; 

# db2stop 停止 数据 库 ; 

(10 ) 将 共享 盘 从 dbsrv1 外 载 下 来 (在 dbsrv1 执行 ) 。 

# umount /home/db2  \\ 卸 载 文件 系统 ; 

# Vxvol -9 DBDG stopall \\ 将 DBDG 的 所 有 卷 停止 活动 ; 

# vxdg deport DB2DB \\ 将 磁盘 组 DBDG 导出 ， 以 便 在 其 他 计算 机 上 导入 并 挂 载 。 

( 11 ) 将 共享 盘 挂 载 到 dbsrv2 (在 dbsrv2 执行 ) 。 

# vxdg import DBDG \\ 将 磁盘 组 DBDG 导入 ; 

# vxvol -g DBDG startall \\ 将 DBDG 的 所 有 卷 启动 ; 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/DB2 \\ 挂 载 文 件 系 统 ; 

( 12 ) 在 dbsrv2 启动 原来 在 dbsrv1 创建 的 数据 库 testdb。 

# su - db2instl 

# db2start 

# db2 connect to testdb 


如 果 能 够 连接 成 功 , 则 数据 库 双 机 配置 成 功 。 如 果 数 据 库 服务 在 某 系统 上 发 生 故障 后 , 会 和 
VCS 切换 到 另外 一 台 计 算 机 并 运行 。 下 面 配置 自动 故障 检测 并 切换 的 功能 。 
(13 ) 复制 DB2 代理 配置 文件 到 VCS 的 配置 目录 。 


# cp /etc/VRTSvcs/conf/Db2udbTypes.cf /etc/VRTSvcs/conf/config/ 
Db2udbTypes .cf 


(14) 打开 VCS 图 形 工具 。 

# /opt/VRTSvcs/bin/hagui \\ 将 运行 Vcs 图 形 化 配置 工具 

(15 ) 创建 服务 资源 组 ( service group ) ， 并 命名 为 db2grp。 

(16 ) 依次 单 击 “ 文 件 ” 一 “导入 ”一 “确定 ”按钮 ， 导 入 DB2 代理 配置 文件 。 
(17 ) 在 db2grp 中 创建 六 个 资源 。 

”磁盘 组 : 即 DBDG。 

= ， 卷 : DBVolume。 

= ， 挂 载 点 : /home/db2。 

" ”网卡 : 客户 端 所 连接 的 网 卡 (例如 bge0 ) 。 

" IP 地址 : 选择 192.168.0.3 这 个 虚拟 人 P 地 址 。 
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" ”DB2 agent: 这 个 资源 会 监控 DB2 程序 在 群集 中 的 运行 情况 。 

(18 ) 为 这 六 个 资源 创建 依赖 关系 ( 右 击 资源 ， 选 择 link ) 。 

IP 依赖 NIC 网 卡 的 工作 正常 ; 卷 的 存在 依赖 于 磁盘 组 的 状态 ; 文件 系统 依赖 卷 ; DB2 代理 
的 状态 要 同时 依赖 于 IP 地 址 的 存在 和 文件 系统 的 存在 。 

(19 ) 右 击 db2grp 服务 组 ， 选 择 online， 让 db2 在 dbsrv1 上 线 。 

(20 ) 右 击 db2 服务 组 ， 选 择 switch to， 让 db2 切换 到 dbsrv2。 

(21 ) 如 果 切 换 正常 ， 则 VCS 配置 成 功 。 


17.6.3 ”案例 二 : 基于 Symantec 公司 的 应 用 容 灾 产 品 VCS@ 


图 17-43 是 两 个 站 点 容 灾 系统 最 基本 的 结构 图 。 主 站 点 是 基于 三 个 节点 Cluster 的 多 个 应 用 ， 


容 灾 站 点 同样 也 配置 成 一 个 三 节点 的 Cluster 系统 ， 它 们 配 了 同等 容量 的 存储 ， 并 具有 数据 容错 
功能 。 


图 17-43 两 个 站 点 的 互 备 群 集 


主 站 点 运行 的 是 Web 服务 、DB2 服务 、SAP 企业 ERP 服务 以 及 邮件 转发 服务 的 关键 业务 ， 
完全 置 于 容 灾 系统 控制 之 下 ， 可 以 看 到 : 


主 站 点 服务 器 A 上 安装 了 Web 服务 程序 和 SAP 应 用 程序 ， 而 且 二 者 皆 在 运行 状态 。 
服务 器 B 上 安装 了 邮件 转发 处 理 程序 ,以 及 SAP 应 用 程序 和 DB2 数据 库 程序 , 但 是 服 
务 器 B 上 的 SAP 和 DB2 程序 平时 都 处 于 停止 状态 ， 只 有 邮件 转发 程序 在 运行 。 


”服务 器 C 上 安装 了 DB2 数据 库 程序 , 并 处 于 运行 状态 , 另外 还 安装 有 Web 服务 程序 和 
邮件 转发 程序 ， 但 是 平时 处 于 停止 状态 。 
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备份 站 点 的 业务 是 FTP 服务 、SMB 文件 共享 的 一 般 业 务 ， 不 做 容 灾 。 备 份 站 点 的 服务 器 A 
上 运行 的 是 FTP 服务 程序 ， 同 时 安装 有 SAP 应 用 程序 ， 但 是 SAP 应 用 程序 处 于 停止 状态 ; 服务 
器 B 上 运行 着 SMB 文件 共享 服务 ， 同 时 安装 有 DB2 数据 库 服务 程序 ， 但 是 DB2 数据 库 服务 程 
序 平时 处 于 停止 状态 ; 服务 器 C 上 安装 有 Web 服务 程序 和 邮件 转发 程序 , 并 且 都 处 于 停止 状态 。 
图 17-43 中 最 长 的 箭头 指示 了 两 个 站 点 数据 同步 的 路 径 ， 即 从 主 站 点 盘 阵 ( 或 者 主 站 点 服 
务 器 的 内 存 ) ， 经 过 前 端 以 太 网 交换 机 ,传送 到 网 关 设 备 ， 然 后 经 过 广域网 到 达 备 份 站 点 的 网 关 
设备 ， 再 通过 前 端 以 太 网 交换 机 传送 到 备份 站 点 服务 器 内 存 ， 最 后 从 内 存 写 入 后 端 磁盘 阵列 。 

主 站 点 服务 器 之 间 的 箭头 ， 表 示 一 旦 某 个 服务 器 ， 或 者 服务 器 上 的 某 个 应 用 发 生 故 障 之 后 ， 
资源 组 的 切换 走向 。 

从 图 17-43 中 可 以 看 到 服务 器 B 和 服务 器 C 形成 了 一 个 互 备 的 系统 ， 即 服务 器 B 是 邮件 转 
发 程序 的 主 节点 , 是 DB2 服务 的 备用 节点 ; 而 服务 器 C 是 DB2 服务 程序 的 主 节点 , 是 邮件 转发 
程序 的 备用 节点 。 

提示 : 因为 主 站 点 的 三 台 服 务 器 之 间 形 成 了 比较 复杂 的 互 备 关系 , 所 以 三 台 服 务 器 必须 能 

识别 到 其 他 两 台 服 务 器 上 挂 载 的 卷 ; 但 是 备用 节点 不 应 当 挂 载 这 些 卷 , 仅 当 对 方 应 用 或 者 

整个 服务 器 故障 的 时 候 ， 才 能 在 备份 节点 上 挂 载 这 些 卷 。 


图 中 央 的 粗 箭头 ， 表 示 一 旦 主 站 点 发 生 了 大 故障 ， 诸 如 整个 机 房 被 损毁 等 ， 那 么 所 有 主 站 点 
的 应 用 ,全 部 切换 到 备份 站 点 ,并 且 备份 站 点 的 节点 挂 载 备用 磁盘 阵列 上 的 所 有 卷 。Veritas 的 Storage 
Foundation 组 件 应 当 安装 到 图 上 的 所 有 服务 器 中 , VVM 模块 用 于 管理 所 有 存储 卷 ,VVR 模块 用 于 
同步 所 有 卷 的 数据 ，VCS 模块 用 于 检测 故障 并 且 切 换 应 用 。 整 个 HA 系统 的 工作 过 程 如 下 。 
(1) 主 站 点 应 用 的 运行 过 程 中 ,所 修改 的 数据 通过 所 有 主 站 点 服务 器 主机 都 安装 的 VVR 软 
件 实时 地 复制 到 备份 站 点 。 
(2 ) 假设 某 时 刻 主 站 点 服务 器 上 的 SAP 应 用 发 生 故 障 ， 比 如 相关 服务 无 法 启动 ， 则 VCS 模 
块 检测 到 这 个 故障 之 后 ， 发 现 相关 资源 组 有 两 个 备用 节点 可 切换 : 主 站 点 的 服务 器 B 
和 备份 站 点 的 服务 器 A, 所 以 它 首先 检测 主 站 点 的 服务 器 B 是 否 可 用 。 如 果 可 用 , 则 发 
送 一 些 信息 通告 服务 器 B 上 的 VCS 模块 ， 准 备 切换 SAP 应 用 到 服务 器 B， 服 务 器 B 确 
认 后 ，VCS 在 服务 器 A 上 首先 卸载 SAP 程序 所 存储 的 对 应 卷 ， 然 后 通告 服务 器 B 卸载 
成 功 , 服务器 B 再 挂 载 这 些 卷 , 并 且 接 管 SAP 服务 所 利用 的 人 P 地 址 , 之 后 启动 SAP 服 
务 。 客 户 端 只 需要 重新 连接 一 下 便 可 。 
(3 ) 某 时 刻 ， 主 站 点 机 房 供电 系统 故障 ， 经 过 相关 人 员 的 检查 ， 恢 复 供 电大 概 需要 5 小 时 。 
而 UPS 系统 在 工作 两 小 时 之 后 因 电量 不 足 而 停止 , 企业 CIO 果断 决定 , 在 UPS 电量 耗 
尽 之 前 , 将 主 站 点 所 有 系统 手动 停机 以 免 因为 突然 断 电 对 硬件 和 软件 带 来 的 损害 。 此 时 
备用 站 点 的 VCS 软件 检测 到 了 这 个 故障 ， 立 即 在 所 有 服务 器 上 挂 载 已 经 经 过 数据 同步 
的 卷 , 然后 启动 所 有 备份 应 用 系统 。 所 有 生产 均 恢复 运行 , 客户 端 经 过 修改 host 文件 或 
者 修改 所 连接 的 人 P 地址 ,恢复 了 与 服务 器 的 连接 ,所 有 生产 继续 运行 。 
(4) 5 小 时 之 后 ， 主 站 点 机 房 供电 恢复 ，UPS 系统 充电 。 企 业 CIO 决定 ， 在 恢复 供电 1 小 
时 之 后 (确保 主 站 点 供电 恢复 正常 ， 以 避免 不 必要 的 动荡 ) ， 切 回 所 有 应 用 到 主 站 点 。 
主 站 点 所 有 系统 开机 , VCS 软件 会 检测 到 当前 的 应 用 已 经 全 部 运行 在 备份 站 点 , 所 以 不 
会 在 主 站 点 服务 器 上 挂 载 卷 并 启动 应 用 。 与 此 同时 备用 站 点 的 VVR 软件 重新 建立 了 与 
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主 站 点 VVR 软件 的 通信 ， 并 互相 交互 数据 ， 备 份 站 点 的 VVR 检测 到 了 主 站 点 相关 卷 
上 的 数据 是 落后 的 ， 因 为 备用 站 点 在 主 站 点 故障 期 间 , 已 经 生产 运行 了 5 小 时 ， 此 间 数 
据 已 经 有 所 变化 。VVR 立即 将 变化 的 数据 复制 到 主 站 点 的 相关 卷 。 重 新 则 步 后 ， 备 用 
站 点 的 VCS 停止 应 用 、 务 载 卷 , 主 站 点 的 VCS 挂 载 卷 , 启动 应 用 , 所 有 状态 恢复 如 初 ， 
客户 端 重新 连接 即 可 连接 到 主 站 点 的 服务 器 上 。 
本 次 故障 造成 的 停机 时 间 很 短 , 没有 对 生产 造成 太 大 影响 , 同时 也 很 好 地 考验 了 这 个 企业 的 
异地 容 灾 系 统 的 功能 。 如 果 没 有 容 灾 系统 ， 这 个 企业 就 要 忍受 长 时 间 停 机 带 来 的 损失 。 


17.7 ”虚拟 容 灾 技 术 


传统 的 生产 工具 容 灾 方 式 下 ， 对 于 服务 器 的 容 灾 ,通常 使 用 配置 相当 的 服务 器 作为 备份 机 。 
但 是 如 果 有 10 台 服务 器 需要 做 容 灾 , 那么 也 要 准备 10 台 物 理 服务 器 作为 备份 机 么 ? 不 见得 。 一 
种 办 法 是 只 使 用 一 台 或 者 几 台 服务 器 , 其 上 安装 与 主 服务 器 相同 的 应 用 程序 , 主 服务 器 有 哪些 应 
用 , 备 服务 器 就 安装 哪些 应 用 , 安装 在 同一 台 或 者 几 台 物理 机 器 上 , 当主 服务 器 发 生 故 障 之 后 ( 存 
储 故 障 、 服 务 器 自身 硬件 故障 等 ) ， 在 备 服务 器 挂 载 主 服务 器 的 LUN 并 且 启 动 应 用 ， 有 几 台 服 
务 器 故障 ， 就 在 备 服务 器 上 启动 对 应 的 应 用 程序 。 这 样 虽然 是 一 种 做 法 ， 但 是 在 服务 器 恢复 的 时 
候 , 需要 重新 安装 操作 系统 重新 部 署 应 用 程序 ,然后 才能 将 备 服务 器 上 运行 的 应 用 程序 切换 到 主 
服务 器 上 ， 这 是 一 个 比较 耗 时 的 过 程 。 

为 了 解决 这 个 问题 ， 虚 拟 容 灾 技 术 出 现 了 。 还 是 这 10 台 服 务 器 ， 如 果 利 用 VMware 提供 的 
P2V 技术 将 整个 服务 器 系统 盘 以 及 数据 盘 做 成 虚拟 机 格式 , 然后 在 一 台 或 者 几 台 备 服务 器 上 使 用 
VMware 根据 生成 的 镜像 来 创建 对 应 的 虚拟 机 ， 并 运行 所 有 的 虚拟 机 ， 在 主 服务 器 端 使 用 一 个 
Agent 程序 将 对 应 应 用 系统 对 底层 的 IO 数据 同步 到 备 服务 器 Guest OS 上 对 应 的 存储 设备 中 ， 这 
样 , 当主 服务 器 故障 时 , 备 服务 器 可 以 直接 启动 应 用 ,接管 服务 。 主 服务 器 恢复 之 后 ,利用 VMware 
提供 的 V2P 技术 ， 将 虚拟 机 对 应 的 映像 转换 成 物理 机 对 应 的 数据 并 将 其 放置 到 对 应 的 LUN 中 ， 
这 样 ， 主 服务 器 就 可 以 直接 启动 操作 系统 并 且 启 动 应 用 程序 了 。 

目前 已 经 有 一 些 厂 商 推出 了 虚拟 容 灾 产 品 ， 比 如 爱 数 备份 存储 柜 v3.5。 


17.8 一体 化 先行 军 一 一 爱 数 一 体 化 备份 存储 柜 


我 们 都 知道 电话 /传真 /复印 /打印 /扫描 一 体 机 ,所 有 人 对 它 的 评价 都 是 “好 用 、 够 用 、 实 惠 ”， 
正如 一 句 广告 词 所 说 的 : “ 花 一 样 的 钱 买 五 样 ! ”如 今 在 存储 领域 ,也 出 现 了 这 样 一 种 一 体 机 ， 
即 存储 、 备 份 、 容 灾 三 合 一 一 体 机 。 好 么 ， 这 存储 领域 的 老 三 样 一 下 子 被 集成 到 一 台 设 备 中 了 ， 
谁 这 么 有 本 事 ? 这 就 是 爱 数 ( EISOO ) 软件 有 限 公司 的 “备份 存储 柜 ”v3.5 产品 。 

说 明 : 2010 年 春 作者 有 幸 参加 了 爱 数 产品 全 国 巡 展 青 岛 站 ， 会 议 中 与 爱 数 的 同行 们 进行 

了 深刻 学 习 探讨 。 感觉 爱 数 是 一 家 朝气 莲 孝 的 公司 , 非常 开放 , 这 就 注定 了 她 会 飞快 发 展 。 

2009 年 下 半年 ， 爱 数 发 布 了 一 体 化 的 备份 设备 ， 备 份 存储 柜 3.0。 没 想到 时 隔 半年 ， 再 次 

看 到 了 备份 存储 柜 升 级 版 本 v3.5, 能 将 备份 、 容 灾 和 存储 集成 到 一 台 柜 子 里 , 这 需要 投入 

很 大 的 研发 精力 ， 爱 数 却 做 到 了 ， 而 且 是 如 此 之 快 。 
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17.8.1 ” 爱 数 备份 存储 柜 3.5 产品 架构 分 析 


我 们 先 来 看 一 下 传统 的 备份 架构 。 如 图 17-44 所 示 ， 传 统 的 备份 系统 中 包含 备份 服务 器 、 
介质 服务 器 ( 备份 介质 可 以 是 磁盘 阵列 或 者 磁带 库 )、 备 份 软件 , 也 可 以 简称 4S 备份 方案 ( Backup 
Server, Operating System, Backup Storage, Backup Software ) 。 


图 17-44 传统 备份 系统 架构 

我 们 可 以 把 备份 服务 器 和 介质 服务 器 的 角色 集成 到 磁盘 阵列 中 ,形成 一 种 带 有 集成 存储 和 备 
份 功能 的 磁盘 阵列 , 这 就 是 爱 数 备份 存储 柜 的 原型 体 。 如 图 17-45 所 示 , 备份 存储 柜 作 为 一 台 一 
体 化 设备 被 插入 了 系统 中 。 它 可 以 作为 支持 NAS、FTP、FC-SAN 和 IP-SAN 访问 协议 的 磁盘 阵 
列 设备 而 存在 ( 相当 于 系统 中 多 了 一 台 磁 盘 阵 列 ) ， 同 时 还 是 一 个 备份 服务 器 ,用 户 服务 器 或 者 
用 户 桌面 电脑 上 的 数据 可 以 直接 被 备份 到 这 台 设 备 中 存放 , 用 户 终端 的 桌面 数据 通过 前 端 以 太 网 
备份 ， 而 用 户 服 务 器 的 数据 则 既 可 以 实现 通过 前 端 以 太 网 备份 ， 也 可 以 实现 通过 后 端 FC 网 络 来 
备份 ( Lan 一 Free/Frontend 一 Free ) 。 备 份 之 后 的 数据 还 可 以 由 这 台 设 备 再 写 到 带 库 中 离线 保存 ， 
也 就 相当 于 D2D2T ( Disk-to-Disk-to-Tape ) 。 


图 17-45 集成 了 备份 服务 器 和 介质 服务 器 模块 的 阵列 柜 

一 体 化 的 备份 设备 就 像 防毒 墙 和 防火 墙 设备 一 样 , 很 快 受 到 用 户 的 欢迎 , 主要 原因 就 是 用 一 
体 化 的 方式 改变 了 传统 备份 系统 的 模式 ， 更 加 简单 方便 。 之 后 ， 这 个 原型 体 开 始 进化 ， 爱 数 将 众 
多 功能 向 其 中 融入 。 首 先 被 融入 的 就 是 容 灾 技 术 。 传 统 备份 和 容 灾 的 一 个 本 质 区 别 就 是 , 传统 备 
份 不 是 实时 备份 ， RPO 和 RTO 均 太 长 ; 而 容 灾 则 是 实时 保护 和 灾难 接管 ， 保 证 业务 连续 性 ， 
RPO 和 RTO 均 显 著 缩 小 。 

在 容 灾 方 面 , 爱 数 选择 了 与 其 他 厂商 不 同 的 路 线 , 巧妙 地 运用 了 虚拟 化 技术 , 即 在 备份 存储 
柜上 集成 VMware Server 版 的 虚拟 机 引擎 ,在 存储 柜上 创建 若干 个 虚拟 机 操作 系统 来 作为 环境 中 
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原先 的 生产 物理 机 的 后 备 服务 器 。 物理 机 上 安装 一 个 数据 实时 复制 代理 , 通过 前 端 以 太 网 来 将 数 
据 实 时 同步 到 备份 存储 柜 中 运行 的 虚拟 机 磁盘 中 存放 ， 当 物理 机 发 生 故 障 之 后 , 虚拟 机 立即 接管 


鬼 理 机 ， 继 续 服务 ， 这 就 使 得 RTO 变 得 非常 短 ， 理 论 上 等 于 虚拟 机 接管 物理 机 IP 地 址 所 耗费 
的 时 间 。 如 图 17-46 所 示 为 融入 容 灾 功 能 之 后 的 备份 存储 柜 架 构 简 图 。 
以 玉 网 交换 机 
至 份 服务 吕 
| Es 
lo ol da 
VMware Server 
虚拟 机 服务 器 磁盘 阵列 磁带 库 
爱 数 备份 存储 柜 V3.5 


图 17-46 融入 虚拟 机 平台 
对 虚拟 机 的 创建 和 管理 可 以 直接 使 用 爱 数 备份 存储 柜 的 配置 界面 , 而 无 须 使 用 VMware 原来 
的 配置 工具 ， 如 图 17-47 所 示 。 


ElsOO 爱 类 


| 

司 六 生 灶 备 价 存 依 杠 | 
二 师 作 要 从 抽 (192168 3 5D Su 上 总 二 ”去 止 阁下 日 悦 记 要 近 抽 也 让 到 科 徊 理 ” 下 鲁 首 理 ” 已 硕 加 9 台 庶 报 机 
了 可 尾 份 贷 复 管理 和 CPU 有 至 内 站 利用 守 基本 


4 OI MH "306 GHD 20% (102 ME1512WB) 已 8 动 
0% 的 MB1256 M8) 已 拉夫 
0% OWB11024 ME) 已 税目 


0% (0 MB/ 256 MB) 
0% (0 MB/ 256 ME) 


图 17-47 虚拟 机 管理 界面 

目前 ， 爱 数 针 对 SQL Server 和 Oracle for Windows/Linux 这 两 种 数据 库 引 入 了 文件 数据 块 级 
(并 不 针对 整个 LUN， 而 是 针对 LUN 中 的 文件 ， 对 文件 进行 增 量 块 级 同步 ， 这 样 会 避免 很 多 不 
必要 的 数据 传输 ,提高 效率 ) 的 可 感知 应 用 层 一 致 性 的 实时 复制 ,相信 随 着 时 间 的 推移 ， 其 他 可 
感知 各 种 应 用 层 一 致 性 的 实时 复制 均 会 实现 。 

然而 , 有 了 单纯 的 数据 实时 复制 还 不 行 , 实时 复制 并 不 能 保证 数据 的 逻辑 一 致 性 , 必须 要 引 
入 Snapshot 或 者 CDP 技术 ,让 备份 后 的 数据 可 回 滴 。 所 以 ， 爱 数 一 步 到 位 地 在 备份 存储 柜 中 引 
入 了 CDP 技术 。 对 相关 文件 的 写 IO 对 应 的 数据 被 从 物理 机 同步 到 虚拟 机 中 的 虚拟 磁盘 ( 对 应 
存储 柜 中 的 某 个 LUN ) 的 时 候 ， 运 行 在 虚拟 机 上 的 代理 程序 ( 用 于 接收 物理 机 发 送 过 来 的 数据 
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以 及 插入 文件 系统 驱动 层 来 分 流 IO ) 会 同时 将 其 复制 一 份 到 CDP 日 志 卷 中 保存 ( CDP 日 志 卷 
介质 服务 器 模块 所 管理 ) 。 

提示 : 但 是 爱 数 使 用 的 这 种 CDP 方式 与 本 书 其 他 章节 中 介绍 的 可 实时 挂 载 的 CDP 有 所 不 

同 , 这 种 CDP 属于 一 种 全 局 日 志 链 ( 见 本 书 对 应 章节 ) 的 模式 ， 全 局 日 志 链 极 大 地 降低 

了 CDP 的 处 理 难 度 ， 提 高 了 效率 。 但 是 随 之 而 来 的 也 需要 耗费 额外 的 存储 空间 ， 而 且 日 

志 链 中 的 每 一 条 操作 不 但 需要 记录 当前 被 写 人 的 数据 , 同时 也 需要 记录 对 应 的 文件 块 被 覆 

盖 之 前 的 内 容 ,而 这 些 记 录 中 会 有 很 多 的 宛 余 数据 ,基本 上 是 元 余 了 一 半 ,， 所 以 日 志 链 也 

将 是 很 庞大 的 。 ( 本 书 其 他 章节 所 介绍 的 非 全 局 日 志 链 CDP 模型 没有 这 种 问题 ， 请 读者 

自行 思考 。) 


这 样 处 理 之 后 ,备份 存储 柜 中 不 但 保存 了 一 份 最 新 的 与 物理 机 源 卷 内 容 同 步 的 可 随时 访问 的 
虚拟 机 卷 , 同时 也 保存 了 所 有 针对 这 个 卷 的 内 容 更 改 , 一 旦 物理 机 发 生 灾难 的 时 候 , 虚拟 机 直接 
就 可 以 接管 并 直接 读 写 虚拟 机 卷 。 如 果 一 旦 遇 到 数据 不 一 致 的 情况 ， 那 么 就 需要 利用 CDP 来 回 
漳 到 之 前 革 个 时 间 点 了 。 

具体 的 回溯 方法 是 : 系统 将 用 户 给 定 的 时 间 点 在 CDP 日 志 链 中 作 匹 配 ， 找 到 对 应 时 间 点 的 
位 置 , 然后 开始 Undo ( 注意 , 是 Undo ) 从 日 志 链 尾部 到 这 个 时 间 点 之 间 的 所 有 变更 , 将 其 全 部 
回 退 ， 对 应 的 回 退 动作 反映 在 虚拟 机 卷 中 。 回 退 完成 之 后 ， 虚 拟 机 挂 载 这 个 卷 , 应 用 启动 , 之 后 
应 用 程序 针对 虚拟 机 卷 中 对 应 的 文件 所 作 的 更 改 ， 也 被 追加 记录 到 CDP 日 志 卷 对 应 的 日 志 链 尾 
部 ( 称 为 虚拟 机 卷 附 加 CDP 日 志 链 ) 并 做 好 区 分 标记 。 这 个 附加 CDP 日 志 链 记录 了 虚拟 机 接管 
之 后 所 有 针对 对 应 文件 的 更 改 ， 在 数据 反 向 同步 到 物理 机 时 需要 用 到 。 

同时 ， 发 生 故障 的 物理 机 在 故障 修复 之 后 ， 需 要 将 数据 反 向 同步 到 ( 通过 前 端 以 太 网 ,由 安 
装 在 物理 机 和 虚拟 机 上 的 代理 程序 执行 ) 物理 机 的 LUN 中 , 此 时 ,系统 根据 虚拟 机 卷 实际 数 据 、 
源 卷 CDP 日 志 链 和 虚拟 机 卷 附 加 CDP 日 志 链 这 三 者 , 来 把 虚拟 机 卷 当 前 的 实际 内 容 全 部 (通过 
读 取 虚 拟 机 卷 中 相关 的 文件 块 以 及 Replay 两 个 CDP 日 志 链 ) 复制 到 物理 机 对 应 的 LUN 中 。( 注 
意 ， 爱 数 所 实现 的 CDP 为 文件 级 CDP, 日 志 链 也 只 是 针对 对 应 的 文件 ,复制 的 也 都 是 对 应 数据 
库 的 文件 数据 ， 如 果 源 LUN 中 有 其 他 非 相 关 文件 ， 则 不 受 保护 。) 

爱 数 技术 : 在 这 里 ， 爱 数 引 入 了 又 一 项 独 有 技术 ， 即 增 量 反 向 同步 。 我 们 知道 ， 物 理 机 可 

能 发 生 的 故障 多 种 多 样 ， 比 如 主板 损坏 等 。 这 种 故障 物理 机 原来 LUN 中 的 数据 是 没有 影 

响 的 (也 有 的 时 候 意外 宕 机 可 能 引起 数据 损毁 ) ,那么 此 时 物理 机 卷 中 的 数据 与 容 灾 端 的 

数据 大 部 分 还 是 相同 的 , 虽然 容 灾 端 接管 后 可 能 已 经 经 过 回溯 过 程 , 甚 至 已 经 被 应 用 程序 

写 人 了 新 数据 。 在 这 种 情况 下 ， 如 果 将 容 灾 端 的 整个 LUN 或 者 文件 都 反 向 同步 回 物理 机 

上 ,就 是 没有 必要 的 了 。 爱 数 的 做 法 是 , 对 物理 机 尚 存 的 源 数据 以 及 虚拟 机 所 对 应 的 最 新 

数据 影像 分 别 计算 Hash 值 指纹 ,通过 比 对 指纹 ， 找 到 指纹 不 同 的 文件 块 ， 然 后 只 将 这 些 

块 同步 回 物理 机 。 


17.8.2” 爱 数 备份 存储 柜 v3.5 独特 技术 


除了 上 面 所 述 的 一 些 关键 技术 之 外 ， 爱 数 还 融入 了 一 些 其 他 独特 的 技术 。 我 们 知道 CDP 任 
寺 间 点 恢复 之 后 的 数据 并 不 能 保证 一 致 性 , 所 以 爱 数 在 这 里 做 了 一 些 额外 的 工作 来 保证 对 应 数 
库 的 一 致 性 。 


魏 尼 
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爱 数 技术 : 前 涉 式 一 致 性 保证 算法 ( Proactive Consistency ) : 是 指使 用 某 种 API 与 数据 库 
程序 通信 ， 让 其 处 于 一 致 状态 ， 然 后 在 对 应 的 CDP 日 志 链 中 标记 此 时 的 时 间 点 ,恢复 时 
只 要 恢复 到 这 个 时 间 点 ， 就 一 定 是 一 致 的 。 

启发 式 一 致 性 保证 算法 ( Heuristic Consistency ) : 是 指 通过 监测 文件 系统 一 些 特殊 行为 
从 而 判断 数据 库 的 一 致 性 状态 , 然后 在 CDP 日 志 链 中 做 相应 标记 , 从 而 保证 恢复 时 的 一 
致 性 。 

前 涉 式 算法 由 于 需要 定时 地 对 数据 库 发 起 指令 让 其 处 于 一 致 状态 ， 所 以 对 数据 库 有 影响 ; 
而 启发 式 算法 则 一 直 处 于 旁 路 监测 状态 , 不 但 对 应 用 没有 影响 , 而 且 其 实现 的 一 致 性 时 间 
点 粒度 也 比 前 者 要 细 。 爱 数 使 用 启发 式 算法 。 


上 文 曾经 分 析 过 , 全 局 CDP 日 志 链 导 致 数据 占用 大 量 的 额外 空间 而 其 元 余 度 很 高 , 鉴于 此 ， 
爱 数 在 介质 服务 器 模块 上 使 用 了 重复 数据 删除 技术 来 消除 。 


爱 数 技术 : 爱 数 备份 存储 柜 v3.5 中 的 介质 服务 器 模块 所 运行 的 Deduplication 属于 一 种 前 
处 理 式 、 全 局 指纹 库 的 全 局 重复 数据 删除 算法 ， 这 种 算法 对 系统 的 要 求 非常 高 ， 由 此 可 
见 爱 数 的 技术 实力 。 


爱 数 还 提供 了 多 点 灾 备 方案 。 


爱 数 技术 :提供 二 级 级 联 容 灾 ( P2L2R, Production site to Local DR site to Remote DR site ) ， 
以 及 两 地 互 容 、 一 地 多 容 、 多 地 共 容 和 和 链 式 环 容 的 多 点 容 灾 拓扑 。 本 地 可 以 在 执行 完 
Dedup 操作 之 后 , 再 将 CDP 日 志 链 数据 同步 到 其 他 站 点 的 存储 柜 中 , 这 样 就 节约 了 大 量 
网 络 带宽 。 


俗话 说 ， 三 天 不 练 只 能 瞪眼 看 。 对 于 容 灾 ， 如 果 不 进行 演练 ,那么 即便 是 部 署 的 非常 到 位 ， 
灾难 来 临时 也 一 样 会 手忙脚乱 , 天 灾 人 祸 一 起 来 , 业务 恐怕 就 要 中 断 很 入 了 。 而 传统 灾 备 架构 中 ， 
要 想来 一 次 演练 , 那 可 谓 是 兴 师 动 众 ， 人 心性 尾 。 但 是 有 了 虚拟 容 灾 之 后 ,事情 就 变 很 大 了 。 爱 
数 提供 了 两 种 容 灾 演练 模式 。 

爱 数 技术 : 虚拟 容 灾 的 最 大 好 处 就 是 容 灾 端 随时 可 用 ,并 且 可 写 ( 变化 的 数据 有 相应 的 

CDP 日 志 链 记录 ， 可 以 回 退 ) 。 正 因 如 此 ， 用 户 可 以 随时 找 一 台 客 户 端 直接 连接 容 灾 端 

的 虚拟 机 ， 如 果 能 连 上 而 且 做 几 笔 业务 发 现 没有 问题 ,那么 就 证 明 容 灾 端 至 少 在 网 络 之 

下 的 所 有 层面 都 是 运行 正常 的 。 整 个 过 程 对 物理 生产 机 没有 任何 影响 ， 而 且 所 做 的 更 改 

还 可 以 回 退 。 这 就 是 爱 数 所 提供 的 模拟 演习 ， 可 以 定期 执行 。 

同时 ， 实 战 演习 爱 数 推荐 一 年 进行 一 次 。 届 时 容 灾 端 完全 接管 生产 端 ， 待 回 切 时 ， 系 统 

将 容 灾 端 所 做 的 变化 同步 回 物理 生产 端 。 

值得 一 提 的 是 , 爱 数 的 GUI 做 的 非常 好 ,所 有 对 备份 存储 柜 的 配置 均 使 用 All-In-One-Web 
管理 界面 ， 通 过 浏览 器 即 可 登录 管理 ， 如 图 17-48 所 示 。 
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17-48 All-In-0ne-Web 管理 界面 


说 明 : 经 过 上 述 对 爱 数 备份 存储 柜 v3.5 的 架构 和 功能 分 析 ， 你 是 否 也 会 和 作者 有 同感 
呢 ? 还 有 很 多 细节 的 功能 作者 没有 进一步 研究 。 据 作者 所 知 ， 爱 数目 前 有 三 大 产品 线 ， 
第 一 是 备份 软件 ; 第 二 就 是 备份 存储 柜 3.5; 第 三 则 是 云 备份 平台 。 虽 然 “ 云 ”目前 基 
本 上 还 处 于 各 家 自行 忽悠 的 状态 , 但 是 爱 数 能 有 如 此 的 精力 和 实力 来 涉足 云 领域 ,可见 
爱 数 的 技术 水 平 以 及 鸿 秽 壮志 。 可 能 由 于 孤 陋 寡 闻 ,反正 笔者 看 到 爱 数 能 够 将 如 此 多 而 
强悍 的 功能 做 到 一 起 时 ， 佩 服 之 余 也 感到 欣慰 ， 国 产 存储 终 将 会 辉煌 ! 


17.8.3 ”国产 存储 的 方向 


我 们 目前 尚 不 可 能 造 出 像 西方 EMC Symmetrix、HDS USP 那样 的 大 型 高 性 能 存储 硬件 产品 ， 
但 是 我 们 的 智慧 从 来 就 没有 输 给 过 西方 ,古往今来 ， 一 向 如 此 。《 孙 子 兵 法 》、《 本 草 纲目 》、 
《伤寒 杂 病 论 》， 哪 一 本 都 彰显 了 中 国人 对 自然 和 对 人 文 方面 的 智慧 。 但 是 由 于 长 期 封建 统治 使 
得 我 们 的 智慧 和 科技 受到 了 严重 的 禁 钢 。 而 如 今 新 中 国 建国 已 经 60 年 了 ， 改 革 开 放 也 已 30 年 ， 
科技 文化 等 全 面 打破 禁 钢 ， 飞 速 发 展 ， 我 们 应 用 智慧 的 时 候 也 到 了 ! 

在 计算 机 领域 ,最 能 体现 智慧 的 地 方 就 是 软件 。 和 西方 人 拼 拳头 , 我 们 没有 胜算 ; 但 是 和 他 
们 拼 脑袋 ， 我 们 很 有 信心 。 存 储 硬 件 的 性 能 再 强 ， 它 也 只 不 过 是 几 个 铁皮 壳 ， 输 出 为 一 堆 LUN 
而 已 ， 而 目前 人 们 的 需求 越 来 越 高 ， 仅 仅 是 提供 高 性 能 的 LUN 已 经 根本 无 法 满足 日 益 多 样 的 需 
求 , 所 以 存储 厂商 近 几 年 来 正在 向 上 层 高 附加 值 的 软件 方面 投入 大 量 精力 ; 而 对 于 硬件 , 也 不 再 
盲目 追求 专用 高 性 能 平台 , 而 相继 转向 了 开放 的 x86 集群 以 降低 成 本 , 利用 软件 和 集群 的 优势 来 
弥补 x86 单 节点 性 能 不 足 的 问题 。 这 些 都 显示 出 软件 方向 已 经 成 为 全 球 存储 行业 的 主导 方向 。 

2008 年 左右 存储 行业 两 大 巨头 EMC 和 IBM 都 各 自 退 出 了 自己 的 集群 存储 系统 ， 这 个 事件 
将 会 是 存储 行业 的 里 程 碑 ， 它 宣布 了 从 那 一 时 刻 起 , 软件 从 此 上 升 到 了 主要 地 位 。 而 这 种 方向 的 
变化 ， 就 为 我 国 的 存储 行业 发 展 创造 了 不 可 错过 的 机 会 。 软 件 方面 , 我 国 的 研发 人 员 水 平 不 亚 于 
印度 人 (国外 存储 厂商 的 研发 人 员 有 很 大 一 部 分 都 是 印度 人 ) ,而 且 最 重要 的 一 点 , 我 们 更 加 勤 
劳 。 所 以 , 我 们 一 定 要 抓 住 这 种 良机 ,迅速 以 软件 解决 方案 占领 存储 市 场 。 我 们 可 以 让 我 们 的 智 
慧 凌 驾 于 这 些 铁皮 壳 子 之 上 ， 运 筹 肉 岂 ， 扬 长 避 短 。 

爱 数 就 是 典型 的 以 智 取胜 的 例子 , 备份 存储 柜 体现 了 中 国人 独特 的 智慧 。 通 过 软件 和 硬件 的 
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整合 ， 爱 数 创新 地 打破 了 备份 、 容 灾 和 存储 的 沟 移 ， 创 造 了 一 台 集 存 储 、 备 份 和 容 灾 于 一 体 的 灾 
备 设备 ， 而 且 功能 强大 、 实 用 又 实惠 ， 完 全 体现 了 国内 用 户 的 需求 和 接受 能 力 ， 具 有 鲜明 的 中 国 
特色 。 不 仅 如 此 ， 爱 数 备份 存储 柜 的 All-In-One-Web 界面 做 的 非常 人 性 化 ， 而 且 非 常 美观 ， 
这 正 是 国内 其 他 存储 软件 厂商 所 欠缺 的 地 方 , 这 一 点 爱 数 可 谓 是 用 心 良 苦 , 中 国人 一 般 都 爱面子 ， 
而 爱 数 在 界面 上 也 给 足 了 面子 。 

在 不 久 前 的 全 球 气候 大 会 上 , 中 国 向 所 有 人 承诺 了 节能 减 排 的 目标 。 而 爱 数 的 一 体 化 产品 也 
体现 了 绿色 节能 ， 与 传统 的 解决 方案 一 堆 设备 相 比 ， 一 体 化 设备 的 节能 与 低 成 本 显而易见 。 

爱 数 的 创新 是 一 种 突破 , 也 是 一 种 趋势 , 顺应 了 第 三 代 存 储 的 发 展 方向 , 统一 存储 和 应 用 存 
储 的 趋势 正 是 包括 DataDomain、NetApp 等 新 兴 存 储 厂商 的 发 力 点 。 

挑战 国外 的 传统 , 既 需 要 技术 实力 的 突破 , 也 需要 应 用 和 模式 突破 , 包括 备份 设备 和 容 灾 设 
备 在 内 的 应 用 存储 应 该 说 是 国内 存储 发 展 的 一 个 重要 方向 。 


17.9 Infortrend RR 远程 复制 技术 
Infortrend 的 RR (Remote Replication ) 技术 支持 双向 及 多 站 点 复制 ， 支 持 同步 复制 、 异 步 


复制 ， 提 供 三 种 模式 : 
"Volume Copy 模式 可 以 让 用 户 一 次 性 将 某 个 逻辑 卷 复制 到 远程 使 用 ,不 提供 后 续 的 周期 


性 数据 同步 。 
”Async Volume Mirror 采 用 异步 快照 滚动 同步 方式 ， 周 期 性 地 将 本 地 数据 变化 同步 到 远 
程 。 


a Sync Volume Miror 则 是 标准 的 同步 数据 复制 。 

如 图 17-49 所 示 为 Infortrend Replication Manager 配置 界面 。 可 以 看 到 常用 的 动作 入 口 ， 比 
如 创建 /编辑 /删除 复制 关系 、 网 络 状况 测试 工具 、 复 制 暂停 /继续 、 同 步 /异步 开始 、 断 开 复制 关 
系 、 映 射 复制 的 逻辑 卷 、 目 标 逻 辑 卷 自动 映射 、 切 换 复制 关系 。 


Replication Manager x 
ee = MC 

Replication Pairs: Functions: 

Name Tpe Jpnonty | Auowap |Proaress |Siaws |Descnpuon | nomaton 

Remote Aene Wiror |volume Meror |uoma |- Cempeea 他 NeworDapnostcTool 


EY Create ReplcatonPal 
© DaleteReplcaionPair 
总 EdtRenicaton Pair 
22use/ Resume 


到 Tarcetvolume Auto Napping 
咏 Svith 


[| 
图 17-49 Infortrend Replication Manager 界面 
提 一 下 比较 有 特色 的 两 个 地 方 。 一 个 是 提供 网 络 状况 测试 工具 , 可 以 让 用 户 一 目 了 然 的 了 解 
当前 复制 网 络 通路 的 带宽 、 时 延 、 接 收 和 发 送 的 数据 量 等 信息 ， 以 便 灵活 控制 数据 复制 参数 。 如 
图 17-50 所 示 。 


第 17 章 “时 公 移 山 一 一 大 话 数据 容 灾 @ 
Network Diagnostic 2% 


Diagnostic Result 
The following result shows the andwidih of all channels from Ihe source devic 


SourceDevice: odet DS 3016G.Name ,ID: 80054.IP: 127001 


Taroet Device: «lodet DS 3015R. Name iD:B000D P: 1010101 
Mamborot Diagnostic Packot: 100 
Source Tum frarget connected [Receved [Time Rate wier JLost [Latency 
SowcHo | up SowcHo | ok | 100n00 | sems | 738248k | 
Se | ok | 100n00 | sa52ms | 73850MBs | 
SowWoH1 | Up sawcht | ok | on00 | ae0zns | 72557uas | 
SowcHo | ok | 10n00 | asooms | Tue | 
SoWcH2 | own | — | 本 | | 
sawcha | Dom | — 本 本 | | 下 | 
FF Ao Roreon to seconas) 
Step313 [ee | Reiesh | Cosme |] 


图 17-50 Replication Manager 网 络 状 况 测 试 工具 

另外 ，Infortrend RR 还 提供 了 另外 一 种 使 用 越 来 越 多 的 应 用 场景 的 支持 ， 也 就 是 用 同一 台 
主机 连接 两 台 互 为 镜像 的 存储 系统 ， 要 求 当 一 台 存 储 系 统 宕 机 之 后 ， 另 一 台 存 储 设 备 无 颖 接管， 
拓扑 如 图 17-51 所 示 。 这 不 但 要 求 底层 存储 系统 之 间 要 维持 数据 复制 关系 , 而 且 还 要 求 多 路 径 软 
件 充 分 配合 。 普通 多 路 径 软 件 不 认为 两 台 不 同 的 阵列 上 报 的 逻辑 卷 是 同一 个 , 所 以 发 生 故 障 之 后 
并 不 会 自动 切换 。Infortrend 提供 Target Volume Auto Mapping 功能 ， 启 用 之 后 , 一旦 目标 存储 发 
现 源 存 储 系统 不 可 用 , 会 自动 将 复制 的 目标 卷 映射 给 预先 配置 好 的 主机 , 再 加 上 多 路 径 软 件 的 配 
合 ， 上 层 应 用 可 以 在 很 短 的 停滞 时 间 内 继续 IO 访问 。 


[= 
四 Windows Server 2008 R2 


图 17-51 目标 卷 自 动 映射 


17.10” 飞 康 RecoverTrac 容 灾 管 理 系统 


我 们 来 做 一 回 产品 经 理 , 如 果 让 你 设计 一 个 容 灾 管 理 系统 ,你 会 怎么 设计 ? 先 不 考虑 可 行 性 ， 
就 按照 你 的 理想 来 勾画 。 至 少 我 是 这 么 个 思路 : 首先 这 个 系统 的 主 界面 应 该 是 一 个 可 视 化 的 、 用 
图 形 化 展示 当前 多 个 站 点 的 各 种 状态 以 及 数据 复制 链 路 拓扑 关系 , 以 及 哪 条 链 路 上 正 有 数据 在 被 
复制 、 时 延 多 少 、 实 时 带宽 多 少 。 点 击 每 个 站 点 进入 该 站 点 内 部 视图 , 会 显示 出 该 站 点 内 所 有 系 
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统 ,， 包括 主机 /应 用 系统 、 存 储 、 网 络 的 运行 状态 。 当 发 生 灾难 的 时 候 ， 比 如 某 主机 宕 机 ， 而 且 
一 时 半 会 无 法 上 线 了 , 业务 又 非常 急 , 那么 可 以 考虑 在 本 地 站 点 启用 一 台 虚拟 机 来 暂时 代 蔡 这 台 
主机 , 但 是 这 要 求 之 前 主机 的 所 有 数据 都 必须 在 外 部 存储 系统 中 存储 , 虚拟 机 启用 之 后 , 可 以 挂 
起 这 些 数据 卷 , 继续 运行 应 用 系统 ; 如 果 是 某 站 点 整体 宕 机 或 者 灾难 , 连 容 灾 管理 系统 都 无 法 登 
陆 了 ， 那 么 此 时 必须 在 容 灾 站 点 的 容 灾 管 理 系统 中 强行 在 容 灾 站 点 启动 对 应 的 主机 和 业务 系统 ， 
但 是 要 求 源 站 点 的 数据 必须 在 容 灾 站 点 有 一 份 ， 不 一 定 也 不 指望 是 最 新 的 。 

一 般 产 品 经 理 也 就 像 上 面 这 样 处 理 了 ,但 是 更 加 专业 的 产品 经 理 需 要 将 这 些 需 求 一 层 层 地 细 
化 ， 比 如 怎么 配置 谁 和 谁 是 容 灾 关系 ， 也 就 是 A 主机 宕 了 ， 要 起 哪个 备用 主机 /VM? 依赖 关系 
和 启动 顺序 如 何 ? 演练 如 何 实现 ?物理 到 虚拟 、 虚 拟 到 物理 、 物 理 到 物理 、 虚 拟 到 虚拟 ， 底 层 数 
据 格 式 如 何 转换 ?如 此 复杂 还 是 先 洗 洗 睡 吧 ! 让 我 们 来 看 看 飞 康 的 RecoverTrac 容 灾 管理 软件 是 
如 何 解 决 这 些 问 题 以 及 是 如 何 设 计 展现 的 。 

如 图 17-52 上 图 所 示 为 RecoverTrac 部 署 示意 图 , RecoveTrac 能 够 将 NSS/CDP 系统 所 提供 
的 CDP、 远 程 复制 功能 、 主 机 端 Snapshot Agent 功能 进行 封装 和 自动 化 处 理 ， 然 后 再 与 各 种 应 用 
进行 适 配 , 最 终 展 现 给 用 户 一 个 易 配置 、 易 管理 的 自动 化 容 灾 系统 。 支 持 V2V、P2V、P2P 和 V2P 
容 灾 。 


图 17-52 RecoverTrac 部 署 示意 图 

如 图 17-53 所 示 为 RecoverTrac 主 界面 ， 其 支持 物理 机 、 虚 拟 机 环境 容 灾 , 并 支持 原先 由 物 
理 机 运行 的 系统 ， 容 灾 切 换 到 虚拟 机 运行 , 反之 亦 然 ， 当 然 虚拟 机 到 虚拟 机 容 灾 、 物 理 机 到 物理 
机 容 灾 也 不 在 话 下 了 。 该 界面 采用 最 为 传统 的 左右 分 栏 模 式 设计 ， 左 栏 将 多 种 资源 分 类 ， 包 括 
Host Image 资源 、Cluster Image 资源 、 物 理 机 、Hypervisor 宿主 机 、VMware vCenter 管理 机 、 微 
软 Hyper-V 宿主 机 、 存 储 服务 器 、 站 点 、 事 件 等 。 容 灾 管 理 系统 ， 管 理 的 其 实 是 主机 系统 和 存 
储 系统 ,其 本 质 上 只 做 一 件 事 , 那 就 是 将 主机 系统 在 另 一 个 地 方 启动 , 其 上 的 应 用 程序 环境 毫 无 
变化 ,包括 存储 、 网 络 环境 。 
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图 17-53 RecoverTrac 主 界面 视图 

飞 康 在 理念 上 有 一 点 很 特别 之 处 ， 就 是 将 Host 的 概念 脱离 了 底层 “机 器 ”的 概念 ， 也 就 是 
说 ，Host 不 等 于 机 器 ，Host= 应 用 程序 + 运行 环境 ， 而 运行 环境 = 主机 名 + 操作 系统 + 网 络 配 置 参 
数 + 存储 路 径 ( 盘 符 和 空间 ) ， 此 时 ， 这 个 Host 其 实 可 以 运行 在 物理 机 器 上 , 同样 也 可 以 运行 在 
虚拟 机 上 ， 后 两 者 才 是 机 器 。 所 以 ， 脱 离开 底层 机 器 的 Host， 飞 康 称 之 为 “Host Image”， 而 底 
层 的 物理 硬件 或 者 虚拟 硬件 ， 飞 康 称 之 为 “机 器 ”也 就 是 图 中 的 “Machine”。 

配置 容 灾 系统 ， 首 先 要 把 所 有 资源 识别 出 来 。 这 是 第 一 步 。 如 图 17-54 所 示 ， 首 先 创建 站 
点 ， 包 括 本 地 和 远程 站 点 ， 可 以 创建 多 个 站 点 ， 然 后 在 本 地 站 点 中 将 存储 服务 器 ( 飞 康 NSS 产 
品 ) 、vCenter 管理 机 、 虚 拟 机 宿主 机 都 注册 进来 ,注册 时 需要 输入 IP 地 址 和 认证 用 户 名 密码 等 
信息 ， 因 为 系统 需要 从 这 些 主机 中 获取 虚拟 机 信息 。 每 台 Host 中 还 必须 安装 飞 康 SAN Client 客 


户 端 ， 从 而 与 RecoverTrac 通信 ， 以 便 监控 和 管理 容 灾 过 程 。 
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图 17-54 创建 站 点 、 注 册 虚 拟 机 管理 机 和 宿主 机 、 注 册 存 储 服务 器 
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如 图 17-55 所 示 为 向 系统 中 添加 所 ”EECEETETETEITTE 


有 需要 保护 的 物理 机 或 者 虚拟 机 ， 这 就 nn 


是 为 何 系统 需要 先 把 vCenter 、ESX 
Serve、Hyper-V 宿主 机 预先 注册 和 认证 
好 的 原因 ， 因 为 系统 会 向 这 些 主机 查询 
虚拟 机 列表 ， 从 而 方便 用 户 选择 添加 。 
其 次 ， RecoverTrac 还 支持 整个 集 
群 为 单元 进行 容 灾 切 换 。 所 以 必须 先 创 
建 好 对 应 的 集群 资源 对 象 也 就 是 图 中 的 
Cluster Image。 如 图 17-56~ 图 17-58 所 
示 。 首 先 创建 对 应 的 集群 资源 对 象 ， 然 
后 向 其 中 添加 Host Image， 然 后 关联 该 集群 中 主机 所 使 用 的 存储 系统 ， 
拟 IP 地 址 。 系 统 必须 掌握 上 面 的 信息 ， 因 为 ， 在 做 容 灾 切换 的 时 候 ， 


Souce and Fecovery Machiner 一 一 二 一 一 一 
i 


15.34108 Physical Ma 
Vitual Mach 
Vitual Mach 
Vitual Mach 
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| 


图 17-55 添加 需要 容 灾 保护 的 物理 机 或 者 虚拟 机 
最 后 关联 该 集群 对 应 的 虚 


系统 会 首先 将 所 配置 的 存 


储 系 统 逻辑 卷 的 复制 关系 断 开 并 切换 到 容 灾 站 点 ， 然后 在 容 灾 站 点 的 机 器 上 挂 载 好 这 些 远 辑 郑 ， 


然后 配置 好 所 设置 的 了 P 地 址 ， 最 后 才 会 启动 对 应 的 机 器 。 
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图 17-56 创建 集群 资源 对 象 并 添加 Host Image 
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图 17-57 关联 该 集群 底层 所 使 用 的 存储 逻辑 卷 
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Add | [ED | 233 


如 图 17-59 所 示 ， 配置 完 后 的 集 于 资源 对 


ample Properties 
General a | Deces| IP Adiress Rezouces | Haoy | 


象 的 属性 可 以 随时 更 改 。 用 本 El 


在 主 界面 的 “Machine” 中 ， 定 义 的 则 是 uacnue RE 
真正 的 物理 机 器 或 者 虚拟 机 器 。 物理 机 的 加 电 BakaPaein Ro 
启动 也 是 可 以 由 程序 控制 的 , 早期 对 物理 机 加 Ee 
电 启 动 必须 管理 员 在 机 器 跟前 才能 完成 , 而 如 2 
今 各 种 远程 管理 硬件 和 协议 已 经 非常 完善 , 比 
如 IPMI 协议 +BMC 芯片 共同 配合 ， 可 以 通过 
远程 以 太 网 来 发 送信 号 控制 物理 机 的 开关 机 。 

对 虚拟 机 的 开关 机 就 不 用 说 了 , 更 加 方便 。 能 
对 机 器 开关 自如 , 这 一 点 是 完成 容 灾 自 动 化 的 
前 提 之 一 。 

向 系统 中 注册 物理 机 和 虚拟 机 的 过 程 限 
于 篇 幅 就 不 再 贴图 了 ， 基 本 过 程 类 似 。 值 得 一 提 的 是 ,不 仅 可 以 在 RecoverTrac 中 注册 已 经 存在 
的 虚拟 机 ， 还 可 以 直接 在 界面 中 创建 新 的 虚拟 机 ， 因 为 前 文中 已 经 将 vCenter 管理 机 注册 到 系统 
中 并 认证 了 ， 所 以 RecoverTrac 可 以 利用 接口 直接 创建 新 的 虚拟 机 。 

创建 好 之 后 的 物理 机 或 者 虚拟 机 对 象 的 各 种 属性 可 以 随时 更 改 , 如 图 17-60、 图 17-61 所 示 。 
其 中 ,物理 机 的 Power Control 属性 页 面 中 可 以 选择 各 种 不 同 的 远程 管理 协议 ; Service 页 面 中 可 
以 选择 如 果 该 机 器 是 Windows 操作 系统 ， 其 需要 保护 的 服务 列表 ， 以 便 在 切换 到 备用 机 器 之 后 
重新 按照 配置 规则 启动 这 些 服务 ; SAN Client 是 指 该 机 器 所 连接 的 飞 康 NSS 设备 需要 对 该 主机 
做 好 映射 关系 ， 该 主机 作为 该 NSS 设备 一 个 SAN Client; Device 则 是 指 该 主机 所 连接 的 逻辑 卷 ， 
系统 可 以 自动 发 现 ， 也 可 以 手动 添加 ; Hardware Profile 则 是 用 来 描述 物理 机 关键 IO 设备 ， 比 如 
网 卡 、FC 卡 的 驱动 配置 参数 ， 以 便 系统 参考 导入 备用 机 器 。 


EE 
图 17-59 集群 资源 对 象 属性 
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电源 管理 设置 和 Windows 服务 设置 
， 需 要 创建 容 灾 任 


务 。 如 图 17-62 所 示 ， 首 先 需要 


创建 


一 个 容 灾 任 务 ， 选 择 需要 进行 容 灾 的 Host Image， 然 后 选择 对 应 的 容 灾 端 机 器 ， 以 及 设 定 这 些 
Host Image 之 间 的 启动 顺序 , 图 中 的 Delay Time 便 是 来 控制 各 个 主机 延迟 多 久 启 动 , 以便 保证 被 


依赖 的 应 用 
知道 这 些 逻 辑 的 。 
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先 启动 ， 依 赖 他 人 的 应 用 后 启动 ， 


当然 


这 些 必须 由 人 来 告诉 系统 ， 系 统 自 身 不 会 
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图 17-62 创建 容 灾 任务 和 选择 容 灾 端 机 器 
如 图 17-63 所 示 为 选择 灾 备 端的 磁盘 ， 如 果 本 地 站 点 和 灾 备 站 点 属于 共享 存储 型 的 拓扑 ， 
那么 图 中 就 需要 勾 选 “Same Disk Devices”， 此 时 相当 于 仅仅 可 以 容 灾 主机 宕 机 ; 如 果 本 地 站 点 
和 容 灾 站 点 之 间 采 用 数据 远程 复制 技术 , 那么 切换 到 灾 备 端 运行 之 前 , 存储 系统 就 必须 先 把 复制 
关系 切换 ， 同 时 逻辑 卷 也 是 主 备 关系 ， 此 时 就 需要 选择 使 用 “Replica Disk Devices” 来 作为 灾 备 
端 所 使 用 的 逻辑 卷 。 
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图 17-63 选择 恢复 用 逻辑 卷 和 调整 启动 参数 

容 灾 任务 创建 完毕 之 后 , 便 可 以 在 灾难 发 生 的 时 候 , 运行 对 应 的 任务 ,系统 便 会 按照 之 前 设 
置 好 的 参数 和 恢复 方式 将 宕 机 的 Host Image 重新 在 其 他 的 机 器 上 运行 起 来 。 

大 致 步 又 如 图 17-64 所 示 。 当 开始 执行 某 个 恢复 任务 的 时 候 ，RecoverTrac 会 首先 对 当前 数 
据 卷 做 一 份 快照 , 然后 会 利用 这 份 快照 来 作为 灾 备 端 主机 的 底层 数据 , 为 何不 直接 用 原 卷 上 的 数 
据 ? 因为 此 时 灾难 已 经 发 生 , 原 卷 的 数据 最 好 别 碰 ,， 碰 坏 了 玉石 俱 焚 ,还 是 做 一 份 快照 来 使 用 保 
险 的 多 。 快 照 生成 之 后 ，RecoverTrac 会 将 这 份 快照 挂 起 来 ， 然 后 将 其 改变 成 灾 备 端 主机 硬件 以 
及 OS 能 够 支持 的 格式 , 比如 P2V、V2P、P2P， 如 果 两 台 物 理 机 硬件 规格 、HBA 卡 型 号 也 不 同 ， 
就 可 能 需要 做 一 些 更 改 才 可 以 成 功 挂 起 数据 卷 。 然 后 ，RecoverTrac 会 将 处 理 好 的 快照 映射 给 灾 
备 端 主机 ， 但 是 先 不 启动 灾 备 端 主机 。 下 一 步 ， 如 果 是 计划 内 切换 ，RecoverTrac 会 首先 停 掉 源 
端 业务 主机 ， 然 后 启动 灾 备 端 主 机 ， 主 机 启动 之 后 , 数据 卷 自然 挂 起 ， 业 务 自然 启动 ; 如 果 是 灾 
难 真实 发 生 ， 那 么 系统 会 直接 启动 灾 备 端 主机 。 
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images corresponding to 
production 


Production server 

wi DiskSafe agent 4. RecoverTrac tool requests FalconStor CDP to sd ee A 
5. RecoverTrac tool stops present the TimeView image to the recovery server Re rac 
the production server recovery server 


图 17-64 恢复 流程 

说 明 : 虽说 飞 康 RecoverTrac 的 配置 界面 并 没有 达到 本 人 理想 中 的 容 灾 管理 系统 的 用 户 
体验 效果 , 不 过 其 对 容 灾 的 封装 抽象 ， 比 如 , 将 Host 作为 一 个 资源 ， 其 底层 可 以 对 应 物 
理 机 也 可 以 是 虚拟 机 ， 并 可 以 任意 P2V/V2P/V2V/P2P， 其 概念 是 非常 独特 的 ， 对 容 灾 的 
管理 、 监 控 和 配置 等 方面 可 以 说 非常 强大 ， 有 更 多 的 细节 可 以 去 挖掘 和 使 用 。 在 此 我 也 
希望 飞 康 研发 团队 可 以 将 好 东西 宣传 出 去 ， 界 面 上 的 改进 在 如 今 移动 终端 时 代 并 非 难 
事 ， 欲 行 千里 ， 好 马 须 配 好 鞠 。 

国内 也 有 厂商 开发 的 类 似 容 灾 管 理 系统 ， 但 是 无 论 是 理念 、 技 术 实 现 、 细 节 、 体 验 等 ， 
都 达 不 到 飞 康 RecoverTrac 的 水 平 ， 而 且 有 很 浓重 的 参考 痕迹 ， 不 再 多 表 ， 究 其 原因 ， 
还 是 缺乏 十 年 磨 一 剑 登 峰 造 极 的 执着 ,不 重视 技术 ， 急功近利。 振兴 民族 科技 之 路 ， 谈 
何 容易 ! 


17.11 带宽、 延迟 及 其 影响 


100Mb/s， 这 个 速率 意味 着 什么 呢 ? 有 人 说 , 每 秒 可 以 传输 10MB 的 数据 (8/10b 编码 下 ) 。 
通常 情况 下 ， 这 种 说 法 是 对 的 。 但 是 如 果 发 送 方 与 接收 方 之 间 的 距离 变 得 很 远 , 比如 数 百 公里 其 
至 一 千 公 里 ， 那 么 这 种 说 法 ， 你 会 发 现 根本 不 成 立 。 我 们 现在 就 来 分 析 一 下 。 

大 家 知道 ， 光 或 者 电信 号 的 传输 是 有 固定 速度 的 ， 即 近似 每 秒 30 万 公里 。 ( 光 在 真空 或 者 
空气 中 传播 可 以 达到 30 万 公里 每 秒 , 但 是 在 光缆 中 传播 的 实际 速度 为 20 万 公里 每 秒 , 而 电信 号 
在 电缆 上 的 传播 近似 为 21 万 公里 每 秒 ) 如 果 两 点 之 间距 离 为 1000 公里 ,那么 信号 传 一 个 来 回 ( 传 
到 对 端 ， 然 后 对 端 给 以 ACK 应 答 ) 所 耗费 的 时 间 就 是 1000 = 300000x2=6.6ms。 什 么 概念 呢 ? 
也 就 是 你 想 把 lb 的 数据 传输 到 一 千 公 里 之 外 的 地 方 ， 那 么 至 少 你 要 耗费 6.6ms。 那 么 传输 10b、 
100b、1Kb、100Mb， 需 要 多 长 时 间 呢 ? 首先 想到 的 是 ,至 少 比 传 lb 要 慢 。 到 底 需 要 多 长 时 间 ? 
来 看 这 个 公式 : 传输 来 回 时 间 = ( 数据 量 = 链 路 速率 x2 ) + (传输 距离 = 光速 x2 ) 。 数 据 在 传 
输 的 时 候 , 首先 会 被 通过 编码 电路 将 数据 串 行 化 编码 然后 放 到 电路 或 者 光路 上 传输 , 这 个 编码 速 
率 ， 就 是 链 路 带宽 ，100Mb/s 的 带宽 与 1000Mb/s 的 带宽 ， 区 别 就 在 于 后 者 在 单位 时 间 内 可 以 编 
码 相当 于 前 者 10 倍 量 的 数据 。 但 是 不 管 链 路 带宽 有 多 少 ， 数 据 被 编码 之 后 ， 数 据 在 电路 上 的 传 
输 所 耗费 的 时 间 对 各 种 速率 的 链 路 来 讲 都 是 一 样 的 , 因为 传输 的 时 候 已 经 与 链 路 编码 速率 ( 带宽 ) 
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无 关 了 ， 传 输 到 对 方 之 后 ， 对 方 还 需要 解码 ( 所 以 编码 所 耗费 的 时 间 也 要 乘 以 2 ) ， 同 样 也 是 取 
决 于 链 路 带宽 。 

所 以 ， 当 两 点 之 间 传 输 距离 很 近 的 时 候 ， 比 如 1 千 米 ,那么 传输 时 延 =0.0066ms， 基 本 上 可 
以 忽略 了 。 所 以 那个 公式 变 为 : 传输 时 间 = ( 数据 量 = 链 路 速率 ) 。 所 以 说 ， 链 路 速率 越 大 ， 只 
代表 其 编码 速度 越 快 ， 而 不 代表 传输 速度 越 快 ， 传 输 速度 是 固定 的 ,都 是 光速 。 再 打 个 比方 ， 有 
一 辆 长 途 车 ，50 个 人 排队 上 车 ,排队 上 车 需要 120s， 汽车 行驶 需要 60000s，50 个 人 排队 下 车 需 
要 120s。50 个 人 被 排队 送 上 车 ， 就 好 比 数据 被 串 行 编码 放 到 电路 上 传输 ， 汽 车 行驶 相当 于 电路 
信号 从 一 端 传递 到 另 一 端 ，50 个 人 排队 下 车 ， 就 好 比 对 端的 解码 过 程 了 ， 然 而 到 此 还 没有 结束 ， 
当 汽车 抵达 目的 地 之 后 ， 司 机 必须 在 返回 出 发 点 进行 报信 ， 这 就 好 比 TCP 协议 在 收 到 数据 之 后 
发 送 给 源 端的 ACK 应 答 一 样 。 司 机 可 以 空 着 车 跑 回去 报信 ( 单独 发 送 ACK 应 答 包 ) ， 也 可 以 
在 目的 端 朱 带 着 一 些 回程 客人 返回 去 报信 ( TCP 可 以 在 反 向 流量 中 夹带 ACK 应 答 信息 以 提高 效 
率 ) 。 但 是 在 容 灾 系统 中 , 数据 总 是 从 源 端 流向 目的 端的 , 或 者 在 灾难 回 切 的 时 候 从 目的 端 流 向 
源 端的 ， 总 之 只 有 一 个 方向 有 实体 数据 流动 ， 那 么 此 时 回程 ACK 都 是 独立 的 ACK 应 答 包 ( 独 
立 ACK 包 很 小 所 以 其 编 解 码 所 耗费 的 时 间 也 忽略 掉 即 可 ) 。 

另外 ,一 辆 汽车 能 承载 的 人 数 是 有 限 的 ， 也 就 是 说 ， 得 一 趟 一 趟 地 拉 ， 这 就 好 比 TCP 每 次 
所 发 送 的 最 大 数据 长 度 ， 也 就 是 TCP 的 滑动 窗口 长 度 ，TCP 得 分 批 把 用 户 数 据 传送 出 去 ,每 次 
的 发 送 量 必须 小 于 TCP 滑动 窗口 的 长 度 ,每 次 传输 之 后 均 需 要 对 方 发 送 一 个 ACK ( 这 里 不 考虑 
ACK 合并 等 特殊 情况 ), 每 批 数 据 虽然 到 了 底层 可 能 被 切 分 ,比如 TCP 的 MSS( Max Segment Size ) 
切片 ,一般 等 于 底层 链 路 的 MTU， 底 层 链 路 再 用 MTU 的 值 来 切片 ， 但 是 这 些 底层 的 切片 在 被 
传输 到 对 端 之 后 ， 并 不 需要 对 端 底层 协议 的 应 答 , 只 有 对 端的 TCP 在 完整 的 收 到 TCP 发 送 的 一 
批 数据 之 后 ， 才 会 应 答 。 

那么 我 们 来 算 算 在 相隔 1000 干 米 的 两 点 之 间 ， 每 秒 到 底 能 够 传送 多 少 个 来 回 :1000ms = 
6.6ms=151 个 来 回 。 如 果 按照 TCP 的 典型 滑动 窗口 即 16KB 来 计算 的 话 ( 每 次 发 送 16KB 数据 然 
后 就 等 待 应 答 ， 不 考虑 延迟 应 答 或 者 合并 应 答 等 特殊 情况 ) ， 那 么 每 秒 吞 吐 量 仅 为 151 x 
16KB=2416KB， 也 就 是 2.4MB 每 秒 。 夸 张 么 ? 

当然 , 上述 算式 是 忽略 了 编 解 码 所 耗费 的 时 间 以 及 整个 链 路 上 各 种 中 继 、 转 发 或 者 协议 转换 
设备 所 带 来 的 处 理 延迟 ( 好 比 长 途 车 途中 遇 到 的 各 种 收费 站 、 立 交 桥 等 ) 。 如 果 算 上 这 两 者 ， 则 
吞吐 量 会 更 低 。 更 加 准确 的 实际 数据 传输 吞吐 量 计算 公式 为 V=TCP Window Size -2 (TCP 
Window Size= 链 路 带宽 + 距离 二 光速 + 链 路 设备 处 理 延 迟 ) 。 总 之 ， 距 离 越 远 ， 实 际 传输 吞吐 量 
就 越 低 ， 在 实际 应 用 中 一 定 要 有 底 。 

当 距 离 很 短 时 ， 可 以 忽略 距离 带 来 的 延迟 ， 此 时 显然 谁 带宽 高 谁 传 的 就 快 ; 而 距离 很 长 时 ， 
此 时 带宽 再 高 也 无 济 于 事 ， 因 为 大 头 都 被 距离 给 耗 掉 了 。 另 外 ,即便 是 底层 链 路 的 带宽 相同 ， 距 
离 也 相同 的 情况 下 ,使 用 不 同 的 协议 进行 传输 ， 所 带 来 的 延迟 也 是 不 同 的 。 但 是 设想 一 下 , 不 管 
链 路 跨越 了 多 长 的 距离 , 如 果 这 条 链 路 上 永远 都 有 数据 在 传 着 , 那么 发 送 方 与 接收 方 就 可 以 以 链 
路 带宽 的 原生 速率 来 收发 信息 ， 只 不 过 有 时 延 ， 就 像 卫星 电视 那样 ， 此 时 传输 速率 并 不 会 打折 ， 
如 果 做 到 这 一 点 , 那么 对 于 一 个 容 灾 系 统 来 讲 是 非常 好 的 事情 , 充其量 只 会 丢失 几 毫 秒 之 内 的 数 
据 。 但 是 ， 事 实 却 并 非 如 此 。 超 远 距 离 传输 ， 怕 的 就 是 数据 流 的 卡 过， 卡 一 次 两 次 不 要 紧 ， 频繁 
卡 壳 ， 那 就 根本 无 法 利用 起 链 路 带宽 了 。 这 就 好 比 磁盘 寻 道 操作 一 样 , 本 来 磁头 能 以 很 高 的 速度 
读 写 盘 片 上 的 数据 ， 但 是 没 办 法 ， 必 须 换 道 ， 这 一 换 道 ， 外 部 速率 又 降 。 碰 巧 的 是 ，15K 转 每 秒 
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的 SAS 盘 其 平均 寻 道 时 间 为 5.5ms， 而 一 干 公里 距离 的 传输 时 延 为 6.6ms， 这 两 个 值 倒是 接近 而 
且 还 挺 有 意思 。 

传输 协议 无 法 避免 “ 卡 壳 ”， 因 为 总 要 传 一 段 软 一 段 来 等 待 对 方 咳 个 声 ， 看 看 收 到 没有 。 比 
如 TCP， 这 样 就 平 白 无 故 的 浪费 了 底层 链 路 时 隙 ; 再 加 上 长 距离 下 的 高 传输 延迟 ， 一 来 一 回 更 
浪费 了 大 量 时 间 ， 所 以 会 出 现 上 文中 的 即便 是 干 兆 链 路 下 ，1000 公里 的 距离 每 秒 也 只 能 传输 
2.4MB 的 理论 值 ， 实 际 值 将 会 更 低 了 。 

另外 ,如 果 在 长 距离 下 使 用 诸如 iSCSI 等 协议 的 话 , 那 将 更 是 一 笔 惊 人 的 浪费 .大 家 知道 SCSI 
层 本 身 就 有 传输 保障 机 制 , 人 家 自己 有 ACK 那 一 套 , 而 底层 TCP 再 来 这 一 套 显然 就 显得 多 此 一 
举 了 。 按 理 说 有 了 SCSI 层 的 传输 保障 机 制 ， 其 下 层 协 议 栈 就 应 该 是 个 无 状态 的 类 似 链 路 层 协议 
了 ， 应 该 直接 将 数据 一 股 脑 传 过 去 ， 但 是 现实 是 它 非得 传 一 段 ， 停 一 段 ， 等 待 对 方 说 个 OK， 然 
后 再 传 再 停 ， 慢 慢 腾腾 ; 不 仅 如 此 ， 再 加 上 SCSI 也 要 传 传 停 停 ， 那 就 是 变本加厉 。 所 以 长 距离 
上 跑 诸 如 FCP、iSCSI 等 这 种 SCSI 协议 与 FC/TCPIP 协议 的 合体 协议 ， 将 会 是 个 梦 硒 。 

降低 不 必要 的 ACK 数量 ， 增 加 滑动 窗口 ， 这 些 都 是 广域网 加 速 的 技术 ， 对 传输 速率 会 有 一 
定 程度 的 提高 。 但 是 最 终 解决 办 法 ， 还 是 要 尽量 缩短 两 地 距离 ， 或 者 开发 专用 优化 的 协议 了 。 

说 到 私有 协议 ， 这 里 就 展开 讲 一 下 。 上 述 所 有 场景 ， 均 建立 在 两 点 之 间 只 有 单 TCP 连接 ， 
即 单 流 的 场景 下 ， 此 时 的 链 路 带宽 当然 无 法 被 充分 利用 , 而且 也 提 过 ,如果 底 层 链 路 一 刻 也 不 闲 
着 , 那么 其 有 效 带 宽 就 可 以 更 高 的 被 利用 ,怎么 办 呢 ? 显然, 通过 提高 并 发 连接 的 数量 ,就 可 以 
充分 利用 起 底层 链 路 的 时 阶 。 

提示 : 关于 这 个 思想 ， 在 磁盘 阵列 控制 器 如 何 充分 利用 起 后 端 FCAL 环 路 的 带宽 方面 也 

是 类 似 的 ， 大 家 可 以 阅读 附录 1 中 的 第 5 问 。 

大 家 知道 iSCSI 里 有 个 Multi Connection Per Session 的 概念 ,使 用 Microsof 的 软 iSCSI Initiator 
的 话 , 里 面 就 可 以 进行 设置 , 让 Initiator 端 可 以 同时 与 iSCSI Target 端 建立 多 条 并 发 的 TCP 连接 ， 
从 而 提高 远 距离 传输 时 的 效率 ， 当 然 这 个 特性 需要 iSCSI Target 端的 支持 配合 。 但 是 对 于 FCP 来 
讲 , 就 没有 这 种 特殊 考虑 的 并 发 连接 设计 了 。 经 过 考量 设计 的 可 并 发 连接 的 私有 协议 可 以 极 大 提 
高 远程 数据 传输 的 效率 。 比 如 ， 在 优质 链 路 条 件 下 ， 可 以 降低 TCP 连接 数 并 且 增 加 滑动 窗口 ， 
而 随 着 链 路 质量 的 降低 ， 逐 渐 增 加 TCP 并 发 连接 数 ， 同 时 降低 滑动 窗口 的 大 小 。 

既然 说 到 了 多 流 并 发 , 那么 索性 就 再 展开 一 些 。 对 于 一 个 异步 模式 的 数据 容 灾 复制 系统 , 最 
起 码 要 保证 的 是 灾 备 端 数 据 的 一 致 性 ,而 数据 一 致 性 又 有 多 个 层面 ,最 底层 的 一 致 性 就 是 所 谓 “ 时 
序 一 致 性 ”， 灾 备 端 起 码 要 保证 每 个 IO 都 按照 其 在 源 端 被 执行 的 顺序 刷 入 灾 备 端 数据 集中 。 如 
果 使 用 单 流 TCP/IP 则 可 以 保证 时 序 , 但 是 传输 效率 很 低 ; 但 是 在 多 流 并 发 的 情况 下 ， 因 为 原本 
流 与 流 之 间 是 无 关联 的 ， 可 能 在 源 端 先 执行 的 IO 被 传送 到 对 端 之 后 却 被 后 执行 了 ， 此 时 就 需要 
引入 更 复杂 的 逻辑 来 保证 同步 过 去 的 数据 被 按照 顺序 执行 。 这 里 又 有 两 种 办 法 可 以 考虑 , 一 种 是 
保证 RPO， 在 多 个 流 之 间 维 护 强 一 致 性 ， 将 多 个 流 强制 关联 以 保证 收发 顺序 ， 此 时 灾 备 端 可 以 
立即 将 收 到 的 IO 数据 刷 入 底层 数据 集 ; 第 二 种 则 是 牺牲 RPO, 主 备 站 点 之 间 之 间 采 用 端 到 端的 
一 致 性 组 技术 ,在 数据 批 与 数据 批 之 间 保 证 时 序 性 ， 而 不 是 每 个 IO 之 间 。 此 时 灾 备 端 不 能 在 收 
到 数据 后 立即 刷 入 , 比如 等 待 一 批 数据 全 部 收 到 之 后 才 可 以 刷 入 。 这 么 做 虽然 可 能 导致 丢失 一 批 
数据 而 不 是 几 个 IO ， 但 是 可 以 方便 的 保证 数据 一 致 性 。 
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"数据 前 处 理 
" ”数据 后 处 理 
"阴阳 


存储 相当 于 主机 之 下 的 主机 ， 主 机 要 做 什么 ， 存储 
都 要 做 ,但 是 存储 做 的 ， 主 机 不 一 定做 。 存 储 上 运行 着 
各 种 各 样 的 应 用 程序 ， 这 些 程序 专门 管理 和 处 理 数据 ， 
作者 发 明了 一 个 词 ， 称 其 为 “Data Cooker”"， 个 人 感觉 非 
常 合适 用 来 描述 这 些 程序 ,比如 Snapshot 、Deduplication 、 
Mirror、Clone 、Tiering、Migrating 等 。 这 些 DataCooker 可 
以 在 原本 的 裸 数 据 之 上 实现 更 高 级 的 功能 ， 实现 更 多 的 
附加 值 。 

存储 除了 比 主 机 多 运行 了 一 些 更 为 强大 的 复杂 的 
Data Cooker 之 外 ， 其 他 与 主机 无 异 。 所 以 ， 只 要 有 了 所 
有 Data Cooker 或 者 创造 更 强大 的 Data Cooker， 那 么 就 有 
了 创造 一 台 强 大 存储 的 能 力 。 

相对 于 存储 硬件 来 讲 ， 软 件 更 为 重要 ， 有 些 存 储 其 
至 连 一 些 普通 x86 服务 器 的 硬件 指标 都 达 不 到 ， 但 就 是 
因为 它 有 强大 的 Data Cooker， 可 以 让 它 称霸 一 方 。 如 果 
有 了 更 强大 的 硬件 平台 , 可 以 将 代码 移植 到 新 平台 之 上 
不 过 看 似 目前 不 开放 的 平台 正在 萎缩 ， 大 家 都 在 开放 平 
台 里 给 自己 铺路 ， 比 如 EMC 的 V-MAX， 高 端 存储 也 用 
普通 x86。 
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18.1 数据 存储 和 数据 管理 


存储 系统 有 两 大 部 分 内 容 : 
数据 存储 、 数 据 管理 。 数 据 存储 
部 分 包括 : 存储 控制 器 硬件 、 磁 
盘 、 适 配器 、 网 络 传输 通道 .RAID 
管理 、LUN 管理 等 ， 这 个 部 分 的 
主要 功能 就 是 提供 基本 的 裸 数据 
的 存储 服务 ， 比 如 将 数据 存储 到 
对 应 的 LUN 中 或 者 从 其 中 读 出 。 
数据 管理 部 分 包括 : Tier 、 
Snapshot、Clone 等 数据 处 理 功 能 
模块 ， 更 多 的 数据 管理 功能 模块 
如 图 18-1 所 示 。 

数据 管理 部 分 主要 负责 一 些 Leaf) 
高 层 的 数据 处 理 ， 就 像 社会 需求 
层次 金字 塔 一 样 ， 最 底层 的 需求 图 18-1 数据 存储 和 数据 管理 层次 图 
是 生存 、 温 饱 、 有 衣服 穿 ， 这 一 
层 就 对 应 了 存储 系统 对 数据 的 基本 存储 功能 , 比如 向 一 块 磁盘 中 存储 数据 ; 再 往 上 就 是 更 高 层 的 
需求 ， 比 如 不 仅 要 温饱 ， 还 要 吃 好 , 味道 足 ， 而 且 还 要 物质 丰富 ， 要 啥 有 啥 。 这 就 对 应 了 存储 系 
统 对 数据 存储 的 进化 ， 比 如 将 多 块 硬盘 做 成 RAID 提高 性 能 ， 并 且 划 分 LUN 使 空间 分 配 更 加 灵 
活 , 硬件 配置 越 来 越 强大 ; 然而 人 的 需求 总 是 得 寸 进 尺 而 且 越 来 越 疯 狂 并 且 无 聊 的 ， 吃 还 要 吃 出 
花样 来 ， 吃 出 品位 和 精神 来 ， 吃 完了 还 不 行 ， 还 要 追求 精神 层面 的 享受 ， 比 如， 钱 太 多 了 ， 上 街 
撒 一 把 ， 或 者 装 个 乞丐 乞讨 。 这 就 对 应 了 存储 系统 中 对 数据 的 更 高 级 的 处 理 ，Mirro 、Snapshot 
等 ， 甚 至 一 些 华而不实 的 功能 。 

又 可 以 把 数据 管理 部 分 分 为 对 数据 的 前 处 理 和 后 处 理 两 大 类 别 。 前 处 理 指 的 是 当 数据 还 未 写 
入 磁盘 之 前 就 已 经 对 数据 进行 了 初期 加 工 , 或 者 对 数据 的 存放 空间 做 预先 的 准备 , 之 后 才 写 入 磁 
盘存 放 ， 前 处 理 的 例子 比如 : Post Deduplication 、Thin Provision 等 。 后 处 理 则 指 的 是 当 数据 写 入 
磁盘 之 后 ， 功 能 模块 将 这 些 数据 再 读 出 进行 处 理 ， 之 后 再 写 回 磁盘 。 后 处 理 的 典型 例子 比如 ; 
BackGround Deduplication 、Data Migrating 等 。 有 些 功 能 模块 既 包 含 前 处 理 过 程 ， 又 包含 后 处 理 
过 程 ， 比 如 Snapshot。Snapshot 的 生成 是 一 个 后 处 理 过 程 ， 但 是 一 旦 Snapshot 生成 ， 那 么 每 个 受 
影响 的 IO 也 都 会 经 过 额外 的 前 处 理 过 程 ， 比 如 CoW 过 程 ， 之 后 才 被 写 入 硬盘 ; 再 比如 Mirror 
Mirror 可 以 前 台 同 步 执行 ， 也 可 以 后 台 异 步 执 行 ， 前 者 则 就 属于 前 处 理 ， 而 后 者 就 是 后 处 理 了 。 


18.2 存储 系统 之 虚实 阴阳 论 


太 始 之 初 为 太极 ， 即 先天 地 而 生 者 ， 即 道 ， 即 混沌 无 极 。 无 极 而 至 则 分 化 为 两 极 ， 一 为 阴 ， 
一 为 阳 ， 阴 者 为 浊 为 实质 ， 阳 者 为 清 为 气 为 能 量 。 二 者 本 为 和 合 ， 但 合 久 必 分 ,阴阳 分 化 导致 对 
立 ， 阴 阳 二 者 通过 不 断 簿 加 和 合 ， 量 的 积累 产生 质 的 变化 ， 而 衍生 了 万 物 万 象 ,所 以 万 物 万 象 皆 
表现 为 阴阳 实 虚 表 里 上 下 大 小 等 两 极 化 。 然 而 分 久 必 合 , 两 极 相合 的 过 程 便 衍 生 了 生老病死 沧海 
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桑田 。 两 极 分 分 合 合 ， 万 物 轮回 生生 不 息 。 阴 阳 既 对 立 又 相合 ， 阴 灭 则 阳 毁 ， 阳 毁 则 阴 灭 。 
现在 的 社会 是 虚 进 实 退 , 实 实在 在 的 东西 越 来 越 少 , 越 来 越 没 人 去 做 ,而 虚 的 东西 却 越 来 越 
多 的 人 趋 之 若 登 。 虽 然 表 面 看 来 风光 无 限 ， 但 殊不知 , 虚 是 要 靠 实 来 支撑 的 ， 阳 气 是 要 靠 阴 实 来 
运 化 生发 的 , 不 管 任何 系统 ,如果 系 统 中 的 实质 不 够 ,那么 它 所 能 运 化 出 的 能 量 也 就 有 限 。 如 果 
利用 某 些 算 门 那 道 强制 运 化 ,那么 必定 会 元 气 大 伤 , 阳 气 再 也 不 能 运 化， 此 时 整个 系统 就 表现 为 
一 个 没有 知觉 和 功能 的 实质 ， 这 种 实质 其 本 质 已 亡 ， 这 就 是 所 谓 “ 阳 灭 则 阴 毁 ”。 如 果 系 统 的 实 
质 已 经 亏空 ， 则 阳 气 也 无 法 生化 ， 此 即 为 “ 阴 损 则 阳 损 ”。 所 以 当 整 个 社会 的 阳 脱 胀 到 一 定 程度 
之 后 , 物 极 必 反 , 能 量 将 走向 南 塌 么 灭 沉淀 , 然后 再 逐渐 积累 阴 实 , 然后 阳 再 次 逐渐 被 生发 扩大 。 

对 于 存储 系统 来 讲 , 既然 作为 一 个 系统 , 那么 它 与 世界 中 其 他 系统 都 有 类 似 的 本 质 , 阴阳 和 
合 而 生 ， 同 时 阴阳 对 立 ， 互 引 互 斥 ， 共 同 推动 自身 的 发 展 过 程 。 对 于 存储 系统 ， 实 质 为 阴 ,， 比 如 
控制 器 、 磁 盘 、 线 绕 、 柜 子 等 所 有 硬件 ; 而 软件 为 阳 ， 比 如 操作 系统 以 及 各 种 Data Cooker。 软 
件 与 硬件 之 间 就 是 一 种 阴阳 关系 ,脱离 了 软件 , 硬件 就 是 一 堆 废 铁 ; 而 脱离 了 硬件 ,软件 就 脱离 
了 存在 的 根本 而 灰飞烟灭 。 如 果 硬 件 不 够 强大 ， 那么 软件 运行 的 速度 也 就 不 够 快 。 同样 , 在 软件 
层次 之 内 ， 也 有 阴阳 关系 ， 底 层 软件 为 阴 ， 比 如 设备 驱动 程序 、RAID/LUN 管理 程序 ， 而 上 层 
的 软件 为 阳 ， 比 如 Snapshot、Clone 等 ， 如 果 没有 底层 的 阴 实 的 支撑 ， 上 层 的 这 些 能 量 就 无 法 被 
生化 。 

磁盘 上 只 有 数据 , 不 同 的 存储 系统 ,样子 可 能 一 样 ,磁盘 也 都 可 以 一 样 , 但 是 它们 各 自 的 修 
行 境界 是 不 同 的 ， 有 些 系统 拥有 强大 的 Data Cooker， 而 有 些 系统 则 徘徊 于 基本 的 数据 存储 层面 。 

万 物 只 要 法 于 阴阳 , 就 可 以 保证 运行 顺畅 , 一 旦 与 阴阳 变化 规律 相悖 , 则 就 会 产生 各 种 问题 。 
对 于 存储 系统 也 遵循 这 个 道理 。 比 如 某 系 统 拥有 强大 的 硬件 , 但 是 它 却 没有 强大 的 数据 管理 软件 
模块 ， 只 能 够 提供 基础 的 数据 存储 服务 ,那么 这 样 的 存储 系统 就 很 难 满足 目前 的 业务 需求 ; 如 果 
某 个 存储 系统 拥有 强大 的 数据 管理 功能 , 但 是 它 底层 的 硬件 却 是 捉襟见肘 ,性 能 很 弱 ,， 那么 也 就 
无 法 高 性 能 地 发 挥 出 这 些 高 层 功能 。 

阴 位 于 阳 之 下 , 阴 是 实质 , 阳 是 能 量 。 数 据 存储 为 阴 ,， 数 据 管理 为 阳 。 目 前 的 存储 市 场 更 加 
注重 修炼 阳 ， 而 对 于 阴 的 修炼 已 经 逐渐 弱化 ， 大 部 分 厂商 已 经 将 底层 硬件 架构 转 为 开放 廉价 的 
x86 架构 ， 利 用 集群 化 来 支撑 上 层 对 底层 性 能 的 要 求 。 


18.3 Data Cooker 各 论 


由 于 Snapshot、Clone、Disaster Recovery、Virtualization 、Mirror、CDP 已 经 在 本 书 其 他 章节 
介绍 过 了 ， 所 以 下 面 只 介绍 Thin Provision、Deduplication、Tier、Space Reclaiming 等 。 


18.3.1 Thin Provision/Over Allocation 


Thin Provision 目前 被 广泛 的 翻译 为 “ 瘦 供 ”或 者 “自动 精简 配置 ”， 对 这 两 种 翻 详 笔 者 个 
人 是 不 赞同 的 。 一 是 这 两 种 翻译 根本 无 法 反映 这 种 技术 的 本 质 , 让 人 根本 看 不 懂 ; 二 是 这 两 种 翻 
译 容易 让 人 理解 错误 , 会 误导 别人 。 前 者 直接 按照 字面 翻译 ， 完 全 没有 任何 意义 ， 后 者 则 故 弄 玄 
虚 , 和 弄 了 一 个 让 人 摸 不 着 头脑 的 看 似 “ 专 业 ” 的 词 。 笔 者 认为 Thin Provision 直接 翻译 为 “ 超 供 ” 
最 能 反映 这 种 技术 的 本 质 ， 即 Over Allocation。Over Allocation 的 概念 最 早 是 由 STK 公司 于 1992 
年 提出 的 ， 后 来 DataCore 公司 根据 Over Allocation 的 思想 在 2002 年 提出 了 Thin Provision 的 概 
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念 并 将 其 应 用 于 存储 产品 ， 随 后 3PAR 也 于 同年 在 其 存储 产品 中 应 用 了 Thn Provision。 

所 谓 超 供 ， 还 是 举 个 例子 来 讲 ， 比 如 某 台 存储 系统 只 有 10TB 的 物理 存储 空间 ,现在 有 10 
台 主 机 客户 端 , 每 个 客户 端 各 自 需要 1TB 的 存储 空间 , 所 以 这 10T 空间 只 能 给 这 10 个 客户 端 来 
用 ， 此 时 已 经 没有 剩余 空间 了 。 但 是 在 使 用 过 程 中 却 发 现 ， 这 10 个 客户 端 中 ,不 是 每 个 都 能 很 
快 就 将 自己 的 1TB 空间 用 完 的 ， 这 就 造成 了 空间 闲置 。 有 没有 办 法 把 这 些 闲 置 的 空间 利用 起 来 ， 
但 同时 又 不 能 让 原来 的 10 个 客户 端 感知 到 呢 ? 

从 技术 上 来 讲 , 实现 这 种 善意 的 “欺骗 ”不 成 问题 。 假如 10 个 客户 端 每 个 实际 使 用 了 500GB 
的 室 间 ， 这 样 的 话 ， 整 个 系统 内 还 剩 下 5TB 的 空间 没 被 实际 占用 ， 那 么 此 时 存储 系统 可 以 在 后 
台 悄 悄 地 将 这 5TB 的 空间 再 分 配给 其 他 客户 端 ， 比 如 ， 再 分 别 分 配 1TB 的 空间 给 5 个 客户 端 ， 
现在 所 有 15 个 客户 端 每 个 客户 端 所 看 到 的 额定 空间 都 是 1TB， 但 是 实际 物理 空间 却 只 有 10TB 
而 不 是 15TB。 这 就 是 “ 超 供 ” 的 “ 超 ” 字 所 体现 的 含义 。 

更 进一步 ， 上 面 的 例子 ， 即 使 剩余 了 5TB 未 占用 空间 ， 那 么 既然 存储 系统 可 以 自欺欺人 地 
将 其 分 配给 5 个 客户 端 每 个 1TB， 那 么 为 何不 能 更 加 厚 颜 无 耻 地 分 配给 10 个 、20 个 客户 端 , 每 
个 1TB, 或 者 每 个 10TB 的 空间 呢 ? 本 来 已 经 是 在 骗 ， 骗 1TB 也 是 骗 ，10TB 也 一 样 是 在 骗 。 最 
后 , 干脆 变 成 一 个 彻头彻尾 的 骗子 得 了 ,骗子 的 最 高 境界 就 是 连 自己 都 被 自己 骗 了 。 比 如 ， 本 来 
自己 只 有 10TB 物理 容量 ,但 是 它 却 通告 自己 有 10PB 的 容量 ， 所 有 客户 端的 分 配 空间 ， 将 会 在 
这 10TB 的 整体 物理 空间 中 按 需 分 配 ， 也 就 是 说 ， 分 配给 你 多 少 空间 只 是 虚 的 ， 你 实际 用 多 少 才 
是 实 的 , 才 是 占用 实际 空间 的 。 这 种 做 法 是 基本 常识 ,比如 网 络 硬盘 、 邮 件 服务 商 等 ， 你 申请 一 
个 2GB 的 网 络 硬盘 或 者 邮箱 ， 供 应 商 才 不 会 给 你 预 留 2GB 的 空间 ， 它 只 是 记录 一 下 而 已 ， 当 你 
真 的 塞 入 了 2GB 的 数据 后 ， 你 才 真 正 地 占用 了 供应 商 的 存储 空间 。 

存储 系统 实时 监控 物理 空间 使 用 情况 , 一 旦 所 有 用 户 整体 空间 消耗 达到 临界 值 , 则 需要 马上 
扩大 物理 容量 。 然 而 ， 对 于 空间 使 用 率 的 监控 方面 ， 如 果 存 储 系统 为 NAS 系统 ， 提 供 的 是 一 个 
基于 文件 协议 的 卷 共 享 ， 则 存储 系统 本 身 就 可 以 很 容易 地 监控 存储 空间 的 真实 耗费 情况 ， 因 为 
NAS 系统 是 自己 来 维护 文件 与 物理 空间 对 应 关系 的 。 但 是 如 果 存 储 系统 提供 一 个 基于 Block 协议 
访问 的 空间 ， 比 如 FC 或 者 iSCSI 协议 的 LUN， 则 存储 系统 所 监控 到 的 这 个 LUN 在 物理 磁盘 上 
所 占用 的 空间 使 用 率 很 大 程度 上 是 伪 的 , 存储 系统 监测 到 的 占用 率 永远 大 于 其 实际 占用 率 , 其 原 
因 是 因为 存储 系统 自身 一 般 不 能 感知 到 这 个 LUN 中 的 文件 系统 中 的 实际 文件 所 占用 的 空间 ， 只 
有 客户 端 主机 才能 看 到 ， 如 果 在 使 用 这 个 LUN 的 客户 端 主机 上 曾经 将 数据 塞 满 整个 LUN 但 是 
随后 又 删除 掉 了 ， 那么 存储 系统 所 看 到 的 这 个 LUN 的 使 用 率 永 远 都 是 100%， 而 实际 却 是 0。 但 
是 从 技术 角度 来 讲 ， 存 储 系统 想 要 监控 LUN 之 内 的 实际 数据 使 用 率 也 不 是 什么 难题 ， 只 要 能 够 
感知 其 上 的 文件 系统 逻辑 即 可 探查 到 ， 并 且 已 经 实现 ， 下 一 节 将 会 描述 。 

存储 系统 对 LUN 实际 占用 空间 的 监测 ， 可 以 选择 简单 模式 、 复 杂 模 式 和 完美 模式 。 

在 简单 模式 下 ,系统 将 记录 一 个 High Water Mark, 即 目标 LUN 曾经 接收 到 的 写 IO 所 对 应 的 
LBA 地 址 中 最 长 (最 远 ) 的 那个 , 利用 这 个 HWM 来 判断 目标 LUN 实际 占用 的 空间 。 比 如 , 一 开 
始 存储 系统 创建 了 一 个 大 小 为 1TB 的 LUN, 但 是 由 于 使 用 Thin Provision 模式 , 这 个 LUN 刚 被 创 
建 好 的 时 候 ， 实 际 是 不 占用 存储 系统 物理 硬盘 的 空间 的 ， 系 统 只 是 将 这 个 LUN 做 记录 ,但 是 不 为 
其 分 配 实际 空间 。 当 主机 客户 端 挂 载 这 个 LUN 之 后 进行 写 IO 操作 时 , 假设 第 一 个 IO 就 是 向 这 个 
LUN 的 最 后 一 个 LBA 地 址 中 写 入 数据 ， 那 么 存储 系统 此 时 就 会 判断 这 个 LBA 地 址 ， 并 且 查 看 当 
前 已 经 分 配 的 物理 空间 尽头 的 LBA 地 址 ,如 果 当 前 已 分 配 空间 尽头 LBA 地 址 小 于 当前 写 IO 的 LBA 
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地 址 ， 那 么 存储 系统 就 会 再 分 配 一 段 长 度 为 ( 当前 IO 的 LBA 地 址 ”当前 已 分 配 空间 尽头 LBA 地 
址 ) 的 物理 空间 给 这 个 LUN。 在 这 个 例子 中 ,虽然 主机 只 发 送 了 一 个 写 IO, 但 是 存储 系统 却 需要 
分 配 与 LUN 标 称 大 小 相同 的 物理 空间 ， 这 显然 是 不 合算 的 ， 但 是 也 是 最 高 效 的 。 

复杂 模式 下 ， 系 统 可 以 识别 简单 模式 所 不 能 识别 到 的 信息 ， 要 识别 出 当前 LUN 真正 需要 的 
物理 空间 ， 就 需要 记录 更 多 的 信息 ， 比 如 LUN 中 哪些 地 址 被 写 过 ， 哪 些 尚未 被 写 过 ， 而 记录 这 
种 信息 的 最 高 效 做 法 就 是 利用 Bitmnap。Bitmap 中 每 个 比特 可 以 表示 一 个 Block, 或 者 一 个 LBA， 
但 是 限于 效率 方面 考虑 ， 每 个 比特 表示 一 个 Block ( 或 称 Page， 比 如 4KB、16KB 大 小 ) 是 比较 
划算 的 。 利 用 这 个 Bitmap， 不 但 可 以 随时 监测 对 应 的 LUN 中 哪些 Block 实际 被 占用 ， 而 且 还 能 
统计 出 实际 占用 的 比例 以 便 在 将 要 达到 物理 空间 极限 时 发 出 通知 。 有 了 这 个 Bitmap, 系统 就 可 以 
针对 每 个 写 IO 都 来 参考 这 个 Bitmap, 如 果 当 前 写 IO 的 目标 地 址 对 应 的 比特 为 1, 则 表示 已 分 配 
其 物理 空间 , 则 这 个 写 IO 直接 写 向 对 应 的 物理 空间 ; 而 如 果 对 应 的 比特 为 0, 则 表示 对 应 的 Block 
尚未 被 分 配 ， 那么 系统 就 会 先 分 配 物 理 空间 给 这 个 LUN， 更 新 LUN 的 Metadata， 然 后 将 数据 写 
入 对 应 的 Block。 这 样 做 虽然 效率 低 ， 但 是 能 够 节省 更 多 空间 。 然 而 ， 就 像 上 文中 所 述 的 ， 如 果 
主机 客户 端 确 实 曾经 对 这 个 LUN 中 的 每 个 地 址 都 写 过 数据 , 那么 此 时 存储 系统 就 会 分 配 与 LUN 
标 称 空间 相同 大 小 的 物理 空间 。 但 是 此 时 这 个 LUN 内 的 所 有 数据 可 能 都 是 “尸体 ”, 即 这 个 LUN 
之 上 还 有 一 层 逻 辑 在 做 映射 ,也 就 是 文件 系统 ( 或 者 其 他 程序 自身 管理 的 数据 映射 机 制 ) 。 纵 使 
文件 系统 将 这 个 LUN 中 的 所 有 数据 都 删除 了 ， 那 么 此 时 对 于 存储 系统 来 说 ， 它 根本 无 法 感知 到 
文件 逻辑 , 所 以 此 时 这 些 被 删除 的 文件 依然 是 占用 物理 空间 的 。 解决 这 个 问题 的 办 法 将 在 下 一 节 
描述 ， 也 就 是 所 谓 完 美 模式 。 

Thin Provision 的 底层 技术 实现 方式 其 实 并 不 复杂 。 大 家 都 知道 ， 不 管 是 在 Windows 还 是 
Linux 操作 系统 下 ，NTFS 或 者 EXT3 文件 系统 ， 都 支持 Sparse File， 文 件 系统 为 每 个 Sparse File 
都 保存 了 一 张 Bitmap, 而 这 个 Bitmap 的 作用 正如 上 文中 所 述 ( 关于 Sparse File 的 更 多 介绍 请 参考 
本 书 其 他 章节 ) 。 所 以 ， 如 果 某 存储 系统 直接 使 用 文件 系统 来 作为 LUN 的 管理 平台 ， 那 么 它 完 
全 可 以 把 LUN 设置 为 一 个 Sparse File。 但 是 由 于 Sparse File 并 不 支持 超 供 ， 比 如 物理 空间 只 有 
100GB， 那 么 就 只 能 创建 100GB 大 小 的 文件 ，Sparse 的 作用 只 是 在 向 文件 写 入 大 量 的 0x00 时 不 
会 向 磁盘 写 入 这 些 0, 而 且 随 后 的 读 出 过 程 也 不 会 产生 原本 应 该 发 生 的 实际 磁盘 IO, 而 只 是 在 内 
存 中 生成 这 些 0。 所 以 ， 要 实现 超 供 ， 必 须 对 Sparse File 功能 加 以 增 减 。 

而 一 些 存储 系统 并 不 使 用 文件 系统 来 管理 LUN 分 布 ， 那 么 这 些 存储 系统 就 比较 难受 了 。 举 
例 来 讲 ， 我 们 先 来 看 看 如 果 使 用 横向 条 带 化 方式 来 分 布 LUN 的 情况 下 (最 传统 的 方式 ) 系统 是 
怎么 实现 Thin Provision 的 。 显 然 ， 第 一 个 能 够 想到 的 方法 就 是 以 一 个 或 者 若干 个 连续 条 带 为 单 
位 来 进行 动态 扩充 ， 比 如 某 时 刻 用 户 下 发 了 针对 某 地 址 的 IO ， 系 统 便 会 在 RAID 组 中 某 处 分 配 
一 个 或 者 几 个 连续 的 条 带 ， 随 后 每 次 IO 都 如 此 ,并且 维护 一 个 逻辑 地 址 到 物理 地 址 的 映射 表 。 
一 开始 系统 尽量 保证 物理 地 址 与 逻辑 地 址 是 一 一 对 应 的 , 就 是 说 逻辑 上 连续 的 地 址 在 RAID 组 的 
物理 地 址 也 被 连续 存放 。 但 是 随 着 RAID 组 中 LUN 数量 的 增多 ， 由 于 是 Thin Provision， 其 他 
LUN 的 空间 可 能 随时 会 挤占 某 个 LUN 的 物理 空间 缝隙 , 这 样 下 去 之 后 , 整个 RAID 组 中 的 多 个 
LUN 之 间 的 条 带 可 能 就 变 成 一 种 错乱 排 布 的 情况 ， 这 样 直接 导致 了 逻辑 连续 的 条 带 在 物理 上 却 
不 连续 ， 在 大 块 连续 IO 情况 下 却 表现 为 随机 IO 的 效率 低下 。 

Thin Provision 杜绝 了 浪费 而 避免 了 额外 开销 , 降低 了 成 本 。 而 且 ， 实现 Thin Provision 不 需要 
多 少 配置 过 程 ， 用 户 只 需要 在 创建 LUN 的 时 候 加 一 个 标记 即 可 ， 其 他 都 是 系统 后 台 自 动 完成 的 。 
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注意 : 但 是 使 用 Thin Provision 时 必须 严格 注意 的 是 : 随时 监控 目标 LUN 的 实际 占用 空间 
和 系统 剩余 的 物理 空间 ， 当 达到 阔 值 时 ， 一 定 要 扩充 物理 空间 。 和 否则 一 旦 发 生 数据 游 出 ， 
主机 端 报 出 的 错误 将 是 类 似 “ 某 某 肩 区 写 人 失败 ”的 底层 严重 错误 ， 而 不 是 类 似 “磁盘 已 
满 ， 清除 垃圾 后 再 处 理 ” 之 类 的 上 层 错误 ,可 能 将 会 导致 一 系列 更 加 严重 的 连锁 反应 ， 影 
响 主机 端的 运行 。 


1. Thin Provision 对 性 能 的 影响 


Thin Provision 会 产生 一 定 的 性 能 影响 。 有 人 可 能 产生 这 个 疑问 : “本 来 500GB 的 需求 ， 你 
只 给 50GB 的 空间 ,相当 于 50GB 的 空间 承载 了 10 倍 的 IO 请求， 性 能 会 成 问题 。” 这 个 结论 是 
在 某 论坛 某 网 友 提出 的 ,笔者 第 一 次 看 到 时 真 的 有 点 觉得 被 嘻 了 一 下 。Thin 确实 对 性 能 有 影响 ， 
但 是 这 个 结论 就 属于 完全 的 廖 论 了 。 假 设 不 使 用 Thin, 创建 一 个 500GB 的 LUN， 就 给 他 预 贸 
500GB 的 物理 空间 ， 那 么 此 时 ， 这 个 LUN 所 接受 的 IO 目标 地 址 如 果 都 落 在 50GB 的 地 址 范围 
之 内 ， 那 么 按照 上 面 的 结论 ， 岂 不 是 依然 是 “使 用 50GB 的 空间 承载 10 倍 的 IO” 么 ? 所 以 说 这 
个 结论 着 实 有 些 荒 廖 。 

那么 Thin 对 性 能 的 影响 到 底 体现 在 哪些 方面 呢 ? 主要 是 两 个 方面 : 耗费 额外 CPU 周期 、 物 
理 空间 碎片 。 

开启 Thin 模式 之 后 ,针对 LUN 的 每 个 IO 都 需要 耗费 额外 的 处 理 流程 。 比 如 ,还 是 上 面 的 
例子 ,50GB 物理 空间 ， 当 这 个 LUN 接收 到 一 个 超过 50GB 地 址 范围 的 IO 时 , 比如 是 读 IO, 那 
么 Thin 引擎 就 会 先 查询 IO 的 目标 地 址 是 否 已 分 配 了 物理 空间 。 本 例 中 尚未 分 配 ， 所 以 Thin 引 
擎 会 向 上 层 返 回 全 0x00， 因 为 目标 地 址 尚未 分 配 物 理 空间 ， 证 明 它 尚未 被 写 过 ， 那 么 对 应 地 址 
上 的 内 容 当 然 就 应 该 都 是 0x00 了 ; 如 果 是 写 IO， 那 么 Thin 引擎 也 需要 判断 目标 地 址 是 否 已 经 
被 分 配 了 空间 ， 如 果 已 经 分 配 ， 则 直接 将 这 个 写 IO 导向 对 应 的 物理 空间 地 址 ， 如 果 尚 未 分 配 ， 
那么 Thin 引擎 还 需要 在 整个 物理 空间 内 查找 剩余 的 空间 ， 而 且 还 需要 尽量 保持 与 已 经 分 配 的 空 
间 在 物理 上 连续 。 这 一 系列 的 判断 和 处 理 ， 加 上 还 需要 同时 维护 一 些 元 数据 之 类 ,都 是 需要 耗费 
额外 的 计算 资源 的 。 

由 于 Thin 不 会 预 留 标准 的 物理 空间 ， 而 是 随 用 随 分 配 ， 就 像 操 作 系统 对 内 存 的 管理 一 样 。 
那么 就 无 可 避免 地 会 产生 物理 空间 的 碎片 ， 针 对 一 个 LUN， 传统 模式 下 是 连续 分 布 在 物理 空间 
之 上 的 ， 而 Thin 模式 下 ， 可 能 这 一 块 ， 那 一 块 ， 因 为 原本 应 该 连续 被 分 配 的 空间 很 有 可 能 被 其 
他 的 Thin LUN 所 占用 ， 多 个 Thin LUN 混乱 地 分 布 。 这 样 就 导致 了 IO 性 能 问题 ， 本 来 上 层 的 
连续 地 址 IO ， 经 过 Thin 引擎 处 理 之 后 ， 可 能 却 变 成 了 随机 度 大 增 的 IO 类 型 。 这 一 点 对 于 那些 
物理 空间 分 配 粒度 很 小 的 Thin 引擎 更 为 明显 。 

上 文 曾经 提 过 ，Thin 可 以 有 不 同 的 细节 设计 。 比 如 一 个 50~ 500GB 的 Thin LUN， 当 接收 
到 一 个 位 于 80GB 偏 移 处 目标 地 址 的 IO 时 ，Thin 可 以 智能 地 判断 上 层 在 接 下 来 的 时 间 里 ,很 有 
可 能 需要 对 其 附近 的 地 址 有 更 多 的 操作 了 ， 所 以 ，Thin 引擎 此 时 可 以 以 80GB 这 个 逻辑 目标 地 
址 为 基准 , 在 其 左 和 右 各 分 配 比如 16MB/64MB/128MB 的 物理 空间 以 预先 占 位 , 新 分 配 的 空间 ， 
视 剩余 物理 空间 的 比例 而 定 ， 尽 量 保 持 连 续 。 或 者 Thin 引擎 干脆 可 以 以 更 大 、 更 简洁 的 办 法 处 
理 ， 把 分 配 粒度 设计 成 最 大 化 。 

比如 刚才 那个 例子 ， 可 以 直接 将 50~ 80GB 之 间 的 30GB 的 物理 空间 分 配 下 去 ， 只 不 过 这 样 
做 的 肥胖 率 会 大 增 , 但 是 却 节省 了 计算 资源 , 同时 降低 了 IO 性 能 损耗 率 。Thin 引擎 不 可 能 完全 
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做 到 最 细 的 最 小 化 粒度 分 配 ， 即 以 单个 IO 的 目标 地 址 为 粒度 ， 还 是 刚才 那个 例子 ， 如 果 IO 长 
度 为 1， 即 只 读 取 或 者 写 入 一 个 扇 区 的 话 ， 那 么 Thin 引擎 不 会 只 对 这 一 个 扇 区 进行 物理 地 址 空 
间 分 配 ， 这 样 做 效率 太 低 ， 需 要 维护 的 Bitmap 等 元 数据 粒度 太 大 ， 尺 寸 也 就 过 于 庞大 ， 查 找 起 
来 非常 耗费 资源 ， 而 且 底 层 产 生 的 碎片 更 多 。 所 以 ， 流 行 的 还 是 折 中 的 做 法 ， 即 在 IO 目标 的 左 
右 以 相当 长 度 的 粒度 将 空间 分 配 下 去 ， 这 样 就 可 以 在 一 定 程度 上 保证 连续 IO 的 性 能 ， 同 时 可 以 
保证 耗费 较 少 的 计算 资源 。 

说 道 Thin 对 性 能 的 影响 , 这 里 有 一 个 极端 的 例子 , 请 看 表 18-1。 这 是 国外 某 知名 存储 厂商 
某 终端 阵列 开启 Thin 功能 之 后 的 性 能 下 降 统 计 表 ， 可 以 看 到 最 差 情况 下 性 能 竟然 下 降 了 70%， 
而 且 是 随机 IO 的 情况 下 。 如 果 说 Thin 会 让 逻辑 上 连续 的 块 底层 变 得 随机 , 那么 这 理论 上 应 该 不 
会 对 随机 IO 产生 这 么 大 的 影响 ， 因 为 原来 也 是 随机 ， 现 在 依然 是 随机 ， 随 机 度 并 没有 加 成 。 那 
么 原因 出 在 哪里 呢 ? 


表 18-1 Thin 对 性 能 的 影响 


1009d 顺 序 读 


| mm | 1357.75 | 6.6 | ii | ui | 1G.67 | 3035.54 | 
839.62 | 85 | 36 | 17 is6r | za | 
[各 | zi | oo | az6 | 73.77 T3.77 6934.64 


132 2365 11476 114.76 356.62 


100% 了 机 总 Nommal 270611 


顺序 写 清 Thin 14510.71 
100%6 顺 序 马 
Nommal 1674933 


7.09 35.28 167.67 167. 67 3053. 21 
Sl1S 3.8206 18135 18135 35138 


1003 随 机 马 
091 3437 16024 16024 $502.54 


1009d 顺 序 读 


1NIO 随 机 写 清 


100% 随 机 马 


这 还 得 从 Thin 的 源头 原理 来 追溯 。 要 想 实现 Thin 的 核心 模块 , 只 要 有 三 大 元 数据 基本 就 足 
够 了 : 一 个 位 图 、 一 张 表 、 一 棵 树 。 位 图 是 用 来 记录 底层 连续 物理 地 址 空间 内 哪些 地 址 已 经 被 分 
配 ， 哪 些 没有 被 分 配 的 ， 以 便 用 来 迅速 分 配 空间 ; 表 则 是 用 来 记录 各 个 LUN 的 逻辑 地 址 与 物理 
地 址 对 应 关系 的 , 因为 逻辑 地 址 不 是 传统 那 种 与 物理 地 址 一 一 对 应 的 关系 了 , 可 能 随时 被 分 配 到 
任何 地 址 上 , 这 张 表 需 要 按照 逻辑 地 址 排序 从 而 便于 后 续 的 查询 操作 。 树 则 是 在 内 存 中 生成 的 用 
于 迅速 查 表 的 结构 了 。 说 到 这 ， 我 们 先 来 算 算 这 张 表 的 大 概 容量 吧 ， 假 设 使 用 64b 的 地 址 长 度 ， 

分 配 粒度 为 32KB， 也 就 是 每 32KB 的 物理 块 用 一 个 64b 地 址 表示 ， 那 么 这 张 表 内 每 一 项 条 目的 
大 小 就 是 128b。 对 于 一 个 容量 1TB 的 空间 来 讲 ， 需 要 33554432 个 32KB 的 块 组 成 ， 那 么 这 张 表 
的 容量 就 是 33554432 x 128 = 1024= 1024= 8=512MB 的 空间 ， 而 针对 一 个 10TB 的 空间 就 需要 保 
存 5GB 的 元 数据 。 而 一 般 情况 下 , 支持 Thin 的 产品 一 般 都 会 将 所 有 磁盘 建立 成 一 个 全 局 存储 池 ， 

也 就 是 说 , 系统 中 的 全 部 磁盘 都 需要 加 入 这 个 池 , 那么 加 入 100TB 的 空间 ,就 需要 对 应 50GB 的 
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元 数据 。 而 如 果 使 用 1MB 的 块 粒度 ,那么 大 家 自己 算 一 下 ,元 数据 会 又 降 到 16MB/TB。 如 果 将 
地 址 长 度 也 适当 降低 ， 比 如 降低 到 48b， 则 也 能 节省 一 定 容量 的 元 数据 。 顺 带 提 一 下 的 是 ， 这 种 
元 数据 量 相对 于 文件 系统 元 数据 量 来 讲 , 还 算是 少 的 。 正 因为 元 数据 如 此 之 大 , 所 以 不 可 能 全 部 
驻 留 内 存 ， 这 样 就 牵 扯 到 每 次 上 层 的 用 户 IO 都 可 能 需要 读 写 这 些 元 数据 ， 所 以 会 导致 性 能 严重 
下 降 ， 也 就 是 被 读 写 惩罚 所 拖 慢 了 ， 即 便 是 随机 IO， 其 性 能 依然 有 很 大 下 降 。 至 于 元 数据 所 耗 
费 的 计算 资源 ,并 不 是 很 大 , 查询 效率 还 是 很 高 的 。 再 加 上 传统 阵列 厂商 在 类 文件 系统 方面 积累 
不 够 ，IO 优化 还 是 不 到 位 ， 所 以 会 导致 性 能 相对 下 降 。 

HDS 公司 在 USP V 产品 中 使 用 42MB 为 一 个 粒度 , EMC 在 DMX 上 的 粒度 为 768KB, IBM 
在 其 SVC 产品 上 的 粒度 为 32~ 256KB，“IBM 在 其 DS8000 和 Storwize V7000 中 的 Easy Tier 的 
粒度 为 16MB ~ 8GB， 默 认为 256MB”。 而 3PAR 公司 的 粒度 是 16KB; 然而 这 并 不 是 业界 最 小 
的 ， 最 小 的 粒度 当 属 NetApp 的 WAFL， 为 4KB， 因 为 它 对 待 LUN 就 像 一 个 普通 文件 。3PAR 
公司 的 Thin 处 理 模块 被 戏 入 在 ASIC 中 以 加 快 执行 速度 。 


2. Thin Provision 的 脆弱 性 


Thin 的 第 一 个 脆弱 性 就 是 其 对 性 能 的 影响 实在 不 可 忽略 ， 甚 至 有 时 不 可 容忍 。 某 厂商 的 存 
储 系 统 ， 开 启 了 Thin 功能 之 后 ， 性 能 最 大 下 降 了 70%， 也 就 是 性 能 最 差 时 仅 为 非 Thin LUN 的 
30%。 究 其 原因 可 以 参考 上 文中 的 描述 。 这 使 得 Thin 很 难 被 广泛 地 用 起 来 , 除非 能 够 解决 性 能 问 
题 。 而 粒度 与 性 能 总 是 一 对 矛盾 ， 为 了 保证 性 能 而 增加 粒度 ， 又 会 丧失 Thin 的 意义 ， 所 以 如 何 
在 性 能 与 粒度 之 间 取 舍 ， 是 厂商 应 该 考虑 的 问题 。 

Thin LUN 需要 时 不 时 地 进行 碎片 整理 以 保证 性 能 。 上 文中 描述 了 Thin 导致 的 数据 乱 分 布 
问题 ,这 样 的 话 , 就 需要 考虑 引入 LUN 碎片 整理 机 制 。 不 要 将 LUN 碎片 整理 与 LUN 文件 系统 
碎片 整理 相 混 淆 。 后 者 是 指使 用 这 个 LUN 的 主机 端 上 的 文件 系统 对 LUN 内 的 逻辑 上 的 文件 进 
行 碎片 整理 ， 而 前 者 是 指 将 本 身 被 乱 分 布 到 RAID 组 之 上 的 LUN 碎片 进行 整理 ， 其 实 这 两 个 层 
面 的 碎片 整理 本 质 上 是 一 样 的 , 可 以 把 LUN 看 作 是 分 布 在 RAID 组 之 上 的 一 个 大 文件 。NetApp 
的 WAEL 就 是 这 么 做 的 , 而 且 WAFL 天 然 可 以 实现 Thin LUN, 现 用 现 分 配 空间 对 于 文件 系统 来 
讲 是 小 儿科 的 事情 ，LUN 就 是 WAFL 下 的 一 个 文件 。 也 正 是 因为 如 此 ，WAEL 同样 面临 着 碎片 
问题 ， 为 了 保证 性 能 ， 其 提供 了 LUN Reallocation 操作 ， 也 就 是 碎片 整理 操作 。 

Thin 的 第 二 个 脆弱 性 便 是 其 瘦身 的 效果 很 难 维持 ， 时 不 时 地 就 会 变 胖 。 比 如 ， 主 机 端 应 用 
程序 或 者 文件 系统 的 一 些 行为 。 最 典型 的 便 是 文件 系统 碎片 整理 过 程 ， 会 首先 读 出 零散 的 碎片 ， 
整合 之 后 写 入 新 位 置 ， 然 后 标记 之 前 的 位 置 为 空间。 而 “ 写 入 新 位 置 ”这 五 个 字 ,， 是 Thin LUN 
最 不 愿意 看 到 的 ， 因 为 这 意味 着 系统 要 分 配 这 些 新 位 置 ， 那么 Thin LUN 就 逐渐 变 胖 了 。 如 果 原 
本 100GB 的 LUN， 上 面 有 50GB 的 碎片 文件 ， 而 此 时 这 个 Thin LUN 可 能 只 实际 分 配 了 70GB 
的 物理 空间 ， 那 么 当 进行 文件 系统 碎片 整理 之 后 ,极端 情 况 下 ,文件 系统 可 能 要 读 出 这 50GB 的 
碎片 ， 然 后 再 写 入 50GB。 假 如 碎片 整理 过 程 需 要 的 新 空间 为 30GB， 那 么 系统 一 定 就 会 在 底层 
将 原本 的 那 瘦 下 去 的 30GB 分 配 出 来 , 此 时 这 个 LUN 就 是 一 个 胖 LUN 了 , 就 算 文件 系统 碎片 整 
理 完毕 之 后 ， 实 际 文件 占用 仍然 为 50GB， 那 么 这 个 LUN 也 瘦 不 回去 了 ,除非 有 回收 机 制 ( 见 
开交 

另外 一 个 典型 例子 便 是 生成 大 量 临时 数据 的 应 用 程序 。 比如 某 应 用 程序 运行 时 , 某 个 条 件 下 
触发 大 量 临时 文件 数据 的 生成 ， 结 束 之 后 就 删 掉 ， 那 么 此 时 对 应 底层 的 LUN 来 讲 ， 也 要 分 配对 
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应 的 空间 来 存放 这 些 临时 文件 数据 ,虽然 最 后 的 状态 是 这 些 临 时 文件 全 被 应 用 程序 删 掉 了 , 但 是 
底层 已 经 胖 了 ， 回 不 去 了 。 上 一 段 曾经 说 过 “Thin LUN 需要 碎片 整理 ”， 这 一 段 又 说 “碎片 整 
理会 导致 Thin LUN 变 胖 ”， 乍 一 看 非常 矛盾 ， 其 实 还 是 如 上 文 所 述 ， 两 层 碎片 整理 各 有 各 自 的 
功效 ， 但 是 确实 会 产生 对 立 面 。 

综 上 所 述 ，Thin Provision 真是 一 个 脆弱 的 东西 ， 如 果 只 靠 忽 您 、 掩 耳 盗 铃 来 硬 说 自己 瘦 了 ， 
还 是 不 靠 谱 啊 ! 要 真正 不 反弹 的 瘦 ， 就 要 从 应 用 层 业 务 层 入 手 ， 从 源头 上 杜绝 垃圾 数据 的 产生 。 


3. Thin 底层 设计 中 的 一 些 算法 


累加 模式 的 颗粒 分 配 算法 一 一 比如 T1 时 刻 一 个 新 创建 的 LUN1 有 针对 其 LBA1 的 写 IO , 那 
系统 就 写 入 Thin Pool 的 LBA1; T2 时 刻 有 针对 新 创建 的 LUN2 的 LBA100 的 写 IO， 那 就 写 入 
Thin Pool 的 LBA2, 依 此 类 推 。Thin Pool 就 像 水 池 一 样 , 不 管 接收 到 哪个 LUN 的 追加 写 IO (之 
前 尚未 写 过 的 地 址 ) ， 那 么 每 个 IO 都 会 导致 Thin 池 里 的 高 水 位 线 往 上 涨 一 个 LBA 号 。 

全 随机 模式 的 颗粒 分 配 算法 一 一 累加 模式 的 颗粒 分 配 算 法 下 ，LUN 的 数据 不 能 够 被 分 配 到 
系统 内 所 有 物理 盘 之 上 , 不 能 充分 利用 起 系统 整体 性 能 , 所 以 可 以 使 用 全 随机 模式 的 颗粒 分 配 算 
法 ， 让 分 配 范围 弥散 在 整个 Thin Pool 的 地 址 空间 内 而 不 是 累加 。 

自 适 应 分 配 力 度 算法 一 一 系统 可 以 智能 感知 上 层 IO 的 行为 ,比如 大 块 的 连续 追加 写 入 操作 ， 
那么 此 时 就 没有 必要 每 次 分 配 很 小 颗粒 的 空间 ， 完 全 可 以 加 大 分 配 力度 ， 比 如 一 次 分 8MB、 
16MB， 根 据 IO 特点 和 持续 时 间 等 因素 ,不断 提高 分 配 力度 ; 反之 ， 如 果 检 测 到 追加 写 IO 负载 
趋 缓 ， 那 么 就 逐渐 降低 分 配 力度 。 

位 移 保持 颗粒 分 配 算法 一 一 分 配 存储 空间 颗粒 的 时 候 , 尽量 按照 原来 的 相对 地 址 分 配 。 比 如 
用 户 在 一 个 空 Pool 里 创建 了 一 个 Thin LUN,， 向 LBA1 写 了 数据 ， 那 么 程序 就 向 Pool 里 的 LBA1 
写 , 后 来 又 向 LBA1000 写 了 ,程序 也 向 1000 写 ; 后 来 又 创建 了 一 个 Thin LUN， 也 向 LBA1 写 
那么 此 时 程序 可 以 向 Pool 里 的 LBA2 写 , 写 在 LBA1 旁边 ， 依 此 类 推 ,， LUN3 的 LBA1 就 是 Pool 
的 LBA3。 但 是 一 旦 如 果 遇 到 Pool 的 LBA1 和 LBA2 都 被 同一 个 LUN 占据 ,那么 程序 就 考虑 寻 
找 相对 距离 最 近 的 LBA 写 入 , 总 之 尽量 保持 所 分 配 的 地 址 的 相对 偏 移 量 与 这 个 IO 原本 的 目标 地 
址 相对 偏 移 量 一 致 。 这 样 就 可 以 保持 逻辑 上 连续 的 颗粒 在 物理 上 也 相对 连续 , 对 后 续 的 连续 地 址 
读 写 操作 有 好 处 。 同 时 用 户 一 般 不 会 创建 大 量 的 LUN， 所 以 颗粒 地 址 争 抢 地 址 冲突 的 几率 也 不 
会 很 高 ， 因 此 最 好 能 保证 颗粒 块 该 放 哪 还 是 放 哪 ， 相 对 位 移 保持 一 致 。 

思考 : 累加 分 配 模式 下 ， 由 于 系统 会 针对 所 有 进入 的 首次 写 IO 做 连续 地 址 写 入 操作， 所 

以 对 外 会 表现 出 较 高 的 性 能 , 但 是 随 着 数据 写 和 的 推移 , 追加 写 越 来 越 少 , 会 逐渐 演变 为 

覆盖 写 ， 那 么 此 时 底层 会 变 为 完全 随机 地 址 JO， 性 能 会 降低 ， 尤 其 是 在 上 层 连续 地 址 IO 

时 ， 底 层 总 是 表现 为 随机 地 址 IO。 

全 随机 模式 的 颗粒 分 配 模式 下 ， 相 对 累加 模式 来 讲 整体 性 能 有 提升 ， 但 是 对 于 初次 /追加 

写 没有 任何 加 速 作 用 。 并 且 对 于 后 续 的 连续 地 址 I0 一 样 也 会 有 所 拖 慢 。 

而 位 移 保持 分 配 模式 下 , 由 于 地 层 的 数据 排 布 与 原本 的 逻辑 排 布 保持 尽量 的 相对 一 致 , 所 

以 由 Thin 的 引入 而 导致 的 系统 性 能 变化 幅度 会 被 控制 到 最 低 。 而 且 对 于 后 续 的 连续 地 址 

IO 是 可 以 保证 最 大 幅度 的 维持 原生 性 能 的 。 

综合 来 讲 ， 应 当 使 用 使 用 位 移 保持 颗粒 分 配 算法 。 
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颗粒 格式 化 算法 一 一 上 面 的 文字 都 是 用 LBA 来 指 代 分 配 颗 粒 的 ， 实 际 上 不 会 有 哪个 产品 的 
颗粒 度 细 到 LBA 扇 区 的 。 比 如 就 拿 768KB ( EMC 在 其 Symmetrix V-Max 上 使 用 的 粒度 ) 作为 一 
个 颗粒 粒度 ， 每 次 分 配 必须 是 32KB 的 整数 倍 。 但 是 这 里 就 会 有 一 个 问题 ， 如 果 主 机 下 发 的 IO 
只 有 4KB , 那么 底层 也 一 样 需要 分 配 768KB, 那么 这 时 候 问题 就 来 了 , 这 768KB 中 剩余 的 762KB 
都 是 僵尸 数据 , 如 果 主 机 后 续 发 起 对 这 768KB 地 址 范围 内 的 读 IO, 此 时 Thin 处 理 模块 就 不 会 返 
回 全 0x00 了 ， 因 为 已 经 分 配 空间 了 ， 必 须要 从 磁盘 读 ， 这 样 的 话 就 会 把 僵尸 数据 返回 给 主机 ， 
而 不 是 原本 应 当 返回 的 全 0x00。 为 了 解决 这 个 问题 ， 在 颗粒 分 配 之 后 ，Thin 模块 必须 做 初始 化 
操作 ,也 就 是 将 颗粒 内 没 被 当前 写 IO 所 覆盖 的 地 址 上 的 数据 扁 区 写 入 全 0x00。 如 果 你 真 的 这 么 
认为 ,你 就 错 了 ,底层 根本 不 需要 为 Lun 进行 清 零 操作 。 一块 用 过 的 物理 磁盘 上 , 全 都 是 僵尸 数 
据 , 同样 ,一 个 新 划分 的 Lun， 其 上 也 可 以 都 是 伪 厂 数据 ， 底 层 没 有 义务 清 零 。 有 人 问 如 果 读 出 
来 僵尸 数据 怎么 办 ? 答案 就 是 没 办 , 如 果 一 个 程序 不 去 写 自己 的 数据 到 磁盘 上 这 个 区 域 , 上 来 就 
读 这 个 区 域 , 那么 这 个 程序 不 是 测试 软件 就 是 数据 恢复 软件 ， 正 儿 八 经 的 软件 没 这 么 干 的 , 都 是 
先 写 入 ， 再 读 ， 至 于 房间 里 面 之 前 住 了 什么 人 发 生 了 哪些 事 ， 人 家 不 去 操 那个 心 。 

强调 : 但 是 必须 强调 的 一 点 是 , 一 个 Lun 在 被 创建 之 后 ,其 零 肩 区 必须 先 被 主动 清 零 , 因 

为 零 鹿 区 太 重要 了 ,如 果 不 清 零 ,而 发 生 了 小 概率 事件 ( 比如 恰好 底层 磁盘 的 某 零 扇 区 内 

容 刚好 对 应 了 该 Lun 的 零 扇 区 ) ， 那 么 此 时 就 会 出 问题 了 ，0S 会 直接 按照 零 扇 区 里 的 分 

区 表 尝 试 挂 载 磁 盘 分 区 ， 会 产生 不 可 预知 的 后 果 
后 台 重 整 机 制 一 一 此 外 还 可 以 提供 一 个 后 台 重 整 功能 ,将 乱 序 的 颗粒 重新 整理 成 按照 原来 顺 
序 存放 以 保证 后 续 IO 的 性 能 。 

在 同一 个 地 址 池内 同时 支持 Thick 与 Thin LUN 一 一 当 在 Thin 地 址 池内 创建 一 个 Thick LUN 
时 ， 系 统 就 会 直接 在 Bitmap 中 将 对 应 的 空间 占 住 。 之 后 针对 这 个 Thick LUN 的 所 有 IO 也 都 会 
Bypass 掉 映 射 表 ， 其 效果 与 普通 LUN 完全 一 致 了 。 


18.3.2 LUN Space Reclaiming ( Unprovision/Deprovision , Get Thin ) 


试想 这 样 一 种 情况 ， 比 如 某 个 存储 系统 只 拥有 1TB 的 物理 存储 空间 ， 有 多 台 主机 客户 端的 
LUN 分 布 于 其 上 ， 都 占用 了 一 定 的 空间 ， 当 前 剩余 物理 空间 只 有 500GB 了 。 而 此 时 ， 某 主机 客 
户 端 需要 一 个 500GB 的 LUN 空间 ,存储 系统 管理 员 只 好 将 这 最 后 的 空间 分 配给 了 这 台 主 机 使 用 。 
这 台 主机 其 实 只 是 将 这 个 LUN 设置 为 某 程序 运行 时 的 anp 空间 ， 其 中 放 一 些 临时 性 的 文件 ， 不 
会 超过 500GB, 此 外 , 还 存放 一 些 其 他 用 户 层面 的 文件 。 当 程序 运行 完毕 之 后 , 临时 文件 也 会 被 
删 掉 ,但 其 后 果 就 是 ， 这 些 文件 曾经 占用 的 空间 会 永远 地 占用 存储 系统 中 物理 硬盘 的 空间 , 也 就 
是 说 这 500GB 的 剩余 空间 , 眼看 着 就 白白 浪费 了 。 而 且 此 时 系统 中 剩余 物理 空间 为 0， 存储 系统 
无 法 对 这 500GB 的 空间 进行 Unmnprovision 马 或 者 称 Deprovision Deprovision 的 过 程 又 可 以 形象 地 被 
称 为 “Get Thin” 过 程 。 
虽然 此 时 可 以 在 存储 系统 端 使 用 缩小 LUN 容量 的 动作 来 强制 将 这 个 LUN 的 大 小 降低 到 某 
个 值 , 但 是 这 样 做 风险 很 大 。LUN 缩小 都 是 直接 将 LUN 空间 从 尾部 截 掉 对 应 的 长 度 , 但 是 因为 
LUN 中 尚 存 的 文件 不 一 定 是 项 着 LUN 头 部 依次 排放 的 ， 很 有 可 能 某 些 文件 Block 被 分 布 到 了 
LUN 尾部 ， 此 时 强制 缩小 容量 ， 那 么 就 等 于 把 这 些 尾部 的 数据 都 丢掉 了 。 要 解决 这 个 问题 ， 需 
要 文件 系统 的 配合 ， 将 LUN 中 的 文件 全 部 迁移 到 LUN 首部 依次 排 布 ， 空 出 尾部 的 连续 空间 。 
有 些 文件 系统 可 以 做 到 ， 比 如 VxFS， 其 自身 就 提供 了 命令 来 实现 这 种 操作 ， 诸 如 NTFS 等 文件 
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系统 ， 其 自身 并 不 提供 这 种 操作 接口 ,， 但 是 可 以 通过 一 些 第 三 方 的 NTFS Aware 工具 来 强制 操作 
LUN 中 的 文件 将 它们 迁移 。 

虽然 缩小 LUN 可 以 解决 这 个 问题 ， 但 是 会 耗费 太 多 的 资源 和 步骤 ,并 且 LUN 一 旦 缩小 ， 
如 果 将 来 需要 扩大 的 话 ， 又 是 一 番 折 腾 ， 划 不 来 。 有 没有 办 法 即 不 缩小 LUN， 又 可 以 回收 被 浪 
费 的 空间 呢 ? 办 法 是 有 很 多 的 ， 总 结 起 来 共有 3 种 。 


1. 存储 端 识别 对 应 的 文件 系统 


存储 系统 可 以 自行 识别 当前 LUN 中 的 文件 系统 并 且 感 知 到 文件 系统 中 的 剩余 空间 , 将 这 些 
剩余 空间 与 物理 空间 做 对 应 ， 然 后 在 LUN 管理 层 中 将 这 些 剩 余 空间 做 废 回收 。 

然而 , 目前 这 种 方式 尚未 有 产品 尝试 , 原因 是 因为 主机 端的 文件 系统 多 种 多 样 ,不 用 说 全 部 
支持 , 就 算是 仅 支 持 主流 的 几 种 , 那 将 这 些 文件 系统 逻辑 嵌入 存储 系统 中 , 也 是 一 笔 不 小 的 工程 ; 
并 且 ， 就 算是 同一 种 文件 系统 ， 配 置 参数 不 同 ，OS 内 核 版 本 不 同 ， 也 会 导致 底层 逻辑 的 些许 不 
同 。 而 这 些 区 别 ， 不 可 能 在 存储 端 内 部 一 一 去 对 应 。 而 且 ， 存 储 端 看 到 的 LUN 中 当前 的 数据 并 
不 一 定 反映 主机 端 当前 所 看 到 的 数据 , 因为 主机 端的 文件 系统 是 有 缓存 的 ,包括 metadata 和 实体 
数据 ， 存 储 端 擅自 操作 的 结果 可 能 是 造成 数据 不 一 致 。 


2. 存储 端 识别 0x00 并 做 消除 


文件 系统 在 删除 文件 时 ,只 是 将 文件 从 metadata 中 抹 掉 ,文件 的 实体 依然 存在 于 原来 的 位 置 ， 
如 果 主机 客户 端的 文件 系统 能 够 做 到 在 每 次 删除 文件 或 者 改变 文件 大 小 之 后 ， 将 原本 所 占用 的 
Block 写 入 0x00 的 话 ， 而 且 存储 端 定期 地 扫描 对 应 的 LUN， 如 果 发 现 大 片 连续 的 0x00， 则 将 对 
应 的 Block 空间 回收 。NTEFS 文件 系统 的 确 有 这 种 功能 ， 使 用 DeviceloCul 中 的 
FSCTL_SET_ZERO_ON_DEALLOCATION 功能 即 可 实现 。 

但 是 这 确实 不 是 一 个 好 方法 。 如 果 每 次 删除 文件 都 清扫 战场 , 那么 所 耗费 的 资源 是 极其 划 不 
来 的 。 比 如 删除 某 个 1GB 的 文件 ， 正 常情 况 下 应 当 是 飞快 完成 ， 但 是 如 果 使 用 了 这 种 方法 ， 则 
需要 引发 主机 到 存储 系统 的 1GB 的 数据 流量 ， 完 全 划 不 来 。 

这 种 技术 目前 被 称 为 “Zero Detection”， 在 少数 情况 下 ， 这 种 技术 可 以 带 来 一 定 的 效果 ， 
比如 某 些 文件 的 实体 数据 存 有 大 片 的 0x00， 对 于 这 种 情况 ，Zero Detection 技术 可 以 回收 对 应 的 
LUN 空间 。 但 是 多 数 情况 下 , 文件 中 并 非 全 0， 此 时 这 种 技术 发 挥 不 了 任何 效果 。 目 前 3PAR 在 
其 工 系 列 存储 产品 中 已 经 实现 了 Zero Detection 技术 ,不 过 作者 个 人 感觉 这 种 技术 只 是 个 嗪 头 。 


3. 主机 端 利用 特殊 的 API 通知 存储 系统 


还 记得 SSD 中 的 Trim 技术 么 ? SSD 所 面 对 的 问题 一 定 程度 上 与 Space Reclaiming 相同 。 几 
平 所 有 SSD 厂商 都 提供 了 空间 回收 的 专用 程序 ， 运 行 这 个 程序 ， 程 序 便 会 根据 当前 文件 系统 的 
情况 , 将 垃圾 空间 对 应 的 地 址 通告 给 SSD 控制 器 , 从 而 进行 对 这 些 Block 的 擦 除 过 程 。 既然 这 样 ， 
存储 系统 厂商 是 否 也 可 以 提供 一 种 在 主机 端 运行 的 程序 来 定期 扫描 主机 端 文件 系统 剩余 空间 并 
且 将 对 应 的 信息 传送 给 存储 系统 控制 器 然后 将 空间 回收 呢 ? 当然 可 以 。 

NetApp 的 Snapdrive 软件 可 以 实现 这 个 功能 , 只 不 过 它 只 支持 NTFS 文件 系统 和 NetApp 自己 
的 存储 产品 。NetApp 将 这 种 方法 称 为 “Hole Punching”， 意 即将 浪费 的 空间 打 成 洞 让 其 不 占用 空 
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间 。 其 实在 WAEL 内 部 处 理 文件 删除 或 者 LUN 删除 时 也 用 到 了 Hole Punching， 由 于 LUN 是 Vol 
下 的 文件 ,而 Vol 是 WAFL 下 的 一 级 文件 ,文件 中 的 文件 (LUN 或 者 其 他 文件 ) 被 删除 之 后 ， 二 
级 空间 会 立即 感知 , 但 是 一 级 WAFL 空间 不 可 能 立即 感知 , 也 需要 通过 Hole Punching 过 程 来 进行 
二 次 映射 从 而 回收 一 级 空间 。 这 种 过 程 的 本 质 与 回收 LUN 中 的 文件 占用 的 空间 是 相同 的 。 

Symantec 公司 针对 这 一 问题 发 布 了 自己 的 解决 方案 , 在 其 Storage Foundation 5.0 产品 中 , 提 
供 了 针对 NTFS 文件 系统 和 VxFS 文件 系统 的 支持 ， 并 且 提 供 ThinReclaim API 来 让 存储 系统 厂 
商 开 发 对 应 的 处 理 模块 。Storage Foundation 产品 包含 两 个 最 基本 的 模块 : VxFS 和 VxVM, 一 个 
是 文件 系统 模块 , 一 个 是 卷 管理 模块 。 当 运行 于 VxVM 之 上 的 VxFS 或 者 NTFS 文件 系统 删除 文 
件 时 ，VxVM 会 通过 一 些 方法 (比如 用 过 滤 驱 动 Hook ) 感知 到 ,之 后 VxVM 便 会 将 这 些 删除 文 
件 对 应 的 僵尸 空间 地 址 信息 用 ThinReclaim API 规定 的 结构 传送 给 存储 系统 控制 器 ， 存 储 系统 控 
制 器 同样 使 用 ThinReclaim API 来 进行 对 这 些 信息 的 解析 和 处 理 ， 最 后 将 对 应 LUN 中 的 这 些 僵 
户 空 间 实 时 回收 。 另 外 ， 由 于 实时 回收 需要 耗费 一 定 的 处 理 资 源 ， 所 以 VxVM 还 提供 了 定期 手 
动 回收 的 命令 ( vxdisk reclaim 或 者 fadm -R ) ， 用 户 只 要 将 对 应 命令 做 成 脚本 定期 执行 即 可 。 

下 面 显示 的 是 在 一 台 Linux 机 器 上 , 安装 Storage Foundation 5.0 之 后 , 利用 VxVM 来 管理 的 
三 个 LUN: encl0_0、encll_0、encll_1。 其 中 ，encl1_0 和 encll_1 支持 通过 Thin API 进行 空间 回 
收 ， 可 以 看 到 其 STATUS 一 栏 对 应 的 状态 描述 ， 证 明 这 两 个 LUN 所 在 的 存储 系统 是 支持 
ThinReclaim API 的 。encl0_0 是 一 个 Thin LUN， 但 是 它 所 在 的 存储 系统 针对 这 个 LUN 禁止 了 
Thin Reclaiming， 所 以 STATUS 一 栏 中 只 显示 了 其 是 个 Thin LUN。 

# vxdisk list 


DEVICE TYPE DISK GROUP STATUS 
enc10 0 auto encl0 0 mydg online thin 
encll 0 auto encll 0 mydg online thinrclm 
encll 1 auto ecnll 1 mydg online thinrclm 


下 面 的 命令 输出 显示 的 是 LUN 标 称 大 小 与 实际 物理 占用 大 小 的 信息 ， 实 际 物理 占用 空间 是 
SF 通过 ThinReclaim API 向 存储 系统 进行 查询 而 得 到 的 。 
# vxdisk -o thin list 


DANAME DISK SIZE (Mb) PHYS_ALLOC (Mb) DISK GROUP TYPE 
enc10 0 2000 50 mydg thin 

encll 0 200 50 mydg thinrclm 
encll 1 500 500 mydg thinrclm 


目前 ，3PAR、HDS、HP 已 经 相继 表示 将 支持 这 种 API。 不 过 依然 遗憾 的 是 ，Symantec 的 
ThinReclaim API 是 集成 到 其 Storage Foundation 产品 中 的 , 如 果 不 使 用 Symantec 的 主机 端 虚拟 化 
产品 Storage Foundation， 则 无 法 使 用 这 种 API。 如 果 不 将 这 种 API 作为 一 种 全 面 开放 模式 可 以 给 
任何 厂商 使 用 的 话 ， 其 前 景 也 将 是 暗淡 的 。 凡 是 与 Thin 能 够 良好 配合 的 文件 系统 ， 不 管 是 清扫 
战场 型 还 是 智能 API 型 , 都 属于 Thin-EFriendly 型 文件 系统 , 比如 NTFS、ZFS、VxFS 都 属于 Thin 
友好 型 ,但 是 Solaris 下 的 UFS 就 不 友好 了 。 

另外 ， Symantec 公司 在 其 Storage Foundation 5.0 中 还 引入 了 一 个 新 功能 ， 即 SmartMove。 不 
是 所 有 存储 系统 都 支持 ThinReclaim API 的 ， 对 于 那些 不 支持 Thin API 的 存储 系统 上 的 LUN， 
要 将 其 减肥 ， 就 必须 将 整个 的 LUN 中 的 文件 所 实际 占用 的 数据 读 出 ， 然 后 再 写 入 一 个 2 
LUN 的 标 称 空间 相同 大 小 的 新 的 Thin LUN 中 ， 而 新 的 Thin LUN 所 占用 的 实际 物理 空间 ， 
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原先 LUN 中 的 文件 所 占用 的 空间 相同 。SmartMove 就 是 执行 这 个 工作 的 功能 模块 ， 它 扫描 目标 
LUN 中 的 文件 系统 空间 , 然后 执行 读 出 写 入 过 程 。 只 要 外 部 存储 系统 支持 Thin LUN, 不 管 是 否 
支持 ThinReclaim API，SmartMove 都 可 以 实现 对 LUN 的 减肥 操作 。 

Symantec 的 ThinReclaim API 毕竟 未 形成 一 个 被 广泛 接受 并 使 用 的 标准 , 不 过 ,Flash 存储 领 
域 使 用 的 Trim 倒是 一 个 标准 协议 ， 我 想 ，Deprovision 是 不 是 可 以 干脆 考虑 在 Trim 之 上 做 一 些 
增 减 ， 使 Trim 成 为 一 个 更 完善 的 业界 标准 呢 ? 

提示 : 凡是 能 够 实现 Thin Provision 或 者 De-Provision 的 设备 ， 其 对 LUN 的 分 布 必须 转变 

为 灵活 方式 ， 即 LUN 在 RAID 组 内 的 分 布 不 是 定 死 的 ， 而 是 可 以 随时 重新 指向 新 地 址 的 。 

Thin-Provision 模式 的 LUN 会 随 着 使 用 而 逐渐 占据 空间 ,但 是 占据 的 这 些 空间 不 一 定 连续 ， 

因为 随时 可 能 有 其 他 的 Thin LUN 也 在 逐渐 占据 空间 。 对 于 使 用 De-Provision 进行 空间 回 

收 之 后 的 LUN, 其 原本 占据 的 空间 内 就 可 能 会 生成 很 多 “空洞 ”, 这 些 空洞 被 算 在 剩余 可 

用 空间 之 内 ,那么 这 些 空洞 便 可 以 被 原 有 LUN 或 者 其 他 LUN 再 次 占据 ， 这 样 ， 就 需要 更 

加 灵活 的 LUN 分 布 方式 了 。 如 果 是 类 文件 系统 的 分 布 方式 , 对 于 空洞 可 以 直接 分 配给 LUN 

使 用 , 不 过 太 多 太 乱 的 空洞 毕竟 是 不 连续 的 ， 类似 于 文件 系统 碎片 。 所 以 为 了 保证 连续 地 

址 IO 时 的 性 能 , 一 些 设计 会 将 有 空洞 的 LUN 进行 碎片 整理 , 重新 排 布 , 每 次 De-Provision 

之 后 都 会 计算 碎片 程度 ， 根 据 程度 来 决定 是 否 触发 整理 。 

关于 LUN 的 分 布 形式 请 参考 本 书 其 他 章节 。 


18.3.3 Tier (分 级 ) /Migrating ( 迁移 ) 


ILM ( Information Lifecycle Management ) ， 信 息 生 命 周 期 管理 ; HSM ( Hierarchical Storage 
Management ) ,分 层 存储 管理 。 这 两 个 名 词 , 表面 上 看 来 好 像 差 不 多 , 是 同一 种 思想 的 两 种 叫 法 。 
但 是 细 究 起 来 ， 却 是 不 同 的 层次 。 

信息 生命 周期 管理 ， 顾 名 思 义 ， 是 对 整个 IT 系统 或 者 其 他 数据 系统 中 数据 生态 链 的 一 种 思 
想 认识 以 及 管理 方法 。 

如 图 18-2 所 示 为 IT 系统 数据 生态 运动 图 。 
数据 之 初 由 程序 的 运行 而 在 CPU Cache 内 生成 ， 
之 后 被 移出 至 RAM 中 暂 存 ,随后 被 长 存 入 磁盘 ， 
然后 再 一 层 层 地 转 存 和 回调 , 最 后 被 存 入 离线 存 
储 介质 比如 磁带 作为 归档 保存 , 在 需要 时 也 可 以 
从 归档 中 提取 出 来 访问 。 当 数据 已 经 衰老 到 没有 
任何 价值 之 后 , 便 被 销毁 。 程序 的 运行 使 得 物质 
不 断 地 流动 , 而 程序 的 运行 本 身 也 需要 物质 来 支 
撑 。 在 这 个 运动 过 程 中 ,数据 本 身 的 流动 速度 、 
所 处 能 级 以 及 价值 也 在 不 断 地 变化 。 当 然 , 对 于 
一 些 归档 之 后 的 数据 , 虽然 其 对 当前 系统 的 运行 
没有 表现 出 太 多 价值 ,但 是 将 来 某 时 段 可 能 表现 pp 
出 价值 。 

数据 衰老 的 过 程 是 不 可 避免 的 , 其 趋势 总 是 向 下 的 , 但 是 在 衰老 的 过 程 中 可 能 经 历 多 次 的 反 
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复 ， 即 便 这 样 ， 也 挡 不 住 其 衰老 过 程 。 信 息 生 命 周 期 管理 就 是 在 整个 数据 生存 周期 中 ,对 各 个 时 
期 数据 在 系统 中 所 出 现 的 位 置 进行 管理 和 调配 的 一 种 思想 方法 。 

既然 数据 是 由 程序 运行 而 生成 的 , 那么 程序 本 身 也 是 数据 , 程序 是 谁 生成 的 呢 ? 是 用 编译 器 
编译 出 来 的 ， 但 是 源 代码 也 是 数据 ， 谁 生成 的 呢 ? 是 用 编程 工具 生成 ， 编 程 工具 也 是 程序 ， 它 又 
是 由 谁 生成 的 呢 ? 这 个 问题 看 似 无 聊 透顶 ， 但 是 你 如 果 穷 根 究 底 ， 就 会 发 现 ， 其 实 整个 IT 系统 
的 数据 本 源 ， 也 就 是 物质 本 源 ， 其 实 就 是 由 人 来 生成 的 ， 也 就 是 由 那些 CPU 中 的 物理 电路 矩阵 
来 生成 的 ，CPU 中 的 电路 是 现代 计算 机 数据 生成 的 源泉 。 电 子 计算 机 的 纵 形 就 是 最 简单 的 开关 
电路 ， 自 从 布尔 将 开关 电路 用 于 逻辑 运算 的 那 一 刻 起 ,数据 就 生成 了 ,以 后 的 发 展 其 实 就 是 数据 
不 断 地 生成 数据 的 自 举 过 程 。 所 以 说 ,计算 机 是 个 从 无 到 有 的 过 程 ， 从 无 极 分 化 为 两 极 ,两极 又 
生成 更 多 状态 、 更 多 逻辑 的 过 程 。 

纵 观 图 18-2, 笔者 将 其 分 为 了 3 条 链 ， 即 物质 链 、 运 动 链 、 价 值 链 。 这 3 条 链 是 互相 联系 的 ， 
物质 链 作为 阴 实 , 运动 链 则 是 阳 气 的 游 走 过 程 , 而 价值 链 则 是 阳 气 所 派生 出 来 的 表象 ， 即 阴 生 化 了 
阳 ， 阳 外 发 为 表 。ILM 便 是 研究 这 种 数据 生态 关系 以 及 如 何 调理 其 阴阳 平衡 发 展 的 一 种 思想 。 

同时 ， 数 据 的 需求 度 也 是 不 同 的 ， 一 个 企业 IT 系统 中 的 数据 是 一 直 在 流动 的 ， 从 一 份 数据 
的 生成 到 销毁 ， 这 份 数据 的 需求 度 会 逐渐 降低 ， 其 所 处 的 能 级 也 越 来 越 低 。 能 级 越 高 的 数据 ,就 
越 微观 ， 其 流动 和 处 理 速度 也 越 快 。 在 这 个 过 程 中 , 不 同 容量 性 能 的 存储 介质 就 要 与 数据 的 这 种 
生命 周期 进行 适 配 ， 让 对 应 需求 度 的 数据 存放 在 对 应 性 能 的 存储 介质 中 。 大 家 揣摩 一 下 这 张 图 
物质 链 ， 代 表 各 种 存储 介质 ， 是 存放 数据 的 物质 本 源 ; 运动 链 ， 是 驱动 数据 流动 的 动力 源泉 ; 价 
值 链 ,表示 数据 在 生命 周期 中 不 同时 期 所 表现 出 来 的 需求 度 与 价值 。 我 们 要 做 的 工作 就 是 在 动力 
泵 中 引入 一 个 调度 员 的 角色 ， 让 高 需求 度 的 数据 得 到 更 优良 的 存储 资源 。 

具体 如 何 实现 呢 ? 请 看 图 18-3。 在 价值 链 中 ， 会 有 各 种 不 同 的 需求 度 与 价值 ， 比 如 有 些 应 
用 系统 总 是 产生 一 些 高 随机 度 的 10, 而 
有 些 则 要 求 高 并 发 度 ， 有 些 则 只 是 单线 
程 访问 同时 还 要 求 较 稳 定 的 带宽 。 面 对 
各 式 各 样 的 需求 , 可 以 做 一 次 抽象 过 滤 ， 
生成 一 些 固定 模 式 的 对 象 ， 叫 做 Service 
Level Objects， 这 些 对 象 作 为 一 种 输入 ， 
输入 到 一 个 引擎 当中 ， 这 个 引擎 就 是 我 
们 刚才 讲 的 调度 员 角 色 ， 这 个 调度 员 通 
过 这 些 SLO， 将 合适 的 存储 资源 适 配 到 
对 应 需求 的 应 用 系统 。 当 然 ， 这 其 中 牵 
扯 到 的 数据 迁移 回迁 等 ， 都 必须 是 对 上 
层 透明 的 。 这 是 对 存储 资源 的 调度 ， 那 
么 如 果 有 某 种 调度 器 可 以 对 整 条 IO 路 
径 上 的 所 有 资源 做 到 合理 调配 ， 那 么 这 
就 属于 QoS 这 个 更 大 的 范畴 了 , 包括 各 加 i483 SM 的 作用 廊 碟 
级 缓存 、 队 列 、 线 程 优先 级 、 存 储 等 。 

而 HSM (分 层 存储 管理 ) ， 则 是 作为 实现 ILM 的 一 种 技术 手段 而 存在 的 。 也 就 是 说 ，ILM 
为 指导 思想 ，HSM 为 实现 手段 。HSM 在 不 同 的 物质 层次 之 间 ， 将 不 同 的 需求 与 不 同 的 物质 层次 
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一 一 对 应 ， 并 且 维 持 这 种 对 应 关系 。HSM 以 最 终 的 表象 ， 即 价值 ， 为 导向 ,将 价值 链 与 运动 链 
和 物质 链 做 对 应 ， 并 且 通 过 作用 于 物质 链 和 运动 链 来 影响 价值 链 。 比 如 将 IO 性 能 要 求 较 高 的 数 
据 放置 在 SSD 上 ， 而 要 求 较 低 的 数据 则 可 以 放 入 SATA 硬盘 中 存放 ， 这 就 是 以 价值 特征 为 导向 ， 
强制 将 数据 在 运动 链 中 进行 移动 , 从 而 将 数据 放 入 物质 链 中 不 同 的 层次 , 最 后 也 就 显现 出 了 不 
的 价值 表象 。HSM 就 是 一 个 数据 运动 泵 。 如 图 18-3 所 示 ，HSM 以 不 同 价值 需求 为 导向 (不 
的 价值 需求 被 抽象 为 不 同 的 Service Level Objectives 描述 对 象 ) ， 根 据 设 定 的 策略 将 底层 的 数据 
从 不 匹配 价值 需求 的 地 方 移动 到 符合 价值 需求 的 地 方 。 


1. HSM 分 级 管理 的 意义 和 目标 


在 整个 计算 机 系统 中 ,数据 存储 介 
质 包 括 CPU L1 Cache、L2 Cache、L3 
Cache .RAM SSD/Flash\ FC/SAS Disk、 
SCSI Disk 、SATA Disk、 Virtual Tape 、 
Tape、BlueRay/DVD/CD 等 。 这 些 存 
储 介质 各 自 有 不 同 的 速度 、 容 量 \、 价 格 ， 
图 18-4 显示 了 这 些 存储 介质 的 生态 层 
次 图 。 

可 以 看 到 ,访问 速度 越 快 的 存储 介 
质 , 其 容量 也 越 小 , 价格 越 贵 。 如果 所 
有 数据 都 能 够 存储 在 CPU Cache 中 ， 
那么 代码 执行 的 速度 将 会 达到 最 快 , 计 
算 结 果 的 存储 也 会 达到 最 快 , 但 是 这 是 Er 
不 可 能 的 , 外 部 庞大 的 数据 量 面 对 容量 图 18-4 各 种 存储 介质 生态 图 
只 有 几 兆 字 节 的 CPU Cache 是 不 可 能 
容 得 下 的 ， 只 能 再 增加 一 层 外 部 存储 介质 ， 即 RAM， 比 如 8GB 容量 的 RAM。CPU Cache 以 及 
RAM 都 是 作为 一 种 缓存 形式 而 存在 的 ， 处 于 缓存 中 的 数据 是 暂时 存在 的 ， 一 旦 掉 电 ， 其 中 数据 
将 会 丢失 ， 所 以 需要 将 其 写 入 一 个 在 没有 外 部 供电 的 情况 下 也 可 以 永久 保存 数据 的 存储 介质 中 。 
而 且 RAM 的 容量 相对 于 日 益 庞大 的 数据 也 是 杯水车薪 。 介 质 链 到 了 RAM 这 一 层 ， 是 一 个 质变 
点 ，RAM 是 易 失 性 存储 介质 ， 而 位 于 其 下 层 的 磁盘 则 是 非 易 失 性 存储 介质 。 到 了 硬盘 这 一 层 ， 
数据 就 像 是 从 小 河流 到 了 入 海口 一 样 , 完全 被 包 没 在 庞大 的 数据 海洋 中 , 再 也 无 法 掀起 任何 波澜 。 
当然 , 大海 有 时 候 也 会 干枯 ， 单 块 硬盘 的 容量 有 时 候 也 不 太 够 ,此 时 便 可 以 使 用 多 块 硬盘 符 加 起 
来 形成 RAID 组 , 一 个 RAID 组 如 果 还 不 够 ， 那 就 多 个 RAID 组 ， 多 个 RAID 组 还 不 够 的 话 ， 
那 就 使 用 集群 存储 系统 。 集 群 可 以 无 限 扩展 。 

存储 介质 链 到 了 磁盘 这 一 层 ， 便 又 会 产生 一 个 质变 点 ， 从 CPU Cache 到 磁盘 ， 它 们 都 是 可 
以 随机 针对 任何 地 址 进行 数据 存 取 的 , 而 且 对 于 随机 存 取 , CPU Cache 一 直到 磁盘 这 条 介质 链 上 
的 访问 速度 数量 级 是 连续 降低 的 , 没有 很 大 跳跃 。 但 是 从 磁盘 往 下 走 ， 介 质 链 下 方 是 磁带 ， 如 果 
要 做 到 随机 存 取 磁 带 中 的 数据 的 话 ， 其 访问 速度 的 数量 级 就 会 与 磁盘 处 于 完全 两 个 级 别 ， 所 以 ， 
介质 链 到 了 磁带 以 及 光盘 这 一 层 ， 只 能 够 作为 离线 存储 来 使 用 。 
图 18-4 中 还 有 一 层 称 为 近 线 存储 ， 这 一 层 其 实 是 作为 物理 磁盘 /光盘 与 在 线 磁 盘 的 一 个 缓 
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冲 , 因为 磁盘 与 磁带 在 随机 存储 速度 上 有 天 壤 之 别 , 所 以 介质 链 中 增加 了 这 样 一 个 缓冲 来 在 二 者 
之 间 进 行 速度 适 配 。 滑 稽 的 是 ， 目 前 并 没有 找到 某 种 速度 介 于 二 者 之 间 的 存储 介质 或 者 方法 / 设 
备 , 所 以 也 不 知道 哪 位 干脆 想 出 了 这 样 一 种 办 法 ， 即 发 明 一 种 存储 介质 /设备 /方法 ,其 存储 介质 
就 是 用 磁盘 , 但 是 其 表现 出 来 的 性 质 相 当 于 磁带 , 于 是 这 么 一 个 东西 便 产 生 了 , 叫做 Virtual Tape。 
实现 Virtual Tape 的 设备 称 为 Virtual Tape Library， 即 VTL， 而 且 ，VTL 也 不 能 做 到 随机 存 取 。 

仔细 想来 ， 磁 盘 和 磁带 ,一 在 天 , 一 在 地 ,二 者 本 为 对 立 , 但 是 万 物 阴阳 皆 变 化 ， 二 者 阴阳 
和 合 而 生成 了 另 一 种 物质 , 这 种 物质 以 磁盘 为 阴 实 做 支撑 , 以 磁带 的 习性 为 阳 表 , VTL 内 部 的 虚 
拟 化 引擎 负责 将 阴 实 生化 为 阳 。VTL 之 所 以 被 称 为 近 线 存储 , 就 是 因为 从 在 线 存储 中 将 数据 迁移 
到 离线 存储 之 后 , 一 旦 短 时 间 内 需要 再 次 访问 这 些 数 据 , 那么 就 需要 忍受 非常 低 的 速度 , 而 VTL 
则 可 以 快速 将 数据 提取 出 来 供 访 问 ， 而 当 VTL 上 的 数据 经 过 相当 长 一 段 时 间 没 有 被 访问 之 后 ， 
这 些 数据 就 可 以 认为 是 陈 年 烂 谷子 了 ， 就 可 以 被 迁移 到 离线 存储 介质 中 了 。 

提示 : 随 着 LTO 磁带 及 驱动 器 技术 的 飞速 提高 ，LTOS 磁带 和 驱动 器 已 经 可 以 达到 非常 高 

的 顺序 传输 速度 了 ， 而 且 其 单 流速 度 甚至 可 以 高 于 若干 SATA 盘 组 成 的 RAID 组 所 能 提供 

的 吞吐 量 。 在 这 种 趋势 下 ，VTL 的 优势 将 会 丧失 列 尽 。VTL 现在 如 果 不 开始 考虑 向 其 他 方 

面 转型 ， 比 如 提供 更 多 的 附加 功能 ， 那 么 迟早 会 被 市 场所 淘汰 。 


从 图 18-4 中 可 以 看 到 ,磁盘 既 属于 非 易 失 性 存储 介质 ， 又 属于 在 线 存储 介质 ， 同 时 还 属于 
高 速 随机 存 取 介 质 , 所 以 , 磁盘 在 存储 介质 生态 链 中 的 地 位 首届 一 指 , 磁盘 的 性 能 也 是 影响 整个 
系统 IO 性 能 的 关键 所 在 。 作 为 在 线 存储 介质 的 最 后 一 层 ， 磁 盘 起 到 了 支撑 作用 ， 不 参与 计算 的 
数据 尽 可 能 放置 在 磁盘 上 而 不 是 将 其 放 到 磁带 等 离线 介质 中 。 但 是 磁盘 这 层 支 撑 也 有 破位 的 时 
候 , 比如 , 数据 量 过 大 导致 磁盘 空间 不 够 ,那么 此 时 可 以 选择 添置 更 多 的 硬盘 到 系统 中 。 但 是 为 
了 降低 成 本 , 降低 耗 电量 , 打算 精兵 简 政 , 把 当前 系统 中 不 常 访问 的 数据 迁移 到 磁带 中 或 者 VTL 
中 存放 ， 腾 出 空间 以 容纳 新 数据 。 

磁盘 也 有 多 种 类 型 , 每 种 类 型 的 磁盘 其 性 能 也 不 同 , 而 如 果 在 进行 数据 管理 时 完全 不 考虑 性 
能 ， 而 只 考虑 容量 ， 那 么 就 会 埋没 很 
多 才华 。 如 果 能 够 将 访问 频繁 并 且 性 
能 要 求 又 较 高 的 数据 放置 在 性 能 高 的 
磁盘 或 者 RAID 组 中 ， 而 原先 占 着 高 
性 能 磁盘 或 者 RAID 组 的 那些 不 被 经 
常 访问 或 者 性 能 要 求 也 不 高 的 数据 都 
移动 到 它们 该 去 的 地 方 ， 比 如 低 端 硬 
盘 中 ， 那 么 就 可 以 做 到 物 尽 其 用 了 ， 
能 者 上 ， 庸 者 下 。 

这 也 就 是 数据 分 级 管理 的 意义 
和 目标 。 图 18-5 为 存储 介质 生态 链 
分 级 示意 图 。Tier 对 应 的 数值 越 低 ， 
表明 级 别 越 高 ， 性 能 越 高 。 

右上 图 中 所 标识 的 Tier 级 别 只 是 i 
基于 一 种 判断 因子 ， 即 磁盘 类 型 ， 认 图 18-5 存储 介质 生态 链 分 级 示意 图 
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为 FC/SAS 磁盘 一 定 比 SATA 磁盘 速度 快 ， 所 以 其 级 别 也 就 越 高 。 但 是 实际 情况 下 ， 低 速 硬盘 组 
成 的 RAID 组 的 性 能 不 见得 一 定 比 高 速 硬盘 性 能 低 。 比 如 相同 磁盘 类 型 和 数量 下 , 不 同 的 RAID 
Group，RAID 0 一 定 是 性 能 最 高 的 ，RAID 10 其 次 ，RAID 5 再 次 。 所 以 ， 根 据 不 同 磁盘 、 不 同 
RAID 类 型 、 不 同 的 RAID 组 磁盘 的 数量 组 合 、 加 权 之 后 , 不 同 厂商 在 进行 分 级 管理 时 会 给 不 同 
的 组 合 以 不 同 的 Tier 级 别 ， 比 如 10 块 SATA 磁盘 组 成 的 RAID 0 其 性 能 大 多 数 情况 下 都 比 4 块 
FC 磁盘 组 成 的 RAID 5 要 高 ， 那 么 其 级 别 也 就 相应 地 高 。Tier 级 别 的 高 低 完全 取决 于 最 终 组 合 
之 后 的 子 系统 的 理论 性 能 。 


2. 数据 分 级 的 具体 形式 


数据 分 级 迁移 可 以 分 为 多 种 大 类 ， 下 面 分 类 进行 介绍 。 

1 ) 手动 分 级 、 自 动 分 级 以 及 实时 自动 分 级 

手动 分 级 就 是 用 户 自行 迁移 对 应 的 数据 到 对 应 的 目标 。 比 如 在 一 个 由 8 块 FC 磁盘 组 成 的 
RAID 组 中 有 一 个 LUN， 被 映射 为 Windows 下 的 F 盘 ,其 上 有 一 批 不 太 经 常 被 访问 的 文件 存在 
于 一 个 目录 中 , 而 整个 F 盘 文件 系统 已 经 近 满 ; 同时 在 一 个 由 8 块 SATA 磁盘 组 成 的 RAID 组 中 
有 一 个 LUN， 被 映射 为 同一 操作 系统 下 的 H 盘 。 此 时 ， 某 个 程序 需要 一 个 IO 性 能 比较 高 的 环 
境 来 存放 其 数据 文件 ， 那 么 管理 员 就 可 以 将 F 盘 上 的 整个 目录 手动 移动 到 H 盘存 放 ， 而 F 盘 的 
剩余 空间 可 以 给 这 个 程序 用 来 存放 它 的 文件 。 

自动 分 级 则 很 大 程度 上 替代 了 用 户 自 身 , 用 户 只 要 设 定好 所 有 规则 , 然后 分 级 引擎 就 会 根据 
这 些 规则 来 扫描 对 应 的 Metadata, 一 旦 符合 条 件 ， 则 触发 迁移 任务 。 比 如 ,还 是 上 面 的 例子 ， 用 
户 创建 了 两 个 Tier, Tierl 为 F 盘 ,Tier2 为 HH 盘 , 并 日 增加 了 一 条 规则 ; 若 F 盘 中 任何 文件 其 最 
后 访问 时 间距 当前 系统 时 间 超 过 15 天 则 将 其 内 容 移 动 到 H 盘存 放 ， 并 且 为 了 不 影响 用 户 使 用 ， 
在 F 盘 保留 这 个 文件 的 壳 子 信息 。 

提示 : 这 里 不 能 够 使 用 硬 链接 来 作为 这 个 壳 子 , 因为 硬 链接 要 求 源 和 链接 存在 于 同一 个 文 

件 系统 中 ， 而 下 盘 和 H 盘 是 两 个 不 同 的 文件 系统 。 所 以 ， 这 种 跨 文件 系统 的 占 位 指针 链 

接 , 需要 使 用 第 三 方 独立 的 程序 模块 来 生成 实现 , 这 个 模块 就 是 分 级 数据 管理 引擎 。 分 级 

管理 引擎 会 定期 对 目标 数据 进行 扫描 ， 一 旦 发 现 符合 迁移 条 件 ， 则 立即 触发 迁移 动作 。 


实时 自动 分 级 迁移 , 指 的 是 当 数 据 被 写 入 时 , 分 级 引擎 实时 地 根据 策略 将 数据 重 定向 写 入 对 
应 的 目标 。 比 如 ， 用 户 设 定 了 一 条 策略 : 当 任 何 针对 F 盘 的 IO 进入 时 ,将 IO 重 定向 到 H 盘 ， 
但 是 F 盘 依然 保持 对 应 文件 的 这。 这 样 的 话 , 任何 时 候 针 对 E 盘 文 件 的 写 入 动作 都 会 被 分 级 引擎 
重 定向 到 日 盘 。 

2 ) 文件 级 分 级 和 块 级 分 级 

文件 级 的 分 级 可 以 做 到 更 细 化 的 策略 ， 比 如 根据 文件 的 关联 应 用 程序 ( 扩展 名 ) 、 目 录 、 用 
户 、 组 、 调 用 方式 、 大 小 、 访 问 频 度 等 各 种 五 花 八 门 的 属性 来 作为 分 类 条 件 和 触发 条 件 ， 以 任何 
卷 或 者 目录 为 迁移 目标 进行 迁移 。 文 件 从 原始 Tier 被 迁移 到 其 他 Tier 之 后 ， 在 原始 Tier 上 对 应 
的 位 置 必须 保持 一 个 类 似 硬 链接 的 占 位 指针 。 但 是 与 硬 链接 不 同 的 是 , 这 个 占 位 符 所 表现 出 来 的 
一 切 属性 以 及 操作 方法 ,与 源 文件 完全 一 致 ， 只 不 过 其 实体 内 容 不 在 对 应 位 置 而 已 ,并 且 这 个 占 
位 符 允 许 其 对 应 的 实体 内 容 位 于 其 他 文件 系统 空间 。 这 么 做 的 原因 是 为 了 保持 用 户 层面 的 透明 
性 , 用 户 程序 不 可 能 感知 到 其 文件 实体 内 容 被 放 在 哪里 , 但 是 却 必须 知道 文件 存在 于 哪个 路 径 以 
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便 发 起 访问 ， 而 且 这 个 路 径 不 能 被 底层 擅自 改变 。 文 件 级 的 数据 分 级 管理 只 能 够 在 主机 端 或 者 
NAS 存储 端 来 实现 。 

在 主机 端 实现 文件 级 分 级 管理 ， 几 乎 所 有 产品 都 是 使 用 过 滤 驱 动 来 实现 的 ,在 FS Driver 之 
上 插入 过 滤 驱 动 程序 来 监测 用 户 程序 发 起 的 文件 IO 操作 ， 并 根据 策略 来 将 这 些 IO 进行 重 定向 
迁移 等 操作 ， 如 果 IO 未 匹配 任何 策略 ， 那 么 过 滤 驱 动 会 向 下 透明 地 转发 IO 请 求 。 

而 块 级 别 的 数据 分 级 ， 所 能 够 作为 触发 或 者 分 类 的 条 件 则 很 少 ， 比 如 根据 整个 LUN 或 者 
LUN 中 某 个 或 者 某 些 Block 的 访问 频繁 度 进行 整个 LUN 或 者 其 中 部 分 Block 的 迁移 。 基 本 上 基 
于 块 级 别 的 数据 迁移 也 只 有 根据 访问 频繁 度 来 作为 判断 条 件 才 有 意义 ，Block 级 别 无 法 感知 上 
文件 逻辑 ， 所 以 也 就 无 法 使 用 更 多 的 条 件 作 为 分 类 依据 了 。 分 级 管理 引擎 会 为 整个 LUN 或 者 每 
个 Block 维护 Metadata 用 来 表征 这 个 LUN 或 者 Block 的 访问 频繁 度 等 ， 在 做 迁移 时 ， 会 参考 对 
应 的 Metadata 以 便 判 断 是 否 进行 迁移 以 及 迁移 到 何 处 。 

3 ) 主机 端 分 级 和 存储 端 分 级 

由 于 主机 可 以 同时 连接 多 个 独立 的 外 部 存储 系统 ,所 以 在 主机 端 实现 分 级 也 就 可 以 实现 数据 
在 不 同 的 外 部 存储 系统 间 的 互相 移动 ， 比 如 可 以 将 外 部 高 端 存储 A 上 的 LUN 设置 为 Tierl ， 外 
部 低 端 存储 B 上 的 LUN 设置 为 Tier2， 而 这 是 存储 端 分 级 迁移 所 无 法 做 到 的 ， 存 储 端 只 能 将 自 
身 的 数据 在 自身 的 不 同 Tier 中 迁移 。 主 机 端的 分 级 迁移 几乎 都 是 基于 文件 的 ， 因 为 主机 需要 同 
时 运行 用 户 应 用 程序 , 所 以 不 能 够 耗费 太 多 的 资源 来 运行 这 些 数据 迁移 功能 ,而 块 级 别 的 分 级 迁 
移 往往 需要 耗费 更 多 的 资源 ， 除 非 迁移 的 目标 是 整个 LUN。 目 前 来 看 ， 尚 未 有 厂商 在 主机 端 来 
实现 针对 Block 的 分 级 迁移 。 

在 主机 端 实现 数据 分 级 管理 ,就 需要 在 主机 端 来 安装 对 应 的 数据 动态 迁移 引擎 以 便 监 视 和 管 
理 文件 系统 或 者 卷 级 别 的 数据 信息 。 如 果 整 个 系统 内 有 多 台 主 机 客户 端 需 要 实现 数据 分 级 管理 ， 
那么 就 可 以 使 用 一 台独 立 的 服务 器 来 运行 一 个 管理 端 程序 , 通过 这 个 程序 来 统一 监控 并 且 制 定 策 
略 并 下 发 给 需要 实现 分 级 的 主机 端 上 运行 的 分 级 引擎 , 这 些 引 擎 再 根据 这 些 策略 来 实现 数据 迁移 
动作 。 主 机 端的 分 级 引擎 可 以 与 各 种 主流 应 用 程序 结合 以 实现 更 多 功能 。 

对 于 存储 系统 端的 数据 分 级 操作 , 不 需要 在 主机 端 安装 任何 程序 , 完全 对 主机 端 透明 。 存 储 
系统 又 分 为 NAS 存储 和 Block 存储 。 在 NAS 存储 系统 上 做 分 级 管理 的 话 ， 可 以 针对 其 上 的 文件 
作 分 级 迁移 ， 也 可 以 对 其 底层 的 卷 来 做 块 级 别 的 分 级 管理 ( NAS 存储 系统 也 有 自己 的 卷 ) 。 而 
对 于 Block 存储 系统 自身 的 分 级 管理 , 则 只 能 够 实现 针对 自身 的 LUN 或 者 LUN 中 的 Block 的 分 
级 迁移 操作 。 在 存储 端 进行 分 级 管理 ,是 完全 对 主机 端 透明 的 ， 而 且 不 会 影响 主机 端的 性 能 ,但 
是 存储 端 只 能 够 在 自身 的 不 同 Tier 之 间 做 迁移 。 

4) 应 用 级 分 级 和 底层 级 分 级 

各 种 主流 应 用 程序 比如 Oracle、DB2、SAP、 Exchange Server、SharePoint 等 ， 这 些 对 于 企业 
生产 都 是 极为 重要 的 应 用 系统 ,它们 稳定 运行 了 多 年 , 也 产生 了 大 量 的 数据 ， 而 这 些 数据 并 不 一 
定 都 是 时 刻 需 要 被 访问 的 , 所 以 , 针对 这 些 应 用 系统 , 催生 了 一 批 专门 针对 这 些 应 用 系统 的 数据 
管理 工具 ,比如 实现 对 它们 的 数据 进行 分 析 、 容 灾 、 分 级 迁移 、 归 档 等 。 这 些 数据 分 级 管理 程序 
依附 于 这 些 应 用 系统 , 其 中 有 些 对 于 其 他 普通 文件 也 能 够 达到 一 些 基本 的 分 级 动态 迁移 功能 , 但 
是 只 是 作为 附属 品 来 使 用 。 

运行 在 主机 端的 相对 底层 的 数据 分 级 管理 程序 , 则 是 以 普 适 为 原则 , 可 以 针对 任何 文件 或 者 
LUN、 卷 等 来 做 分 级 的 迁移 , 而 把 针对 某 些 应 用 程序 的 特殊 支持 来 作为 一 种 插件 或 者 选 件 来 独立 
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开发 。 

对 于 运行 在 外 部 存储 系统 上 的 分 级 管理 引擎 ， 对 于 主机 本 身 来 讲 就 是 彻底 的 底层 的 分 级 管 
理 了 。 

5 ) 简单 迁移 和 复杂 分 级 

数据 分 级 管理 工具 可 以 被 分 为 两 大 类 : 简单 迁移 工具 和 复杂 分 级 工具 。 所 谓 简单 迁移 工具 是 
指 一 类 只 能 实现 简单 策略 的 文件 级 别 迁移 工具 , 比如 只 根据 文件 最 后 访问 时 间 来 判断 文件 的 访问 
热度 ， 然 后 将 其 实体 内 容 迁 移 到 指定 的 地 点 存放 ， 一 般 不 能 做 到 实时 IO 重 定向 ， 只 能 定期 地 扫 
描 并 做 迁移 。 而 复杂 分 级 工具 则 是 可 以 提供 大 量 复杂 策略 以 及 可 以 制定 复杂 Tier 组 合 的 而 且 可 
以 动态 实时 IO 重 定向 的 分 级 管理 工具 ， 这 种 工具 其 实 也 可 以 称 为 “基于 复杂 策略 的 IO 实时 重 
定向 工具 ”。 一 些 现 有 的 数据 分 级 迁移 产品 基本 上 可 以 说 是 一 种 数据 归档 产品 ,它们 不 会 对 不 同 
的 存储 介质 进行 性 能 等 属性 区 分 , 而 只 是 简单 地 将 长 时 间 不 访问 的 数据 迁移 到 其 他 位 置 或 者 离线 
介质 等 ， 这 种 产品 没有 “分 级 ”而 只 有 “迁移 ”。 

6 ) 基于 纯 性 能 需求 的 分 级 和 基于 人 为 因素 需求 的 分 级 

这 两 种 需求 有 着 本 质 不 同 ， 有 时 甚至 是 相 了 矛盾 的 。 比 如 某 份 文件 ,两 周 内 只 有 几 次 访问 , 它 
被 迁移 到 了 SATA 近 线 存储 中 , 又 过 了 两 周 , 无 人 访问 了 ， 它 被 迁移 到 了 磁带 中 。 一 周 之 后 , 某 
领导 突然 需要 访问 这 份 文件 ,结果 他 等 了 5 分 钟 才 访问 到 ,结果 大 发 雷霆 。 这 种 情况 相信 很 多 人 
都 见 过 。 

那么 在 面 对 人 为 因素 介入 的 时 候 ，HSM 厂商 到 底 应 该 怎么 做 呢 ? 笔者 在 此 设想 一 种 方案 ， 
此 时 厂商 可 以 在 条 件 里 加 入 一 个 复 选 框 一 一 “有 人 为 因素 介入 ”， 用 户 在 设置 策略 条 件 的 时 候 ， 
如 果 判 断 目 标 数据 可 能 会 卷 入 政治 因素 , 那么 他 只 需要 勾 选 这 个 复 选 框 就 可 以 , 迁移 引擎 不 会 再 
迁移 目标 数据 到 磁带 ， 除 非 操作 员 手动 通知 引擎 人 为 因素 已 消除 。 

浮想 : 其 实在 很 多 时 候 ， 人 为 因素 始终 都 是 软件 程序 所 面 对 的 最 大 的 麻烦 。 计算 机 目前 还 

做 不 到 像 人 一 样 的 性 格 ， 比 如 可 以 预测 到 某 份 文件 可 能 某 个 领导 将 来 某 个 时 候 一 定 要 查 

看 , 所 以 本 着 领导 第 一 的 思想 ， 如果 让 人 来 控制 的 话 ， 这 份 文件 一 定 是 被 放 在 高 性 能 存储 

中 的 ,即便 是 其 他 更 重要 的 数据 有 强烈 需求 , 但 是 在 面 对 人 为 因素 的 时 候 , 其 他 一 切 都 可 

以 牺牲 。 这 正 是 政治 的 特征 ， 计 算 机 也 逃 不 掉 。 

计算 机 目前 既 做 不 到 人 的 正义 刚直 , 也 同样 做 不 到 人 的 虚伪 阴险 。 曾经 看 过 一 部 电影 叫做 

《应 眼 》， 整 个 城市 的 秩序 和 规则 都 有 计算 机 来 控制 ， 可 是 最 后 依然 没 能 逃脱 被 人 所 控制 

的 命运 。 

然而 , 我 坚信 计算 机 一 定 会 进化 , 最 后 产生 自己 的 智能 和 规则 ,就 像 人 一 样 ， 由 原生 单 细 

胞 进化 为 多 细胞 复杂 系统 。 计 算 机 也 会 经 过 这 种 进化 过 程 。 而 且 我 也 坚信 单 细胞 生物 也 是 

被 创造 出 来 的 东西 。 

7 ) 数据 分 级 迁移 粒度 

对 于 文件 级 的 分 级 迁移 , 其 粒度 一 般 就 为 整个 文件 。 如 果 要 达到 更 小 的 粒度 , 比如 将 文件 分 
为 多 个 逻辑 部 分 , 针对 每 个 部 分 都 维护 一 个 描述 表 用 来 描述 这 个 部 分 的 访问 频 度 、 最 后 访问 时 间 
等 信息 ， 那 么 无 疑 是 一 个 很 大 的 工程 ， 会 对 系统 性 能 有 一 定 影响 ; 其 次 ,一 个 文件 为 一 个 整体 ， 
如 果 只 将 文件 中 部 分 数据 进行 迁移 ， 那 么 如 何 维护 迁移 之 后 零散 的 文件 实体 内 容 之 间 的 链条 关 
系 ， 也 是 一 个 复杂 的 工程 ; 再 次 ,文件 级 的 迁移 一 般 来 讲 都 是 运行 在 主机 端的 ， 除 非 使 用 NAS 
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系统 ， 则 可 以 在 NAS 存储 系统 自身 来 实现 迁移 ,如果 没有 使 用 NAS 系统 , 在 主机 端 实现 文件 级 
别 的 分 级 ， 是 要 耗费 一 定 的 主机 资源 的 。 

所 以 这 种 情况 下 , 尽量 简化 处 理 过 程 是 有 必要 的 。 但 是 如 果 目 标 文件 是 由 某 些 主流 应 用 程序 
产生 的 , 比如 Exchange Server 以 及 Outlook 的 邮箱 文件 等 , 那么 不 排除 有 些 分 级 管理 程序 会 与 这 
些 应 用 配合 来 分 析 这 些 文件 中 的 具体 结构 而 针对 不 同 用 户 、 组 、 邮 箱 等 来 将 整个 文件 中 的 各 个 不 
同 区 域 区 别 对 待 进行 迁移 或 者 归档 。 至 于 NAS 存储 系统 对 自身 文件 的 分 级 迁移 ， 则 可 以 相对 于 
主机 更 加 灵活 和 强大 。 

对 于 块 级 别 的 数据 分 级 迁移 ， 则 可 以 有 多 种 粒度 ， 比 如 整个 LUN ， 或 者 各 种 大 小 的 
Block/Extent/Chunk/Page/Sub-LUNI( 叫 法 不 同 , 本 质 相同 ). 比 如 ,可 以 设 定 每 个 Extent 为 64KB、 
1MB、16MB 等 ， 不 同 厂商 的 设计 不 同 ， 选 择 的 Page 尺寸 也 不 同 。 

一 般 来 讲 ， 迁 移 粒度 越 小 ， 物 尽 其 用 的 程度 就 越 高 ， 但 是 所 需要 维护 的 Metadata 以 及 耗费 
的 系统 资源 也 就 越 多 。 迁 移 整 个 LUN 粒度 过 大 ， 难 免 以 偏 概 全 ， 或 者 顾此失彼 ， 而 如 果 迁 移 的 
目标 Tier 是 SSD， 则 一 旦 整个 LUN 被 迁移 到 SSD， 而 随后 却 发 现 只 有 LUN 中 的 某 些 区 域 为 频 
繁 访问 的 , 即 Hot Spot, 那么 其 余部 分 如 果 仍然 占用 SSD 的 空间 , 就 属于 一 种 浪费 了 ,SSD 毕竟 

对 于 存储 端 Block 级 别 的 分 级 管理 ， 其 LUN 分 布 的 粒度 有 多 小 ，Tier 的 粒度 就 有 多 小 。 比 
如 3PAR 在 LUN 分 布 时 是 以 Chunk 为 单位 ， 以 一 定 的 策略 在 所 有 磁盘 上 分 布 。3PAR 自称 这 种 
分 布 方式 为 Dynamic Optimisation, 在 系统 内 所 有 硬盘 中 动态 地 分 布 ， 而 一 旦 系统 内 的 硬盘 有 了 
分 层 ， 比 如 SSD、FC、SATA， 那 么 Dynamic Optimisation 在 动态 分 布 时 就 需要 多 考虑 一 层 ， 即 
分 级 策略 层 ， 根 据 不 同 访问 频率 或 者 根据 其 他 细 化 的 策略 将 Chunk 迁移 到 不 同 的 存储 介质 层次 
上 ,所 以 Dynamic Optimisation 被 更 名 为 Adaptive Optimisation，Chunk 当然 也 就 变 成 了 迁移 最 小 
单位 。 

再 比如 XIV, 以 1MB 大 小 的 Block 作为 LUN 分 布 单位 , 并 且 Block 可 以 在 所 有 系统 硬盘 内 
任意 移动 , 那么 它 完 全 也 可 以 实现 细 粒 度 的 Tier， 只 需要 增加 一 个 Policy 层 即 可 , 并 且 是 顺手 牵 
羊 的 事情 , 可 惜 XIV 至 今 仍 未 有 动作 , LUN 分 布设 计 与 XIV 类 似 的 3PAR 却 早已 实现 了 数据 分 
级 管理 。EMC 在 FAST 1.0 版 本 中 只 提供 整个 LUN 级 别 的 迁移 ， 在 FAST 2.0 ( 至 写作 当天 尚未 
发 布 ) 中 会 支持 Sub-LUN ( 大 小 未 知 ) 级 别 的 迁移 粒度 。 

8 ) Tier 的 界定 

所 有 分 级 存储 管理 引擎 均 需要 用 户 自 行 设 定 系统 内 的 所 有 Tier。 那么 符合 什么 条 件 的 存储 介 
质 或 者 存储 介质 的 组 合 才能 称 之 为 一 个 Tier 呢 ? 可 以 灵活 指定 Tier， 比 如 将 系统 中 所 有 由 5 块 
FC 盘 或 者 10 块 SATA 盘 组 成 的 RAID 5 组 设 定 为 Tierl , 而 将 5 块 SATA 盘 组 成 的 RAID 5 组 设 
定 为 Tier2, 将 SSD 磁盘 组 成 的 任何 类 型 的 RAID 组 设 定 为 Tier0。 性 能 方面 , Tier0>Tierl>Tier2。 
总 之 , 用 户 可 以 将 任何 对 象 的 组 合 任意 灵活 地 设 定 为 一 个 独立 的 Tier, 并 且 给 这 个 Tier 分 配 一 个 
性 能 指数 ， 比 如 0/1/2 等 。 

注意 : 性 能 的 高 低 确 实 是 用 来 界定 一 个 Tier 与 其 他 Tier 的 指标 之 一 ,但 是 不 同 的 Tier 之 

间 的 区 别 并 不 只 是 性 能 。 有 时 候 ， 某 些 上 层 需求 不 仅仅 是 要 求 单个 IO 的 性 能 这 么 简单 ， 

比如 ， 上层 要 求 在 访问 某 些 数据 的 时 候 ， 应 当 具 有 较 高 的 并 发 度 ， 而 不 要 求 高 带宽 ,那么 

此 时 就 可 以 把 这 些 数据 放置 到 具有 较 高 言 并 发 度 的 RAID 组 中 , 比如 RAID 5, 而 如 果 将 其 

放 和 人 RAID 3 类 型 的 RAID 组 中 , 那么 后 果 是 可 想 而 知 的 。 再 比如 ， 某 个 文件 系统 的 Block 
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Size 为 4KB, 但 是 有 这 么 一 大 批文 件 , 它们 的 平均 尺寸 只 不 过 1KB, 这 些 文件 有 几 十 万 个 ， 
那么 对 于 这 种 文件 , 存放 在 Block Size=4KB 的 文件 系统 下 显然 是 浪费 空间 的 ， 所 以 可 以 将 
它们 的 实体 内 容 迁 移 到 一 个 Block Size=1KB 的 文件 系统 (Tier ) 下 存放 。 


任何 事物 都 有 其 优 缺 点 ， 划 分 不 同 Tier 的 目的 就 是 将 每 个 细 化 的 不 同 之 处 ( 不仅 是 性 能 ) 
都 区 分 开 来 , 然后 加 以 不 同 的 组 合 , 组 合成 干 变 万 化 的 Tier, 然后 扬长 避 短 ， 用 不 同 的 Tier 去 满 
足 干 变 万 化 的 上 层 IO 需求 。 

9 ) 数据 在 Tier 间 的 相互 移动 

数据 被 从 一 个 Tier 迁移 到 另 一 个 Tier 之 后 ， 如 果 需 要 访问 这 些 数据 ， 那 么 分 级 管理 引擎 会 
根据 这 两 个 Tier 之 间 的 性 能 差距 来 执行 不 同 的 动作 。 比 如 Tierl 为 10 个 FC 盘 组 成 的 RAID 组 ， 
而 Tier2 为 10 个 SATA 盘 组 成 的 RAID 组 ， 那么 这 两 个 Tier 之 间 的 性 能 差距 不 是 非常 悬殊 ， 所 
以 一 旦 上 层 需要 访问 从 Tierl 被 迁移 到 Tier2 的 数据 ,那么 引擎 会 直接 从 Tier2 对 应 的 空间 内 读 出 
内 容 返 回 给 上 层 。 但 是 如 果 Tier2 为 磁带 的 话 ， 那 么 Tierl 和 Tier2 之 间 的 性 能 差距 就 是 悬殊 的 ， 
不 可 能 实时 地 将 上 层 的 IO 重 定向 到 磁带 ， 这 样 做 访问 速度 将 会 非常 慢 ， 那 么 此 时 分 级 引 警 的 动 
作 就 是 将 整个 或 者 部 分 之 前 被 迁移 的 数据 集 先 从 磁带 一 次 性 临时 恢复 到 Tierl 上 ， 从 而 保持 较 快 
的 上 层 IO 响应 速度 ， 当 针对 这 些 数据 的 IO 访问 停止 了 相当 一 段 时 间 之 后 ， 分 级 引擎 便 会 将 之 
前 恢复 到 Tierl 上 的 数据 实体 删 掉 以 腾 出 空间 给 其 他 需要 的 数据 所 用 。 

如 果 自 从 这 些 数据 被 迁移 之 后 , 针对 这 些 数据 的 访问 频率 达到 了 一 定 的 阔 值 , 并 且 持 续 了 相 
当 一 段 时 间 ， 那 么 分 级 引擎 就 可 以 根据 相关 策略 ( 如 果 有 的 话 ) 将 这 些 数据 从 Tier2 永久 迁移 回 
至 Tierl ， 释 放 Tier2 上 对 应 的 空间 。 

根据 已 经 制定 的 策略 , 分 级 管理 引擎 会 在 策略 导向 下 不 断 地 实现 整体 系统 内 部 的 数据 分 级 迁 
移动 作 ， 整 体 就 表现 为 物 尽 其 用 ， 性 能 得 到 充分 发 挥 。 


3. 如 何 判 断 热点 数据 


在 判断 热点 数据 之 前 肯定 要 清晰 地 定义 什么 才 是 热点 数据 。 当然 , 不 同 厂商 有 不 同 的 理解 和 
对 应 的 判断 依据 。 冷 和 热 之 间 本 来 就 没有 一 个 严格 的 分 界 , 所 以 都 是 相对 而 言 的 。 一 般 是 利用 二 
八 原则 , 即 10 分 数据 ,如 果 把 每 1 分 数据 按照 单位 时 间 内 所 被 IO 的 次 数 来 进行 排序 ， 取 被 访问 
次 数 最 多 的 2 分 数据 ， 那 么 就 可 以 说 这 2 分 为 热 数据 。 

然而 , 这样 做 一 定 是 鲁莽 的 。 比 如 如 果 某 数据 块 近期 内 被 频繁 访问 , 但 是 每 次 访问 都 命中 了 
Cache, 那么 这 种 算 不 算 热 数据 ? 当然 算 。 应 不 应 当 被 迁移 到 高 速 SSD 介质 ? 当然 不 需要 。 再 者 ， 
如 果 某 个 块 确实 也 被 频繁 读 访问 ， 而 且 每 次 都 不 命中 Cache， 但 是 这 个 块 属于 一 次 长 时 间 连 续 地 
址 IO 中 的 某 个 块 , 每 隔 一 分 钟 就 有 一 次 吞吐 量 非常 大 的 连续 IO 发 生 , 那么 这 些 连 续 IO 的 数据 
块 ， 肯 定 是 热 数据 ， 但 是 是 否 有 必要 被 迁移 到 SSD? 也 没有 必要 。 ( 多 次 被 连续 IO 访问 到 的 块 
不 一 定常 驻 Cache， 可 能 会 随时 被 其 他 地 址 范围 的 大 吞吐 量 数 据 给 挤 出 Cache ) 还 有 ， 如 果 某 段 
数据 在 近 一 周 内 都 被 频繁 访问 ， 而 唯 独 今天 访问 频率 又 降 。 相 反 ， 某 段 数 据 近 一 周 都 没有 被 访问 
过 而 今天 突然 被 高 频 访问 ， 那 么 此 时 是 继续 维护 原 有 的 策略 ， 认 为 新 进 的 疑似 热 数 据 有 待考 验 
么 ? 不 见得 。 

所 以 ， 在 鲁莽 的 大 棒 之 下 ， 还 需要 有 众多 的 细节 辅佐 。 综 合 来 讲 ，ReadMiss、 随 机 IO、 当 
前 的 访问 频 度 更 加 受到 重视 。 
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4. 块 级 自动 分 级 的 具体 底层 数据 结构 与 架构 


理论 上 有 两 种 可 用 的 方法 : 带 内 元 数据 与 带 外 元 数据 法 。 这 两 个 名 词 很 抽象 ,下面 进行 解释 。 
试想 , 自动 分 级 存储 必须 要 追踪 每 个 块 的 属性 , 包括 最 后 访问 时 间 、 某 段 时 间 内 被 访问 了 多 少 次 、 
读 还 是 写 、 缓 存 命中 率 统计 等 数据 。 保 存 这 些 数据 可 以 有 两 种 方法 : 第 一 种 方法 就 是 在 每 个 块 的 
尾部 /首部 追加 一 小 部 分 空间 来 存放 对 应 这 个 块 的 所 有 这 些 元 数据 ， 也 就 是 所 谓 带 内 元 数据 法 ; 
第 二 种 方法 则 是 单独 构建 一 个 小 型 数据 库 来 存放 所 有 块 的 元 数据 , 数据 库 的 数据 存放 在 一 个 单独 
的 固定 空间 内 ， 也 就 是 所 谓 的 带 外 元 数据 法 。 

我 们 来 演绎 一 下 这 两 个 模型 , 首先 看 第 一 个 模型 。 如 果 按照 这 个 模型 来 设计 , 那么 系统 即便 
是 在 读 ( 由 用 户 发 起 的 读 ， 而 不 是 系统 内 部 自身 发 起 。 对 于 系统 自身 发 起 的 操作 ， 比 如 动态 的 
LUN 块 分 布 机 制 、 手 动 的 数据 迁移 、RAID 级 别 /类 型 改变 等 各 种 其 他 原因 导致 的 数据 块 移动 ， 
由 于 这 种 移动 是 由 于 系统 内 部 原因 所 致 而 不 是 由 于 用 户 访问 所 致 , 所 以 这 种 情况 下 不 会 去 更 新 尾 
部 元 数据 ,元 数据 会 随 着 块 一 同 走 ) 某 个 块 或 者 某 个 块 的 一 部 分 时 ,也 要 顺便 更 新 一 下 这 个 块 尾 
部 的 元 数据 ， 也 就 是 说 逢 读 必 写 ， 这 样 的 话 ， 如 果 系 统 分 块 很 小 ,比如 512KB 级 ， 那 么 势必 导 
致 元 数据 数量 增多 ， 而 且 分 布 在 磁盘 的 各 处 (每 512KB 就 有 一 份 元 数据 ) ， 这 样 的 话 会 导致 严 
重 的 性 能 问题 。 一 个 解决 办 法 就 是 使 用 日 志方 式 来 避免 对 性 能 的 影响 , 比如 先 将 要 更 新 的 东西 记 
录 到 一 个 日 志 中 存放 , 在 系统 不 繁忙 的 时 候 在 后 台 将 日 志 重 放 , 更 新 到 对 应 块 尾部 的 元 数据 区 中 。 
同 理 可 推 ， 这 种 架构 下 ， 系 统 也 必须 在 后 台 对 所 有 的 元 数据 进行 挖掘 、 分 析 , 之 后 匹配 策略 并 进 
行 迁移 , 这 就 要 求 系统 扫描 每 一 个 块 并 作 分 析 之 后 立即 决策 将 块 移动 到 哪个 对 应 的 层级 , 或 者 不 
移动 , 如 果 要 移动 , 就 立即 将 其 推送 到 迁移 队列 中 等 待 迁 移 。 这 种 方法 注定 需要 频繁 的 IO 操作 ， 
并 且 极 其 耗费 系统 资源 。 还 别 说 ,真有 这 么 干 的 厂商 ， 那 就 是 Compellent， 其 分 块 粒度 可 以 配置 
为 512KB 、2MB 或 者 4MB， 是 否 这 种 做 法 真 的 对 其 性 能 有 严重 影响 这 个 实在 不 得 而 知 ， 希 望 知 
情 的 读者 能 够 与 笔者 联系 探讨 ( 联系 方式 在 前 言 中 ) 。 

现在 再 来 看 看 第 二 个 模型 。 第 二 个 模型 相对 于 第 一 个 模型 来 讲 更 好 接受 , 也 符合 常理 。 首 先 
它 根 本 不 需要 对 磁盘 上 的 数据 块 做 任何 结构 改变 , 一 切 都 是 在 带 外 发 生 作用 。 这 就 使 得 这 种 设计 
可 以 以 一 种 独立 软件 模式 来 交付 ,可 以 稍 加 开发 安装 在 各 种 磁盘 阵列 中 , 甚至 主机 中 。 这 里 就 不 
做 过 多 介绍 了 ， 读 者 可 以 自行 构想 。IBM 的 Easy Tier 采用 的 是 第 二 种 设计 模式 。 

提示 : 集群 /分 布 式 文件 系统 也 是 一 个 可 以 天 然 就 实现 数据 自动 分 级 的 坏 子 ， 为 何 这 么 说 

呢 ? 只 要 看 它 的 名 字 即 可 ， “分布 式 ”文件 系统 ， 同 一 个 文件 或 者 同一 个 LUN 的 不 同 部 

分 可 以 被 放置 到 不 同 的 位 置 ,注意 “不 同 的 位 置 ”， 这 几 个 名 词 决 定 了 分 布 式 文件 系统 的 

天 然 数 据 分 级 潜质 ， 只 需要 在 其 上 进行 再 开发 ， 很 容易 地 可 以 实现 数据 自动 分 级 。 


5. 数据 自动 分 级 对 性 能 的 影响 


自动 分 级 所 面临 的 技术 问题 ， 与 Thin Provision 粒度 问题 带 来 的 性 能 降低 一 样 ， 分 块 粒度 越 
小 ， 所 带 来 的 性 能 降低 就 越 明显 ， 表 现 为 两 方面 : 计算 资源 的 耗费 与 IO 资源 的 耗费 。 分 块 粒 度 
降低 必然 导致 元 数据 数量 激增 , 搜索 和 处 理 效率 降低 , 同时 也 导致 经 过 分 级 之 后 的 数据 块 在 物理 
上 变 得 不 连续 ， 如 果 数 据 块 被 迁移 到 SSD 这 种 不 需要 机 械 寻 道 的 存储 介质 中 ， 那 么 访问 这 些 块 
的 效率 虽然 不 会 打折 , 但 是 在 原 存储 层级 会 留 下 孔洞 , 未 被 迁移 的 数据 块 也 会 变 得 不 连续 , 对 它 
们 的 访问 势必 会 导致 磁盘 机 械 寻 道 操作 增加 ， 从 而 降低 了 性 能 。 
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最 后 , Thin Provision 与 自动 数据 分 级 这 两 种 技术 应 该 说 本 是 同根 生 , 上 面 一 节 中 论述 了 Thin 
Provision， 可 以 回溯 一 下 。 自 动 数据 分 级 相对 于 Thin Provision 在 最 本 质 上 的 不 同 就 是 前 者 可 以 
将 分 块 放 到 其 他 不 同 的 介质 中 ,在 Thin 上 加 以 改动 就 可 以 变 为 自动 分 级 ,后面 章节 中 会 介绍 LUN 
在 RAID 组 中 的 分 布 方式 ， 届 时 会 看 到 ，LUN 分 布 、Thin 、 自 动 分 级 其 实 本 质 都 是 相同 的 。 


6. 目前 存储 厂商 的 数据 分 级 管理 产品 


1) Symantec 
Enterprise Vault 是 Symantec 收购 KVS 公司 的 产品 ， 这 个 产品 的 作用 主要 是 邮件 归档 ， 即 与 
Exchange Server 等 邮件 程序 配合 来 实现 对 邮件 的 归档 管理 , 按照 一 定 的 规则 策略 将 系统 中 的 待 归 
档 数 据 进 行 迁移 归档 。 
Storage Foundation Dynamic Storage Tiering 则 是 Storage Foundation 中 的 一 项 高 级 的 数据 分 级 
管理 模块 , 它 基于 VxFS 文件 系统 下 的 文件 进行 分 级 ,可 以 详细 定制 各 种 策略 ,定制 各 种 存储 Tier。 
NetBackup Storage Migrator 则 是 一 个 专门 与 Netbackup 备份 软件 相 结合 的 数据 分 级 迁移 模 
块 ， 它 迁移 的 是 数据 的 备份 而 不 是 当前 在 线 的 数据 。 
2) IBM TSM for Space Management 
IBM 的 Tivoli Storage Manager ( TSM ) 是 一 整套 IT 系统 数据 管理 套件 ， 它 包括 很 多 模块 ， 
比如 备份 、 系 统 监 控 、CDP、Tier 等 。 其 中 TSM for Space Management 就 是 TSM 中 的 数据 分 级 
管理 模块 。TSM for Space Management 是 一 个 主机 端 文件 级 别 的 迁移 工具 ， 这 个 工具 属于 一 种 极 
其 简单 的 迁移 工具 。 作 为 一 个 客户 端 程序 , 它 将 主机 端 文件 系统 下 符合 策略 的 文件 通过 网 络 传输 
到 TSM Server 端 保 存 , 在 Server 端 可 
以 创建 不 同 的 目录 ( 挂 载 不 同 Tier 的 
存储 空间 ) 用 于 保存 这 些 数据 ， 当 有 
程序 对 这 些 已 经 被 迁移 的 文件 进行 访 
问 时 , 客户 端 程序 会 从 TSM Server 端 
将 文件 取 回 覆盖 到 原 路 径 下 。 如 图 
18-6 所 示 为 TSM for Space 
Management 的 架构 示意 图 。 
作为 一 家 同时 涉足 存储 软件 和 硬件 的 厂商 ，IBM 目前 为 止 并 没有 在 其 存储 系统 硬件 中 提供 
块 级 数据 分 级 功能 。 
下 面 演示 一 下 TSM for Space Management 在 Windows 系统 下 的 具体 操作 。 
(1) 如 图 18-7 所 示 , 打开 
HSM Client 窗口 ， 然 后 
单 击 Job 一 New Job 命 
令 , 在 弹出 的 窗口 中 填 图 18-7 TSM for Space Management 架构 示意 图 
入 一 个 Job 名 称 ， 然 后 
确定 退出 ， 在 主 窗口 中 就 会 显示 出 新 建 的 Job 名称 。 本 例 中 为 ITSOJob1。 
(2 ) 下 一 步 将 要 定义 这 个 Job 的 工作 内 容 , 双击 窗口 中 已 创建 的 Job, 弹出 如 图 18-8 左边 所 
示 的 对 话 框 。 对 话 框 中 显示 的 Nodename 是 在 安装 HSM Client 端 时 指定 的 本 机 名 称 ， 


图 18-6 TSM for Space Management 架构 示意 图 
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而 Server 指 的 是 TSM Server 端的 域名 和 端口 号 ， 也 是 在 安装 HSM Client 端 时 指定 的 。 
在 File Space 中 ,我 们 需要 填 入 一 个 名 称 , 这 个 名 称 表示 TSM Server 端 用 来 保存 这 个 Job 
所 迁移 过 去 的 所 有 文件 的 目录 名 称 ， 也 就 是 说 给 TSM Server 端的 目录 起 一 个 名 字 , 或 
者 使 用 一 个 已 存在 的 目录 ， 用 来 保存 将 要 被 迁移 的 文件 。 图 18-8 右 侧 的 对 话 框 是 让 用 
户 来 选择 将 要 迁移 的 本 地 目录 或 者 文件 的 ， 单 击 New Directory 按钮 来 添加 一 个 本 地 的 
目录 ， 出 现 如 图 18-9 左 侧 所 示 的 对 话 框 。 


Genera Sourceries | 


Genera |source Fles | 


Destination fls space- Source Fies B Directories 
Specly to Which fle space the fles covered by ths job shoud be Spechy which fies and drectories rod be covered by ths job and 
mated ht eudbe dene with them 
Loceton Action 
moe, | 二 | 
ok Cancal 
图 18-8 定义 Job 内 容 
Generd | advanced Condeors | | Serera Movanced Condtons | 
Enter drectory name to be rigracad: You can fine-tune which fies should be covered by this jeb by cefiring 
rcse nd exdude concdbions, 


Drectory Incude fh Exclde Condivons 
[Since subdrectores 


中 Nodficaton solder 120 Day(s) 


-Aetion- 
When the matchng Fies were mgrated … 


Keep the orgnal fles 
© Replece the fies mih shortouts to the fle spaxe 
Delete the fles 


el _% |_ oe | 
图 18-9 添加 目录 以 及 定义 策略 


(3 ) 在 图 18-9 的 左 侧 对 话 框 中 ， 单 击 Browse 按钮 选择 要 迁移 的 目录 ， 下 方 可 以 选择 是 否 


包含 子 目 录 。 最 下 方 提 供 有 三 个 迁移 选项 : 迁移 之 后 保存 原 有 文件 不 变 、 迁 移 之 后 保存 
占 位 指针 、 迁 移 之 后 删除 源 文件 。 一般 为 了 保证 上 层 的 透明 性 , 都 应 当选 择 保存 占 位 指 
针 。 右 侧 所 示 的 对 话 框 可 以 定义 更 高 级 的 迁移 触发 策略 , 可 以 添加 多 条 策略 并 且 对 策略 
进行 排序 , 还 可 以 选择 Include 或 Exclude 模式 做 反 向 排除 。 单 击 Include 来 增加 一 条 “ 匹 
配 便 执行 ”的 策略 ， 弹 出 如 图 18-10 所 示 的 对 话 框 。 


(4 ) 这 个 对 话 框 中 可 以 选择 以 文件 大 小 、 创 建 时 间 、 修 改 时 间 、 最 后 访问 时 间或 者 全 
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E 意 的 组 


合 来 作为 策略 判断 条 件 。 本 例 中 选择 超过 120 天 未 修改 作为 判断 条 件 。 定 义 完毕 之 后 ， 


单 击 确 定数 次 , 退出 。 可 以 看 到 在 如 图 


ncudeFlesbased cn Age 习 


18-11 所 示 的 主 窗口 中 , Job 内 容 已 经 定义 完 


@ IBM Twoii Storage Manager - HSM Client 


ET | 

Dost Ee 

Ho 0 

Altimes aeinUTC DIERTI ] 


Ce ] em | 


azov.almadenibm.com 。 Wimhsmrfs1 WFX51737DSotiedhooksIDRMICED_HSMWL 


图 18-10 定义 迁移 策略 
(5) 在 Job 上 右 击 ， 然 后 单 击 执行 ， 会 弹出 如 图 18-12 所 示 的 对 话 框 ， 显 示 任 务 正 在 执行 。 
(6 ) 当 任 务 执行 完毕 之 后 ， 会 出 现 一 个 Summary 窗口 ， 如 图 18-13 所 示 。 


Migrating file: WFX51737\DSNowiNedbooks\DRM\.\6844ch08im 


wee | 
图 18-12 任务 正在 执行 


图 18-11 Job 内 容 定义 完毕 


FE 本 
jocessed -155 
Succesr 人 
Poked o 
Cr 


SNTIND SV oR edbooh DRMCED -HSM GBH. 
WPSITINDS Vomvedbook sDRMICED -HSMVGB44L 


WS17IN DS Ven eock AORM\CED HSMNEB44a 


P17INOS VonNedbook sDAMVCED HSMVGB4b 


图 18-13 任务 执行 完毕 的 Summary 窗口 


毕 。 


(7) 如 图 18-14 所 示 为 目标 目录 在 迁移 前 和 迁移 之 后 所 占用 空间 的 变化 。 可 以 看 到 右 侧 中 
的 Size on disk 为 1.37MB， 这 些 为 占 位 指针 所 占用 的 空间 。 


-ED_HSM Propertie 隔 加 
areal | Shuine | Secu| amd | shuna| Soouiy| 
cn aa 
二 二 二 上 
Da Leo 
See 23.8M8 125008023byesl Sor 228MB S098023byesl 
Se n sk 210 MB (25.039023 bes] Se on dsk 1.HMB N445.394 bytes] 
cee ce 
Breesetn rte 0 PN ee otto tne 
Ambuer CF headony dvenced- ae 三 aeereed | 
厂 Hddm 厂 Haien 
Eee | rm | 


图 18-14 TSM for Space Management 架构 示意 图 


(8 ) 当 本 地 某 程序 访问 被 迁移 的 文件 时 ，HSM Client 会 实时 
文件 实体 内 容 拉 回 并 且 覆 盖 到 源 文件 所 在 的 目录 中 。 如 


地 从 Server 端 对 应 的 目录 吕 
图 


将 


18-15 所 示 为 某 文件 在 访问 
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芽 )s 


前 和 访问 后 的 变化 。 


| | 十 


Tope of fie Adobe FromeMaker Documenl 


Opee wn E> Domeviee 匡 Fenaldohriaimn Ope 
locaton Daeok DAMWCED HSN acser Dsiveoch DAMWED. HSM 

Soe 269 MB 28268298 bytes] See 270MB (2634.432 bytes) 

Saoen sil: A007 og5bped Se m sk 270Me R34 tye 


Cested Today. November 10, 2005.33931 PM Cesed 

| i 

ed ee 

Stibutes: = Fleatony Hidden Advanced - buier 
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Tadm Novenbw TO 2005 33931 PM 
Tadm Nevenba 10, 2005 5 72959 PM 
Tadm November 10, 2005 5 2853 PM 


et。 dr 


图 18-15 访问 文件 时 会 自动 从 Server 端 拉 回 文件 并 覆盖 到 本 地 


(9 ) 当然 也 可 以 手动 将 文件 内 容 拉 回 。 单 击 Migrate/Retrieve 一 Search&Retrieve 命令 ， 


出 现 如 


图 18-16 左 侧 所 示 的 对 话 框 。 选 择 Server 端的 目录 ， 然 后 填 入 查找 的 卷 名 /路 径 名 /文件 


名 ， 单 击 Search 按钮 。 


Specfy n which fle spare you wart to search. 


wom: 


wm [9 
mm 3 


Met tet Cee ah 人 Iowa dr 
sin mrk 0) os sbsthske for rle dh 


Specfy a srch otere, enpty folds morch everytheg. 


图 18-16 手动 拉 回 文件 内 容 


(10 ) 选中 图 18-16 右 侧 对 话 框 中 的 某 个 欲 拉 回 的 文件 ， 
单 击 Retrieve 按钮 , 出 现 如 图 18-17 所 示 的 对 话 框 ， 
选择 对 应 的 动作 ， 然 后 单 击 Retrieve 按钮 即 可 将 文 


件 内 容 拉 回 到 原 处 。 


通过 上 面 的 步骤 我 们 可 以 看 到 ,TSM for Space Management 
的 操作 还 是 非常 简单 的 ， 但 是 其 实现 的 功能 也 比较 简单 。 而 且 
需要 通过 与 服务 端 配合 ， 数 据 通过 网 络 传输 到 服务 端 保存 ， 相 
当 于 一 个 可 以 透明 访问 的 数据 备份 系统 。 


3) IBM Easy Tier 


IBM 的 Easy Tier 是 用 于 其 DS8700 产品 中 的 数据 自动 分 级 
产品 ， 分 块 粒度 为 一 个 Extent ( IBM 的 叫 法 ,具体 参考 其 红 皮 


4) EMC 


分 为 两 个 层级 : 机 械 硬 盘 与 SSD。 


会 出 现 右 侧 所 示 的 对 话 框 ， 将 所 有 符合 条 件 的 文件 都 列 出 来 。 


三 Pearans 


Orewie 
Few rin feesl ubes ra be reten 
Promgt bme orevehng centrg thlsl hs willbe ommnllen 
| oemie eastro lesl 


Soch oon ea EE 


图 18-17 拉 回 文件 对 话 框 


DiskXtender 为 EMC 收购 Legato 而 获得 的 产品 。 其 基本 功能 和 实现 架构 与 TSM for Space 


Management 大 同 小 异 ， 此 处 不 再 详 述 。 
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FAST 为 EMC 用 于 其 主流 存储 系统 比如 Clariion7DMX4/V-MAX 上 的 存储 端 块 级 数据 分 级 
管理 软件 。FAST 全 称 为 “Fully Automated Storage Tiering” ， 即 全 自动 存储 分 层 。FAST 目前 版 
本 为 1.0, 只 支持 整个 LUN 粒度 的 迁移 。 Symmetrix 系列 存储 系统 已 经 支持 SSD 了 ,不 过 FAST 1.0 
只 能 以 LUN 为 单位 进行 迁移 ， 这 多 少 有 点 像 鸡 肋 ， 正 如 前 文 所 述 的 情况 一 样 ， 整 个 LUN 的 全 
部 区 域 都 为 Hot Spot 的 情况 毕竟 不 多 见 , 如 果 整 个 LUN 都 占用 SSD 的 空间 , 那么 无 疑 会 产生 浪 


费 。FAST 2.0 预计 在 2010 年 中 旬 发 布 ， 


届时 会 支持 更 细 粒 度 的 迁移 。 


如 图 18-18~ 图 18-20 所 示 为 FAST 提供 的 用 户 配 置 向 导 界 面 示意 图 。 


| 
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图 18-18 FAST 提供 的 配置 向 导 (1) 
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图 18-19 


FAST 提供 的 配置 向 导 (2) 
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图 18-20 FAST 提供 的 配置 向 导 (3) 
图 18-19 为 FAST 的 迁移 策略 的 制定 窗口 , 可 以 看 到 FAST 提供 的 可 供 配 置 的 策略 是 很 简化 
的 ， 即 它 只 让 用 户 指定 某 个 逻辑 Storage Group (LUN 的 逻辑 组 合 ) 可 以 在 某 个 Tier 上 占用 多 少 
比例 的 物理 空间 ，FAST 会 自己 根据 自己 的 判断 来 将 LUN 在 不 同 Tier 之 间 进 行 分 级 迁移 。 
5) HDS 
HiCommand Tiered Storage Manager 是 HDS 公司 用 于 USP 系列 存储 系统 中 的 存储 端 块 级 数 
据 分 级 迁移 软件 。 可 以 在 任何 一 台 Windows 系统 中 安装 此 软件 , 通过 Web 界面 来 配置 分 级 操作 ， 
软件 会 与 存储 系统 通信 以 获取 信息 和 下 发 指令 。 
USP 存储 系统 后 端 可 以 连接 多 种 其 他 存储 系统 ， 从 而 将 它们 虚拟 化 整合 。 所 以 ，USP 可 以 
将 数据 从 后 端的 一 台 存 储 系统 迁移 到 另 一 台 存 储 系统 ， 或 者 在 单 台 存储 系统 内 部 不 同 的 Tier 之 
间 迁 移 。 目 前 USP 系统 的 分 级 迁移 只 能 够 做 到 手动 以 LUN 为 最 小 单位 的 迁移 。 
下 面 我 们 简要 介绍 一 下 HiCommand Tiered Storage Manager 的 迁移 配置 过 程 。 以 下 将 
HiCommand Tiered Storage Manager 简称 为 HTSM。 
(1) 如 图 18-21 所 示 为 HTSM 的 主 界面 ，HTSM 可 以 同时 管理 多 台 存储 系统 的 Tier 分 级 ， 
左 侧 栏 中 只 显示 了 一 台 名 为 “NY_Production_USP100" 的 存储 系统 , 下 面 的 Storage Tiers 
中 列 出 了 当前 系统 中 的 所 有 已 制定 的 Tier。 在 窗口 右 侧 ， 我 们 单 击 Create Storage Tier 
命令 来 创建 一 个 新 的 Tier。 
(2 ) 单 击 Create Storage Tier 命令 之 后 出 现 如 图 18-22 所 示 的 对 话 框 。 在 Name 文本 框 中 填 
入 新 Tier 的 名 称 ， 然 后 单 击 Edit 按钮 来 选择 符合 条 件 的 存储 介质 。 
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图 18-21 HTSM 主 界面 图 18-22 创建 新 Tier 
(3 ) 单 击 Edit 按钮 之 后 出 现 如 图 18-23 所 示 的 对 话 框 。 在 Condition1 下 拉 框 中 选择 过 滤 条 
件 , 本 例 中 选择 Capacity , 即 容量 , 运算 符 选择 >, 即 大 于 , 数值 填 入 6, 所 以 , Condition1 
的 过 滤 条 件 为 容量 大 于 6GB 的 所 有 LUN。 单 击 Show Volume List 按钮 (Volume 即 
LUN ) ， 便 会 显示 出 当前 系统 中 所 有 符合 条 件 的 LUN， 如 图 18-24 所 示 。 
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图 18-23 选择 过 滤 条 件 
(4) 单 击 Add Condition 按钮 来 增加 另 一 条 过 滤 条 件 。 我 们 选择 RAID Level 为 RAID 5 类 型 
并 且 磁 盘 数 量 为 3D+1P 的 RAID 组 。 然后 再 增加 一 个 条 件 , 磁盘 类 型 为 ATA 磁盘 。 这 
三 个 条 件 同时 作用 , 单 击 Show Volume List 按钮 即 可 看 到 当前 所 有 同时 符合 这 三 个 条 件 
的 LUN 列表 ， 如 图 18-25 所 示 。HDS 给 Tier 提供 了 多 种 条 件 ， 这 一 点 是 目前 其 他 存 
储 系 统 都 没有 做 到 的 -EMC 的 FAST 只 是 提供 了 3 个 定 死 的 Tier, 而 Compllent 和 3PAR 
也 是 如 此 ， 下 文中 即 可 看 到 这 二 者 的 演示 。 
(5 ) 单 击 OK 按钮 ， 返 回 到 创建 新 Tier 对 话 框 ， 此 时 过 滤 条 件 文本 框 中 已 经 将 我 们 的 选择 
条 件 翻译 成 了 表达 式 自动 出 现 , 如 图 18-26 所 示 。 这 个 Tier 的 属性 就 是 : 容量 大 于 6GB 
的 并 且 所 在 的 RAID 组 为 4 盘 RAID 5 类 型 的 并 且 磁 盘 为 ATA 磁盘 的 所 有 LUN。 
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图 18-25 同时 符合 三 个 条 件 的 LUN 列表 图 18-26 条 件 翻译 为 表达 式 

(6 ) 单 击 OK 按钮 创建 这 个 Tier， 在 如 图 18-27 的 对 话 框 中 单 击 OK 按钮 。 

(7 ) 此 时 便 返 回 到 了 如 图 18-28 所 示 的 主 界面 。 可 以 看 到 此 时 新 创建 的 名 为 Low Cost-SATA 
Drives 的 Tier 已 经 在 列表 中 显示 了 。 窗口 右 侧 可 以 看 到 这 个 Tier 中 共有 两 个 LUN， 其 
中 一 个 已 经 被 使 用 ， 另 一 个 未 被 使 用 ， 可 以 作为 迁移 的 目标 。 
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图 18-27 确认 创建 新 Tier 图 18-28 新 建 的 Tier 显示 了 出 来 

(8 ) 有 了 目标 Tier， 还 需要 选择 要 迁移 的 源 LUN。 单 击 Migration Groups 选项 ， 显 示 出 如 图 
18-29 中 窗口 右 侧 的 所 有 当前 已 经 创建 的 Migration Group， 每 个 Group 中 可 以 包含 一 
个 或 者 多 个 LUN。 本 例 中 我 们 打算 迁移 一 个 已 经 存在 的 Group “Internal ordering request 
system”， 即 内 部 下 单 系统 所 使 用 的 LUN。 单 击 这 个 Migration Group 查看 其 详细 信息 ， 
进入 如 图 18-30 所 示 的 界面 。 可 以 看 到 这 个 Group 只 有 一 个 LUN， 而 且 这 个 LUN 当 
前 所 处 的 存储 介质 Tier 为 High Performance - Mod Availability - RAID 5。LUN 的 容量 
为 6.87GB， 与 方才 创建 的 Tier 中 那个 未 被 使 用 的 LUN 容量 相同 ， 所 以 可 以 迁移 。 
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图 18-29 Migration Group 列表 图 18-30 Migration Group 详细 信息 
(9 ) 单 击 Close 按钮 退出 到 图 18-29 所 示 的 界面 中 , 单 击 待 迁移 Group 左 侧 的 Migrate 按钮 ， 
进入 如 图 18-31 所 示 的 窗口 。 这 里 列 出 了 所 有 可 供 迁 移 的 目标 Tier。 其 中 有 两 个 不 能 
被 选择 ， 因 为 其 剩余 空间 已 经 不 能 够 容纳 源 LUN 了 。 我 们 选择 方才 创建 的 Low Cost 一 
SATA Drives 的 Tier， 然 后 单 击 Next 按钮 ， 进 入 如 图 18-32 所 示 的 窗口 。 


图 18-31 选择 目标 Tier 

(10 ) 选择 好 源 和 目标 LUN 之 后 ， 
单 击 Next 按钮 ， 进 入 如 图 
18-33 所 示 的 窗口 。 此 处 可 以 
选择 立即 开始 执行 迁移 ,还 有 
一 个 Erase remaining data on 
source volumes 的 选项 ， 如 果 Er CE 
勾 选 了 这 个 选项 , 那么 当 系统 图 18-33 ”选择 是 否 立即 开始 执行 
迁移 完毕 之 后 ， 将 向 源 LUN 
中 覆盖 写 入 0 以 消除 源 LUN 中 的 数据 以 保证 较 高 的 信息 安全 等 级 。 

(11 ) 单 击 Next 按钮 进入 如 图 18-34 所 示 的 窗口 ， 为 一 个 Summary 窗口 ， 单 击 Confirm 按 
钮 之 后 ， 系 统 便 会 根据 之 前 所 设 定 的 所 有 动作 来 执行 这 个 任务 了 。 迁 移 会 自动 在 后 台 
执行 ,整个 迁移 过 程 不 会 影响 源 LUN 的 数据 访问 。 当 LUN 中 的 所 有 内 容 成 功 迁移 到 
目标 LUN 之 后 ， 系 统 会 做 短暂 的 切换 ， 切 换 之 后 ， 所 有 只 能 对 源 LUN 的 IO 将 会 直 
接 发 送 给 目标 LUN 执行 , 之 后 系统 根据 策略 可 以 删 掉 源 LUN 或 者 覆盖 写 入 0 以 销毁 
原 有 数据 。 

(12 ) 当 迁 移 成 功 完成 之 后 ,再 次 单 击 对 应 的 Migration Group ， 可 以 发 现 当前 所 处 的 Tier 已 
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经 变 为 Low Cost- SATA Drives 了 ， 对 应 的 LUN 也 是 目标 LUN， 如 图 18-35 所 示 。 
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图 18-34 Summary 窗口 图 18-35 迁移 完成 之 后 的 状态 
6) 3PAR 


Adaptive Optimisation 为 3PAR 公司 最 近 发 布 的 数据 分 级 管理 模块 ， 其 实 这 个 模块 之 前 名 为 
Dynamic Optimisation， 即 根据 策略 将 Sub-LUN ( Chunklet，3PAR 的 叫 法 ) 分 布 到 不 同 的 RAID 
Level、 人 磁盘 类 型 等 存储 介质 中 ,已 经 具有 了 HSM 的 雏形 。 而 更 名 为 Adaptive Optimisation 之 后 ， 
变 成 了 正统 的 HSM， 增 加 了 Tier 的 概念 ， 形 成 了 真正 的 层次 。 
3PAR 存储 产品 已 经 支持 SSD。Adaptive Optimisation 为 每 个 迁移 对 象 提供 3 个 Tier， 每 个 
Tier 可 以 赋予 不 同 的 属性 ， 比 如 磁盘 类 型 、RAID 类 型 、 条 带 深度 以 及 磁盘 内 外 圈 等 。 根 据 
Sub-LUN (1GB 大 小 ) 的 IO 热度 (每 GB 数据 每 分 钟 的 IO 数量 ) 以 及 其 他 用 户 制定 的 策略 ， 
系统 可 以 针对 每 个 Sub-LUN 在 策略 的 触发 下 在 这 3 个 Tier 之 间 动 态 迁移 。 
7) Compellent 
Data Progression 是 Compellent 公司 的 数据 分 级 迁移 软件 。Data Progression 可 以 在 存储 端 以 
Block 为 粒度 进行 分 级 迁移 。 至 于 Block 具体 为 多 大 尚 无 从 考证 。 下 面 对 Compellent 的 分 级 管理 
进行 简要 演示 。 
(1 ) 如 图 18-36 所 示 , Storage Profile 是 一 种 策略 定义 ,每 个 Profile 中 会 让 用 户 定义 3 个 Tier， 
这 3 个 Tier 性 能 由 高 到 低 。 如 果 将 某 Profile 映射 给 某 个 LUN, 那么 系统 会 自动 将 LUN 
中 的 数据 根据 访问 热度 向 Profile 中 定义 的 高 级 别 的 Tier 迁移 。 

(2) 在 Storage Profile 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create Storage Profile 命令 ， 创 建 一 
个 新 的 Profile， 如 图 18-37 所 示 。 
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图 18-36 Profile 列表 图 18-37 创建 新 Profile 
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(3 ) 如 图 18-38 和 图 18-39 所 示 , 每 个 Profile 包含 3 层 Tier，Tierl 的 性 能 需要 比 Tier2 高 ， 
Tier2 需 要 比 Tier3 高 。 可 以 看 到 Compllent 在 每 个 Tier 的 条 件 中 只 有 一 种 可 选 , 即 RAID 


类 型 和 磁盘 数量 。 
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18-38 设 定 Profile 中 的 3 层 Tier(1) 18-39 设 定 Profile 中 的 3 层 Tier(2) 


(4 ) 选择 了 每 层 Tier 的 条 件 之 后 , 出 现 如 图 18-40 所 示 的 对 话 框 , 为 这 个 Profile 起 一 个 名 字 。 
(5 ) 名 字 填 好 之 后 单 击 OK 按钮 ， 进 入 如 图 18-41 所 示 的 界面 中 。 选 中 待 迁移 的 LUN (图 
中 Volume 即 LUN ) ， 右 侧 显示 出 了 这 个 LUN 的 详细 信息 。 
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图 18-41 待 迁移 的 LUN 详细 信息 

(6 ) 如 图 18-42 所 示 ,， 在 新 建 的 Profle 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Apply to Volumes 
命令 ， 出 现 如 图 18-43 所 示 的 对 话 框 。 

(7 ) 在 图 18-43 所 示 的 对 话 杠 中， 选择 需要 对 应 这 个 Profile 的 LUN， 单 击 OK 按钮 之 后 ， 
系统 便 会 自动 根据 Profile 中 所 设 定 的 3 层 Tier， 根 据 策略 及 IO 访问 热度 ,在 这 3 个 


Tier 之 间 自 动 的 动态 地 迁移 数据 了 。 


图 18-40 为 新 建 的 Profile 起 名 
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图 18-42 将 Profile 赋予 给 LUN 图 18-43 选择 对 应 的 LUN 

此 外 ，Compellent 还 提供 Fast Track 技术 ， 即 系统 不 仅 可 以 将 数据 放 到 对 应 介质 的 磁盘 驱动 
器 中 ， 甚 至 还 可 以 将 数据 放 到 对 应 驱动 器 中 的 不 同 磁道 中 ( 外 圈 、 中 圈 、 内 圈 ) 以 实现 更 细 粒 度 
的 分 级 ， 非 常 牛 ! 

8) NetApp 

NetApp 对 分 级 存储 的 理解 似乎 与 其 他 厂商 不 尽 相同 。 早 些 时 间 NetApp 曾 宣称 分 级 存储 将 
会 被 缓存 管理 所 取代 。NetApp 并 未 实现 传统 意义 的 分 级 存储 。NetApp 的 “替代 ”做 法 是 在 存储 
系统 控制 器 内 插 一 块 或 几 块 PCIE 接口 的 内 存 卡 ， 卡 上 插 多 条 SDRAM， 作 为 一 个 更 大 的 Cache 
而 存在 , 内 部 使 用 软件 来 将 合适 的 数据 预 读 入 以 便 增加 命中 率 。 但 是 这 个 附加 Cache 不 能 用 来 作 
为 写 缓存 ， 而 且 也 不 能 永久 保存 数据 ， 所 以 只 能 够 用 来 作为 读 缓存 。 

这 种 技术 手段 虽说 可 以 增加 读 命中 率 , 但 是 它 终究 还 是 作用 在 Cache 层 , 并 非 作为 一 块 硬盘 
存在 , 不 能 永久 保存 数据 , 不 能 作为 写 缓存 ， 容 量 有 限 ， 局 限 性 还 是 很 大 的 。 这 种 增加 Cache 的 
方法 也 并 不 能 做 到 物 尽 其 用 , 比如 , 访问 频 度 高 的 数据 可 能 依然 被 存放 在 低 性 能 的 SATA 盘 中 而 
同时 高 性 能 的 FC 盘 中 尚 有 大 量 的 剩余 空间 。 靠 增加 Cache 来 提高 命中 率 ， 就 像 是 在 一 个 内 部 
不 平衡 的 系统 中 强行 运 化 出 阳 气 ， 久 而 久之 必 伤 元 气 。 比 如 ， 读 命中 率 增加 ， 读 速度 加 快 ， 那 么 
主机 客户 端 程序 在 处 理 完 数据 之 后 ,需要 写 回 保存 的 数据 生成 速度 也 就 相应 加 快 ， 而 这 个 Cache 
并 不 能 用 于 写 ， 那 么 写 数 据 就 会 积压 在 系统 原本 的 Cache 中 , 造成 后 端 更 加 繁忙 。 也 就 是 说 , 一 
开始 就 顾此失彼 失去 了 平衡 , 那么 后 来 也 必然 导致 不 平衡 , 从 而 大 伤 元 气 。 然而 笔者 相信 NetApp 
当前 的 做 法 只 是 一 种 不 得 已 ， 将 来 或 许 也 会 开发 真正 的 分 级 管理 模块 ， 但 是 至 少 目 前 来 讲 ， 
NetApp 在 数据 分 级 管理 领域 已 经 落后 了 。 

总 评 : 目前 看 来 , 各 个 厂商 所 实现 的 分 级 迁移 ， 远 远 没 有 达到 理想 目标 ， 所 能 够 设 定 的 条 

件 过 少 , 自动 化 程度 不 够 高 , 不 够 智能 ,提供 开发 接口 的 产品 很 少 。 要 想 达到 ILM 的 最 终 

目标 ， 还 有 很 长 一 段 路 要 走 。 


7. HSM 数据 分 级 产品 设计 样 例 


本 节 介绍 一 个 作者 个 人 演绎 出 来 的 主机 端 HSM 软件 设计 。 国内 存储 软件 行业 在 智能 数据 分 
级 管理 领域 基本 上 无 人 问津 , 但 是 鉴于 最 近 SSD 市 场 逐渐 趋 于 成 熟 , 作者 个 人 预测 HSM 将 被 像 
CDP、DR 一 样 被 火爆 的 炒作 一 把 ， 其 价值 将 会 在 几 年 之 内 完全 榨取 出 来 。 在 存储 硬件 方面 ， 国 
内 存储 行业 基本 上 没有 掌握 底层 高 端 主流 技术 , 但 是 在 存储 软件 市 场 上 , 国内 的 厂商 还 是 比较 有 
作为 的 ， 虽 然 有 不 少 也 是 在 OEM， 但 是 自 研 的 也 有 很 多 。 所 以 ， 希 望 国 产 的 存储 硬件 和 软件 早 
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日 脱颖而出 占领 市 场 。 

SSD 是 近年 来 存储 市 场 比较 热门 的 主题 ， 但 是 企业 对 SSD 的 兴趣 好 像 一 直 不 如 个 人 浓烈 ， 
一 方面 由 于 成 本 的 原因 ,企业 如 果 选 择 使 用 SSD , 则 需要 至 少 购买 能 做 成 一 个 RAID Group 数量 
的 SSD 硬盘 , 这 是 一 笔 不 少 的 开销 ; 另 一 方面 , 由 于 SSD 设计 原因 导致 其 寿命 远 低 于 机 械 硬 盘 ， 
而 企业 环境 下 的 数据 IO 很 频繁 ,无 疑 会 更 快 地 让 一 块 SSD 寿 终 正 究 ; 再 一 方面 ,即便 真 的 使 用 
上 了 SSD ， 要 将 哪些 数据 迁移 到 SSD 上 呢 ? 用 什么 方法 和 标准 来 判断 哪些 数据 需要 放 到 SSD 上 
呢 ? 如 果 今 天 将 革 份 数据 迁移 到 了 SSD, 而 过 一 段 时 间 之 后 这 份 数据 变 得 不 再 重要 了 , 那么 又 得 
迁移 走 ， 换 其 他 重要 的 数据 迁移 到 SSD， 这 样 维护 成 本 是 不 是 太 高 了 呢 ? 面 对 这 一 系列 的 问题 ， 
使 得 企业 在 选择 和 使 用 SSD 的 问题 上 犹 瑰 不 定 。 

有 了 这 种 市 场 需求 ， 就 可 以 针对 需求 ,依附 SSD 和 已 有 的 ILM、HSM 理论 基础 , 来 设计 一 
款 数 据 分 级 迁移 管理 软件 。 这 个 软件 模块 运行 于 主机 端 ， 在 所 有 主机 端的 LUN 或 者 文件 系统 之 
间 做 基于 块 或 者 文件 级 别 的 数据 分 级 管理 。 现 在 的 服务 器 一 般 自身 都 具有 8 个 以 上 的 SAS 槽 位 ， 
兼容 SATA 硬盘 和 SATA 口 SSD 硬盘 ， 所 以 ，SSD 硬盘 只 要 插 在 主机 本 地 即 可 ， 这 样 就 不 需要 
任何 额外 的 投入 。 不 管 这 台 主机 在 使 用 何 种 类 型 的 、 何 种 厂商 的 、 何 种 规模 的 外 部 存储 设备 ， 这 
些 设备 到 了 主机 一 层 都 作为 LUN 存在 ， 而 这 个 HSM 软件 模块 就 在 这 些 外 部 LUN 和 本 地 SSD 
生成 的 LUN 或 者 Space Pool 之 间 做 文章 。 比 如 根据 IO 热度 将 外 部 某 个 LUN 中 的 某 个 区 域 迁 移 
到 SSD 的 空间 内 ， 当 热度 降低 之 后 ， 再 迁移 回来 。 这 个 模块 可 以 做 到 文件 级 和 块 级 的 迁移 管理 ， 
底层 使 用 文件 层 和 卷 层 的 过 滤 驱 动 设计 。 

另外 , 使 用 SSD 做 RAID, 由 于 RAID 的 Parity 分 布 很 均匀 , 导致 RAID 组 中 每 个 硬盘 在 一 
个 相当 长 的 时 间 内 接受 的 IO 也 是 大 致 相等 的 ,而 SSD 并 非 机 械 硬盘 ,所 以 其 不 会 出 现 因为 机 械 
问题 导致 的 故障 。 其 主要 故障 原因 就 是 在 于 写 IO 次 数 导 致 的 寿命 耗 尽 ， 如 果 一 个 RAID 组 内 的 
所 有 SSD 都 差不多 接受 相同 数量 的 IO , 那么 它们 的 寿命 也 会 差不多 , 一旦 某 个 时 间 段 内 某 RAID 
组 相继 损坏 两 块 或 者 多 块 SSD， 那 么 其 上 数据 就 丢失 了 。 

为 了 避免 这 个 问题 ， 在 设计 SSD 的 RAID 算法 时 要 引入 一 些 额 外 考虑 ， 需 要 将 Parity 不 均 
匀 地 分 布 ， 要 让 某 块 SSD 先 坏 掉 ， 所 以 在 这 块 盘 上 应 放置 更 多 的 Pairty。 坏 掉 更 换 新 盘 之 后 ， 还 
要 将 其 上 多 放置 的 Pairty 迁移 到 另 一 块 SSD ， 因 为 如 果 新 盘 有 更 多 的 IO 负载 ， 那 么 其 很 有 可 能 
加 速 衰老 , 赶 上 其 他 盘 ， 可 能 与 其 他 盘 同 时 坏 掉 ,所 以 需要 将 额外 的 负载 迁移 到 另外 一 块 盘 ， 而 
这 块 SSD 会 是 下 一 块 将 要 坏 掉 的 , 然后 依 此 类 推 。 主 机 端 运行 的 这 个 HSM 软件 模块 可 以 考虑 这 
一 点 , 实现 软 RAID 而 不 使 用 主机 端的 RAID 功能 ,也 就 是 让 主机 端 将 本 地 插 的 SSD 透 传 上 来 。 

这 个 软件 可 以 开发 针对 个 人 、 企 业 、 数 据 中 心 的 版 本 。 不 同 版 本 包含 不 同 的 功能 模块 。 

说 明 : 以 上 仅 为 个 人 拙 见 ， 希望 国 产 存 储 软 件 越 做 越 强 ， 赶 超 西 方 ! 


8. 判断 你 是 否 需要 部 署 HSM 


总 的 来 讲 , 如 果 你 公司 的 存储 系统 正在 面临 如 下 问题 , 那么 恐怕 你 真 的 需要 对 数据 进行 分 级 了 。 

" ”数据 量 庞大 ， 存 储 设备 众多 。 

， ”性 能 分 布 不 均衡 ， 有 些 设备 长 期 满 负荷 运行 ， 性 能 低下 ， 而 有 些 则 长 期 处 于 空 亲 状态 。 
或 者 同一 台 设备 上 的 LUN 负载 极度 不 均衡 等 情况 。 

= ”有 不 同 种 类 的 存储 介质 ， 比 如 SATA、FC、SAS、 磁 带 库 等 。 
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对 于 一 个 大 企业 来 讲 , 数据 总 是 不 断 增 长 的 , 而 在 应 对 数据 增长 的 时 候 , 相关 人 员 不 可 能 做 
到 非常 准确 地 预测 ， 从 而 做 出 准确 的 采购 计划 ， 而 这 就 使 得 企业 IT 存储 系统 内 的 资源 不 可 能 做 
到 与 企业 的 需求 准确 地 对 应 ， 这 样 的 话 ， 就 产生 了 浪费 ,或 者 性 能 分 布 不 均衡 的 情况 ， 导 致 生产 
成 本 增加 。 基 于 上 面 几 个 因素 ,可 以 利用 一 些 监控 工具 来 监控 每 台 存 储 设备 的 利用 率 等 情况 , 比 
如 ， 调 查 一 周 工作 日 之 内 的 统计 结果 ， 来 判断 系统 总 体 的 性 能 分 布 情况 。 

另外 , 你 企业 当前 的 存储 系统 架构 也 是 一 个 重要 的 判断 因素 。 你 需要 明白 当前 你 的 存储 架构 
的 现状 , 比如 是 否 有 很 多 信息 孤岛 ? 所 有 的 主机 是 否 共 享 一 台 或 者 少数 几 台 存储 设备 ? 其 次 , 你 
还 要 明确 你 对 数据 分 级 的 最 终 期 望 , 是 想 在 少数 几 台 主 存储 设备 上 实现 分 级 , 还 是 想 在 全 局 存储 
系统 内 实现 分 级 ? 这 些 决定 都 会 影响 最 终 的 部 署 效 果 。 

如 果 既 想 要 在 全 局 范围 内 实现 分 级 , 而 你 的 系统 内 不 同 厂商 的 设备 过 多 , 信息 孤岛 也 过 多 的 
话 ， 那 么 实现 起 来 就 是 一 件 难 度 很 大 的 工程 了 ， 需 要 大 动 干戈 ， 伤 筋 动 骨 。 所 以 ， 这 就 需要 根据 
成 本 预算 以 及 投入 产 出 的 比例 来 做 综合 判断 。 


9. 如 何 选择 对 应 的 HSM 产品 


对 于 企业 而 言 ， 实 现 HSM 可 以 有 多 种 方法 。 比 如 你 可 以 人 为 来 判断 哪些 数据 是 热点 数据 ， 
从 而 将 对 应 的 文件 手动 迁移 到 高 性 能 存储 介质 中 ; 同样 ,你 也 可 以 将 一 些 不 需要 的 数据 , 用 备份 
的 形式 来 备份 到 磁带 中 永久 存放 。 然 而 ， 对 于 前 者 来 讲 ， 你 所 能 够 操作 的 目标 只 能 是 文件 ， 因 为 
你 只 可 以 看 到 文件 ， 不 幸 的 是 ， 在 你 手动 迁移 文件 的 时 候 ， 任 何人 都 不 能 访问 这 些 文件 ， 同 时 ， 
文件 迁移 完毕 之 后 , 你 还 需要 将 对 应 的 目录 路 径 指向 新 的 存储 位 置 。 这 一 切 都 需要 复杂 的 人 为 操 
作 ， 而 且 操 作 之 前 必须 制定 计划 以 便 最 大 程度 地 降低 对 应 用 系统 的 影响 。 而 且 , 如 果 一 段 时 间 之 
后 ， 你 发 现 这 些 数 据 的 热点 期 已 过 ， 需 要 再 迁移 回来 ,那么 你 就 需要 再 次 执行 相反 的 动作 。 这 无 
疑 是 个 很 大 的 挑战 ， 对 操作 人 员 的 技术 水 平 要 求 非常 高 。 

所 以 , 需要 一 种 自动 化 程度 较 高 ， 而 且 智 能 化 程度 较 高 的 HSM 产品 来 协助 企业 完成 数据 分 
级 。 在 选择 一 款 HSM 产品 的 时 候 ， 你 可 以 根据 上 面 所 讲 的 HSM 分 类 来 选择 ， 然 后 按照 类 别 再 
来 选择 对 应 的 产品 。 比 如 ,你 是 想 实现 简单 的 文件 自动 迁移 ,还 是 想 实现 可 定制 复杂 策略 的 块 级 
迁移 ?是 想 在 主机 端 实现 迁移 , 还 是 存储 端 实现 ? 是 想 在 全 局 范围 内 实现 还 是 某 台 设备 上 实现 ? 

目前 来 讲 , 大 多 数 厂商 的 数据 分 级 产品 几乎 都 是 嵌入 其 自身 的 硬件 的 , 比如 EMC 的 FAST， 
只 有 使 用 了 EMC 对 应 的 存储 产品 ， 才 可 以 部 署 。3PAR 、Compellent 等 公司 的 产品 ， 也 都 是 秽 
入 它们 自身 的 阵列 产品 中 的 基于 块 级 别 的 分 级 模块 ， 也 就 是 说 ， 如 果 你 的 系统 中 没有 这 些 产品 ， 
那么 就 不 可 能 用 它们 的 方案 来 部 署 数据 分 级 系统 了 。 

万 幸 的 是 ， 市 场 上 的 一 些 带 有 虚拟 化 功能 的 存储 设备 ， 比 如 HDS 公司 的 USPV 系列 设备 ， 
它 可 以 虚拟 化 后 端 大 部 分 主流 厂商 的 存储 设备 ， 然 后 在 此 基础 上 实现 分 级 操作 。 但 是 这 样 的 话 ， 
部 署 分 级 的 同时 还 需要 投入 虚拟 化 这 块 , 就 有 点 买 配 还 珠 的 意思 了 , 不 过 如 果 企 业 同 时 需要 部 署 
这 两 种 技术 的 时 候 ， 那 么 选择 这 种 方案 无 疑 是 青 好 不 过 的 了 。 

另外 一 种 选择 就 是 使 用 主机 端的 分 级 工具 ， 比 如 IBM 的 Tivoli HSM， 虽 然 它 只 是 一 个 简单 
的 文件 迁移 工具 , 但 由 于 运行 在 主机 端 , 所 以 无 须 考 虑 后 端 设备 的 多 样 性 。 但 是 所 带 来 的 局 限 性 
就 是 需要 在 所 有 需要 分 级 的 主机 上 都 安装 客户 端 。 

对 于 系统 中 的 NAS 设 备 和 SAN 设 备 混 合 存在 的 情况 ,如 果 要 在 这 两 种 设备 之 间 做 分 级 迁移 
那么 可 供 选 择 的 唯一 产品 就 是 主机 端的 分 级 产品 了 。 一 些 NAS 虚拟 化 设备 比如 F5 公司 某 款 产品 
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也 可 以 做 到 在 后 端 所 有 NAS 设备 之 间 做 分 级 迁移 ， 但 是 这 只 是 针对 NAS， 而 且 分 级 策略 也 不 是 
很 智能 、 很 详细 。 

总 体 来 讲 ， 企 业 如 果 要 在 现 有 的 系统 架构 下 通 入 式 地 部 署 HSM， 那 么 难度 是 相当 大 的 ， 而 
且 可 供 选择 的 产品 非常 有 限 。 但 是 如 果 企业 想 重新 建立 一 套 带 有 数据 分 级 的 新 存储 系统 ,而 忽略 
原 有 的 存储 系统 ， 那 么 可 供 选 择 的 产品 就 一 下 子 变 得 很 多 了 ， 可 以 咨询 前 文 所 列 出 的 这 些 厂商 ， 
他 们 一 定 会 给 你 一 个 对 应 的 合适 的 方案 。 


10. 存储 厂商 应 该 怎么 做 HSM 


在 上 面 的 章节 中 我 们 可 以 看 出 ， 目 前 这 些 厂商 的 所 谓 HSM 产品 ， 其 实 并 未 真正 做 到 HSM 
的 核心 层次 ， 只 是 在 表面 上 “意思 ”一 下 而 已 。 对 于 IO 属性 的 判断 仅 限于 少数 条 件 ， 有 些 甚至 
根本 不 提供 自动 迁移 策略 , 完全 靠 用 户 手动 将 整个 LUN 迁移 到 目标 Tier, 这 从 根本 上 讲 连 HSM 
的 边 都 不 沾 了 。 

如 图 18-3 中 所 示 的 Service Level Objectives ( SLO ) 是 一 个 非常 复杂 而 且 难 以 形成 标准 的 东 
西 , 业界 目前 尚未 对 STO 有 相应 的 标准 。 由 于 IO 属性 多 种 多 样 ， 不同 IO 属性 之 间 可 以 相互 组 
合 ， 而 且 同 一 种 应 用 在 不 同 的 规模 、 不 同 的 时 段 都 可 以 有 不 同 的 SLO 需求 ， 再 加 上 前 文中 所 说 
的 政治 和 人 为 因素 , 所 以 这 样 看 下 来 , SLO 是 一 个 具有 颇 多 维度 的 东西 。 正 因 如 此 , 存储 厂商 目 
前 不 可 能 做 到 HSM 的 理想 状态 ， 充 其 量 多 给 出 一 些 细节 判断 条 件 ， 比 如 Symantec 的 SF 平台 所 
集成 的 HSM 模块 那样 。 

要 真正 地 做 到 按照 SLO 来 分 配 Tier, 首先 要 有 具体 的 SLO, 目前 连 SLO 本 身 都 还 没有 。 所 
以 ，HSM 下 一 步 需 要 推进 的 就 是 定义 SLO 接口 标准 ， 用 SLO 作为 连接 应 用 层 与 存储 层 的 桥梁 ， 
然后 在 应 用 层 来 实现 HSM 策略 。 迁 移 也 由 应 用 层 根据 策略 来 自动 发 起 ， 或 者 由 人 自己 发 起 ， 因 
为 只 有 应 用 层 和 人 才能 够 完全 知道 自己 所 产生 的 哪些 数据 需要 何 种 性 能 或 者 特性 的 存储 空间 。 


11. 从 存储 分 级 到 存储 系统 全 局 资源 分 级 /分 配 


信息 生命 周期 管理 和 HSM 目前 被 广泛 认识 为 只 作用 在 磁盘 以 下 的 层次 中 , 对 磁盘 及 其 下 层 
的 存储 介质 进行 分 级 管理 ， 但 是 却 忽 略 了 磁盘 以 上 的 层次 ,比如 RAM、CPU Cache。 目 前 多 数 
操作 系统 对 RAM 的 管理 都 是 大 同 小 异 的 ,而 且 几 乎 都 是 采用 全 局 统一 标准 来 管理 , 比如 分 配 多 
少 内 存 、 多 大 的 Page 等 。 

然而 ， 对 于 存储 系统 来 说 ， 它 同时 接受 多 个 不 同 客户 端的 多 种 不 同类 型 的 IO 流 。 到 底 应 当 
按照 什么 样 的 条 件 来 分 配 缓存 资源 呢 ? 全 局 还 是 分 区 ? Page 回收 到 底 应 当 按照 怎样 的 条 件 来 触 
发 ?这 些 都 是 需要 仔细 研究 的 。 

提示 : 以 上 这 些 都 属于 存储 QOS ( Quality of Service ) 的 范畴 ,诸如 EMC、HDS 等 厂商 都 

有 对 应 的 产品 来 实现 Q0S， 具 体 可 见 后 面 的 章节 。 


12. Tier 和 Cache 之 争 


前 来 讲 , 使 用 SSD 作为 一 个 Tier 是 大 多 数 厂商 都 选用 的 方法 ,而 有 些 厂商 则 使 用 SSD 或 
者 Flash 介质 作为 一 个 大 的 缓存 来 使 用 。 典 型 代表 就 是 NetApp。 
很 早 的 时 候 NetApp 就 对 SSD 抱 有 疑虑 , 我 记得 当时 其 他 厂商 已 经 在 着 手 开 发 动态 数据 分 级 
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了 ,而 NetApp 却 犹 耶 的 很 , 最 终 推出 一 块 叫做 Performance Acceleration Module( PAM ) 的 PCI-E 
接口 卡 ， 专 用 于 FAS3100 系列 。 一 开始 其 上 是 插 DDR SDRAM 内 存 条 的 ， 后 来 也 有 Flash 颗粒 
版 本 的 了 。WAFL 虽然 是 个 很 有 特色 的 文件 系统 , 但 是 其 所 存在 的 问题 也 是 不 可 小 视 的 , 也 就 是 
经 典 的 Sequential Read After Random Write 的 问题 ， 即 本 来 逻辑 上 连续 的 块 ， 被 WAFL 处 理 之 后 
底层 却 变 得 不 连续 了， 这 样 在 连续 地 址 读 IO 的 情况 下 ， 底 层 却 表现 为 随机 IO 的 行为 ， 从 而 影 
响 性 能 。PAM 卡 的 推出 可 能 也 有 这 方面 原因 。 其 实 所 有 文件 系统 多 少 都 会 有 这 种 问题 ， 只 不 过 
WAFL 更 加 严重 ， 而 且 WAEFL 将 LUN 也 当做 一 个 文件 ， 这 样 的 话 对 于 本 该 比较 刚性 Block 访问 
也 变 得 左 绕 右 绕 ，IO 路 径 不 等 长 ，IO 延迟 变 得 很 难 预测 。 
那么 究竟 为 何 NetApp 不 使 用 SSD 来 解决 性 能 问题 ,或 者 自己 也 开发 自动 分 级 存储 模块 呢 ? 

我 猜测 ， 这 与 其 WAFL 的 原理 有 很 大 关系 。SSD 这 东西 ， 所 有 人 看 到 它 的 表现 ， 一 定 都 是 竖 起 
大 拇指 的 ， 但 是 我 估 摸 着 唯 独 NetApp 对 SSD 具有 那么 一 点 点 排斥 心理 ， 为 何 呢 ? 

首先 ，SSD 的 出 现 ， 让 WAEL 的 那 一 套 写 加 速算 法 有 点 挂 不 住 了 ， 包 括 全 重 定向 号、 尽力 整 
条 写 等 针对 机 械 磁 盘 所 作 的 大 量 优化 ， 随 着 SSD 的 出 现 ， 一 切 都 解决 了 ,那么 WAEFL 这 一 套 势必 
在 SSD 面前 就 显得 白费 了 ， 这 一 定 让 NetApp 很 难受 的 ， 其 实 NetApp 一 直 都 难受 ， 即 便 是 使 用 机 
械 盘 ，WAEL 依然 面临 着 Sequential Read After Random Write (SRARW ) 问题 ， 早 就 在 研究 新 架 
构 的 WAFL 了 ， 比 如 是 否 可 以 支持 RAID 5 而 不 是 RAID 4， 是 否 可 以 不 再 重 定向 写 了 等 等 。 但 是 
对 于 WAFL 这 样 一 个 复杂 而 庞大 的 架构 来 讲 ， 牵 一 发 会 动 全 身 ， 不 是 那么 好 改革 的 了 。 

第 二 ，WAEFL 的 重 定向 写 措施 , 会 迅速 耗 尽 SSD 上 的 剩余 空间 。 懂 点 SSD 的 人 都 知道 , SSD 
自己 内 部 会 去 记录 哪些 page 存 有 数据 ， 哪 些 没 有 ， 这 么 做 是 为 了 损耗 平衡 算法 ，SSD 内 部 也 会 
有 大 量 的 重 定向 写 操作 , 其 做 法 与 WAFL 类 似 , 但 是 WAFL 这 么 做 是 为 了 方便 地 快照 与 整 条 写 ， 
SSD 这 么 做 纯粹 是 为 了 损耗 平衡 ,不管 怎么 样 ， 这 两 者 是 重复 和 部 分 冲突 了 。 另 外 ，WAFL 不 断 
地 写 到 空余 位 置 ， 那 么 SSD 上 的 “曾经 写 过 多 少 ” 这 个 高 水 位 线 就 会 迅速 达到 顶峰 ，SSD 内 部 
剩余 空间 迅速 降低 到 最 低 值 , 严重 影响 SSD 的 性 能 , 而 WAEL 的 作用 原理 又 不 可 能 实时 的 将 SSD 
中 的 “垃圾 ” 块 回收 回来 ， 因 为 WAFL 从 本 质 上 讲 可 以 认为 是 无 时 无 刻 不 在 产生 垃圾 ( 重 定向 
写 之 后 ， 以 前 的 块 便 是 空闲 块 了 ， 但 是 SSD 却 无 法 感知 文件 系统 层面 的 空闲 块 ， 依 然 认为 是 有 
用 块 ) ， 它 根本 来 不 及 回收 的 ， 襄 且 WAEFL 内 部 的 两 层 FS 之 间 已 经 为 了 忙活 着 回收 空间 而 做 了 
大 量 复杂 流程 了 。 如 果 说 SSD 让 WAEFL 的 优化 变 得 价值 全 无 ， 这 一 点 还 可 以 容忍 ， 但 是 如 果 
WAEL 想 用 SSD 而 眼看 着 效果 不 好 ， 那 么 就 真 的 没 治 了 。 

第 三 , 我们 退 一 步 讲 ， 就 算 WAEL 会 很 快 耗 尽 SSD 的 剩余 空间 到 最 低 值 (也 就 是 SSD 厂商 
隐藏 的 那 部 分 为 了 保证 性 能 而 预 留 的 剩余 空间 ,比如 100GB 的 SSD 其 实 是 有 128GB 物 理 空 间 的 )， 
效果 再 不 好 , 但 是 也 比 机 械 硬盘 要 快 , 所 以 NetApp 只 能 退 而 求 其 次 将 就 着 上 SSD 了 。 还 有 最 重 
要 的 一 点 ， 别 忘 了 ，SSD 目前 的 容量 还 太 小 ,如果 上 SSD, 会 有 两 种 用 法 ,一 种 就 是 直接 将 SSD 
当做 普通 盘 来 用 ,做 RAID ,做 Aggregate, 做 WAFL, 然 后 做 Volume, 做 LUN 或 者 目录 的 Exports。 
但 是 这 种 做 法 适用 的 场景 很 少 ,比如 一 部 分 小 容量 的 数据 却 要 求 极 高 的 访问 速度 , 那么 没有 问题 ， 
这 种 做 法 可 以 满足 ,但 是 如 果 遇 到 短 尾 型 应 用 的 数据 访问 场景 ,大量 的 数据 却 只 有 一 部 分 为 热点 ， 
那么 此 时 你 将 所 有 数据 都 放 到 SSD 上 ， 显 然 是 得 不 偿 失 ， 此 时 自然 就 需要 有 一 种 动态 的 细 粒 度 
的 热点 数据 分 级 解决 方案 了 , 这 也 是 目前 几乎 所 有 存储 厂商 都 在 搞 的 技术 , 而 且 主流 厂商 也 都 推 
出 了 各 自 的 产品 了 。 而 我 们 回来 看 NetApp， 它 何尝 不 想 推出 自己 的 动态 分 级 方案 ? 它 很 难受 ， 
为 什么 呢 ? WAFL 如 果 是 老虎 , 那么 NetApp 可 以 说 已 经 骑 虎 难 下 了 。 想 在 WAFL 上 引入 动态 分 
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级 子 模块 , 不 是 那么 容易 的 。 动 态 分 级 子 模块 包含 至 少 两 个 亚 模块 : 一 个 是 热点 数据 监控 、 统 计 
模块 ; 另 一 个 是 数据 迁移 模块 。 监 控 和 统计 子 模块 ， 可 以 作为 一 个 旁 路 模块 存在 , 不 会 对 现 有 的 
任何 FS 架构 产生 太 大 影响 , 这 个 WAFL 做 起 来 没有 问题 , 但 是 数据 迁移 模块 , 这 对 WAEFL 来 讲 ， 
又 很 难受 了 。 WAFL 不 按 常 理 出 牌 ， 与 其 他 传统 FS 不 同 ， 总 是 去 重 定向 写 ， 改 一 改 就 动 全 身 ， 
所 以 从 技术 上 讲 ， 实 现 动态 分 级 还 是 太 费劲 ， 风 险 也 很 大 ， 需 要 测试 很 长 时 间 ， 所 以 我 推测 这 也 
是 NetApp 迟 迟 没有 推出 动态 分 级 的 可 能 原因 之 一 吧 。 

所 以 我 估计 ，NetApp 一 开始 就 定 下 了 基调 ，SSD 目前 来 讲 就 作为 大 缓存 的 角色 而 存在 。 可 
以 看 到 其 新 发 布 的 FASx200 系列 , 最 高 规格 的 FAS6280 已 经 可 以 使 用 8TB FLASH 的 PAM 卡 了 ， 
当然 ， 需 要 插 多 块 PAM 卡 来 堆 笃 成 这 么 高 的 容量 ， 而 且 两 个 控制 器 上 的 PAM 卡 规格 必须 对 称 ， 
成 双 成 对 出 现 ， 而 不 能 够 只 插 一 组 卡 让 全 局 使 用 。 

那么 Tier 和 Cache 这 两 种 针对 SSD 的 用 法 ， 到 底 哪 个 强 哪个 弱 呢 ? 我 们 来 比较 一 下 。 缓 存 
是 实时 预 读 ， 有 很 大 的 乱 猪 的 成 分 ; 而 Tier 是 长 时 间 后 台 监测 然后 只 迁移 相对 恒久 热点 ， 带 有 
明显 的 目标 ， 能 发 现 长 期 的 热点 。 所 以 Cache 中 的 数据 会 随时 迁 入 迁 出 ， 而 Tier 中 的 数据 迁 入 
迁 出 频率 相对 Cache 要 低 得 多 ， 可 以 认为 Cache 是 心急 火 煤 ，Tier 则 是 慢 工 出 细 活 。 并 且 Tier 
是 将 数据 直接 迁移 到 SSD, 但 是 SSD 用 作 Cache 的 话 目前 厂商 的 做 法 一 般 是 只 支持 对 读 IO 数据 
进行 缓存 ， 写 数据 不 缓存 ， 这 样 就 不 能 加 速写 了 。 

但 是 也 不 能 一 概 而 论 , 作为 Cache 使 用 也 不 一 定 非 要 使 用 传统 的 Cache 算法 , 完全 也 可 以 使 
用 更 精细 的 热点 监控 和 数据 精细 复制 的 算法 ， 可 能 算法 没有 Tier 那么 考究 ， 带 有 更 加 激进 的 性 
质 。 到 底 使 用 Tier 还 是 Cache， 得 根据 应 用 场景 来 综合 判断 ， 有 时 候 并 不 能 说 谁 优 于 谁 。 比 如 读 
多 写 少 的 环境 ， 则 可 以 选用 Cache 方式 。 最 理想 的 一 种 解决 办 法 就 是 , 同时 支持 Cache 或 者 Tier 
模式 ， 而 且 可 以 随时 触发 或 关闭 Tier 模式 。 


13. 数据 分 级 管理 之 轮回 论 


我 们 都 知道 几乎 所 有 操作 系统 对 内 存 的 管理 ， 都 使 用 Virtual Memorty 方式 ， 用 户 看 到 的 空 
间 并 不 一 定 与 物理 空间 一 一 对 应 ,操作 系统 对 物理 内 存 实现 了 Thin Provision ,比如 明明 只 有 2GB， 
程序 却 可 以 使 用 申请 3GB 的 空间 。 为 了 弥补 这 个 弥 天 大 谎 ， 操 作 系统 只 好 使 用 拆 东 墙 补 西 墙 的 
方式 ， 在 硬盘 上 创建 一 个 Swap 分 区 或 者 Page 文件 ， 将 这 块 空间 也 作为 Virtual Memory 的 空间 。 
当 物 理 内 存 空 间 剩余 到 一 定 国 值 时 ， 操 作 系统 将 物理 内 存 中 不 经 常 被 访问 的 Page 进行 Page Out 
操作 写 入 磁盘 以 腾 出 物理 内 存 空间 ， 而 一 旦 程序 需要 访问 一 个 处 于 Page 文件 中 的 Page， 那 么 操 
作 系 统 执行 Page In 过 程 读 入 对 应 的 Page 到 内 存 。 操 作 系统 的 这 种 将 不 常 被 访问 的 数据 迁移 到 
Page 文件 中 的 做 法 ， 就 是 一 种 Tier 分 级 操作 。 

纵 观 图 18-5, 我 们 可 以 发 现 , 在 CPU Cache、RAM、Disk 这 三 者 之 间 , 操作 系统 的 Memory 
Mamager 会 负责 将 数据 在 三 者 之 间 做 迁移 ， 但 是 Disk 自身 以 及 Disk 之 下 的 所 有 层次 ， 操 作 系统 
却 没有 提供 任何 模块 在 这 些 层 次 之 间 做 数据 迁移 。 所 以 ， 为 了 弥补 这 块 缺失 ，HSM 的 催生 是 一 
个 完全 必然 的 结果 。HSM 并 不 是 一 个 新 东西 , HSM 其 实 是 IBM 用 于 在 20 世纪 中 晚期 的 IBM 大 
型 机 上 的 一 种 技术 ， 适 配 各 种 慢 速 存储 介质 。 同 时 代 或 者 更 晚 的 一 些 主机 系统 比如 Alpha/VMS 
也 都 在 使 用 这 种 技术 。 

其 实 对 于 外 部 存储 系统 的 Thin Provision+Tier, 其 本 质 与 操作 系统 对 内 存 的 管理 方式 完 完全 全 
是 一 回 事 。 其实 计算 机 系统 内 的 很 多 技术 , 都 表现 为 一 种 轮回 和 嵌 套 , 这 种 例子 在 本 书 其 他 章节 还 
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有 更 多 。 这 种 轮回 和 候 套 ,看 似 是 人 类 智慧 使 然 ， 其 实 是 世界 之 本 质 ， 也 就 是 阴阳 使 然 ， 阴 阳 变 化 
的 过 程 就 是 一 个 轮回 的 过 程 , 分 分 合 合 ,而 阴阳 不 断 的 琶 加 过 程 就 是 一 个 颈 套 过 程 , 一 层 层 的 底层 
逻辑 组 成 更 高 层 的 逻辑 ， 而 这 些 逻 辑 之 间 的 共性 ， 就 是 阴阳 轮回 租 套 。 而 在 发 明 新 技术 的 过 程 中 ， 
先 想 一 想 是 否 可 以 基于 已 经 存在 的 技术 的 设计 思想 来 做 一 个 模拟 , 可 能 就 会 大 大 降低 设计 成 本 。 笔 
者 之 前 在 做 某 项 目的 时 候 , 曾经 遇 到 过 这 样 一 件 事 : 某 程 序 员 为 了 解决 某 个 问题 , 设计 了 一 套 代码 ， 
非常 便捷 地 解决 了 问题 。 但 是 最 后 另 一 同事 在 读 代码 的 时 候 却 发 现 , 呈 ， 这 不 是 Windows MFC 下 
的 某 个 代码 模块 么 ? 原来 该 程序 员 自己 写 出 了 一 个 MFC 早已 写 好 的 封装 代码 。 


14. 星星 之 火 可 以 米 原 一 一 火星 高 科 MSP 数据 分 级 中 间 件 平台 


上 文 曾经 提 到 过 ， 目 前 厂商 的 HSM 产品 基本 上 只 考虑 了 后 端 性 能 方面 ， 而 基本 忽略 了 人 为 
因素 以 及 其 他 更 多 的 SLO, 造成 迁移 引擎 在 进行 所 谓 “ 智 能 ”迁移 的 过 程 中 只 有 一 个 指挥 棒 , 那 
就 是 访问 频 度 。 这 一 点 其 实 也 无 可 厚 非 ， 从 某 种 角度 来 讲 , 在 一 个 SSD 一 FC/SAS 一 SATA 的 层级 
组 中 , 不 管 数据 处 于 何 种 层级 ， 它 们 的 访问 速度 差别 并 不 像 磁盘 到 磁带 这 种 差距 ,加 上 磁盘 上 层 
路 径 各 处 的 缓存 ， 到 了 应 用 层 之 后 ， 这 种 差距 会 更 小 ， 尤 其 是 不 具 累 积 效应 的 偶尔 访问 的 时 候 ， 
虽然 可 能 会 慢 一 两 秒 。 但 是 这 种 速度 降低 是 可 以 被 接受 的 。 所 以 从 这 种 角度 来 讲 ， 存 储 端 当前 的 
HSM 产品 还 是 有 很 大 意义 的 。 

但 是 对 于 归档 领域 , 或 者 一 个 容纳 了 几乎 所 有 存储 介质 层级 并 在 全 局 范围 内 做 HSM 管理 的 
系统 来 讲 , 如 果 只 按照 某 个 单一 条 件 来 触发 迁移 , 那么 就 会 产生 与 人 为 因素 的 冲突 。 这 种 情况 下 ， 
要 么 就 在 这 个 系统 中 引入 更 加 复杂 的 条 件 ， 引 入 大 量 的 SLO， 要 么 就 干脆 把 HSM 中 的 上 层 策略 
部 分 抛 掉 ， 只 留 下 一 个 底层 平台 ， 然 后 提供 一 些 控制 接口 给 上 层 的 策略 引擎 。 也 就 是 在 图 18-3 
中 所 示 的 HSM Policy Engine 与 HSM DataMove Engine Switch 之 间 形 成 一 个 公开 的 接口 层 ， 将 整 
个 HSM 系统 在 此 分 割 为 上 下 两 部 分 。 应 用 系统 厂商 可 以 对 上 面 的 部 分 加 以 开发 ， 形 成 自己 的 迁 
移 策略 引擎 模块 ， 而 存储 厂商 则 专注 于 下 层 的 开发 ,根据 需求 不 断 完 善 和 丰富 接口 。 鉴 于 存储 厂 
商 众多 ， 一 时 间 不 可 能 统一 接口 ， 所 以 自然 也 就 出 现 了 中 间 件 平台 。 

火星 观点 : 存储 端 不 适合 做 具体 的 迁移 或 者 分 级 策略 ， 只 需要 提供 迁移 接口 。 策 略 和 触发 

条 件 要 由 应 用 层 或 者 人 来 制定 。 存 储 端 要 充当 一 杆 枪 而 不 是 使 用 枪 的 人 。 


火星 高 科 ( 北京 亚细亚 智 业 科技 有 限 公 司 ) 的 数据 迁移 管理 中 间 件 平台 Mars Storage Platform 
( MSP ) 就 是 专门 为 数据 迁移 和 归档 管理 所 设计 的 一 款 中 间 件 平台 。 作 为 一 个 迁移 /归档 中 间 件 ， 
首要 的 就 是 要 兼容 各 种 主流 的 磁带 库 、 自 动 加 载 机 、 磁 带 驱动 器 以 及 VTL, 不 但 如 此 , 还 要 支持 
和 融入 各 种 SAN 和 NAS 环境, 甚至 一 些 并 行文 件 系统 环境 。 然 后 , 最 重要 的 一 点 , 作为 中 间 件 ， 
需要 有 丰富 的 查询 和 控制 接口 。 以 上 的 条 件 MSP 都 做 到 了 ，MSP 支持 数 百 种 磁带 设备 ; 支持 在 
SAN 和 NAS 环境 中 部 署 ; 可 融入 各 种 SAN 共享 文件 系统 ; 提供 了 30 多 个 API 函数 ， 包 括 归档 
和 回迁 管理 、 任 务 管理 、 对 象 管理 、 磁 带 管理 、 带 库 管理 、 存 储 位 置 管理 、 磁 带 复制 、 磁 带 池 管 
理 等 多 个 功能 类 别 。 

能 够 提供 二 次 开发 接口 的 归档 平台 产品 非常 少 ， 国 外 产品 中 IBM Tivoli 与 Symantec 等 可 以 提 
供 接口 , 但 是 Tivoli 的 部 署 复杂 度 、 易 用 度 、 先 期 部 署 成 本 、 后 期 维护 成 本 都 是 高 不 可 测 的 。 目 前 
国内 已 经 有 多 个 厂商 的 不 同 的 数字 媒体 信息 系统 在 后 台 使 用 了 MSP 中 间 件 来 作为 归档 和 迁移 。 


第 18 章 和 鬼 着 神 工 一 一 数据 前 处 理 与 后 处 理 @ 


1) MSP 的 逻辑 架构 

如 图 18-44 所 示 ， 整 个 MSP 由 13 个 模块 组 成 。 其 中 服务 器 模块 负责 接收 操作 指令 (通过 
API 或 者 用 户 手 动 发 起 ) 并 控制 迁移 器 对 数据 做 实际 的 迁移 ; 收发 器 负责 处 理 对 象 ( 见 下 文 ) ; 
带 库 控制 器 则 类 似 于 驱动 器 、 机 械 臂 的 驱动 和 管理 层 ， 向 带 库 发 起 IO 请 求 必须 经 由 这 个 模块 ; 
宛 余 模块 是 指 专门 用 来 做 磁带 RAID 
技术 的 模块 ( 见 下 文 ) ; 单机 读 取 模 
块 是 为 了 解决 在 回迁 数据 的 过 程 中 由 
于 已 经 出 库 的 磁带 距离 中 心 带 库 较 远 
而 不 方便 入 库 的 问题 而 生 的 ， 可 以 直 
接 在 出 库 磁带 所 在 的 地 点 假设 一 台 服 
务 器 以 及 磁带 机 ， 其 上 安装 单机 读 取 
模块 ， 这 样 直接 就 可 以 从 已 经 出 库 的 
磁带 中 将 数据 读 出 从 而 回迁 ; 开发 接 
口 模块 便 是 MSP 所 提供 的 查询 /操控 
API 了 。 其 他 模块 不 再 介绍 ， 按 字面 
意思 理解 即 可 。 图 18-44 MSP 架构 图 

2 ) MSP 的 部 署 形态 

如 图 18-45 所 示 ，MSP 中 的 各 个 模块 可 以 分 开 安 装 于 不 同 的 服务 器 上 ， 当 然 也 可 以 将 它们 
都 安装 在 一 台 服 务 器 上 。 其 中 迁移 器 、 收 发 嚣 这 两 个 模块 必须 连接 并 且 可 以 看 到 后 端的 存储 空间 ， 
因为 这 二 者 需要 对 后 端 存储 空间 中 实际 的 数据 做 读 出 / 写 入 的 迁移 操作 。 带 库 控 制 器 模块 必须 能 


够 连接 到 带 库 设 备 。 
明 一 - 盟 


旷 右 | Miars 服 务 器 (后 备 ) 


LAN 


一 心跳 线 


磁盘 阵列 型 带 库 远 线 山 带 存 衣架 离线 介质 库 
图 18-45 MSP 部 署 形态 
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用 户 可 以 通过 系统 管理 中 心 来 定制 各 种 策略 以 及 归档 
和 回迁 任务 。 如 图 18-46 所 示 为 系统 管理 中 心 的 界面 。 


3 ) MSP 的 优点 
， ”支持 多 级 存储 , 比如 磁盘 、VTL、 磁带 、NAS 网 络 
路 径 。 


”支持 多 个 迁移 器 集群 化 并 行 以 提高 速度 和 吞吐 量 。 
" ”面向 对 象 的 迁移 粒度 ， 可 以 将 多 个 互相 有 逻辑 关联 

的 文件 组 成 一 个 组 对 象 ,并 以 对 象 为 单位 进行 迁移 。 
火星 技术 : 比如 某 监控 点 ,在 多 个 角度 都 安装 了 摄像 头 ， 
各 产生 一 路 视频 流 和 视频 文件 。 此 时 就 需要 将 针对 这 个 监控 点 的 所 有 角度 的 视频 文件 存放 
到 一 起 ,而 不 是 分 开 无 序 存放 , 这样， 在 视频 回放 的 时 候 ， 就 可 以 一 下 子 选 出 这 个 点 的 所 
有 角度 的 视频 来 观看 ， 而 不 是 从 多 个 存储 位 置 或 者 磁带 各 自 将 对 应 的 视频 抽出 。 这 种 方式 


图 18-46 MSP 配置 界面 


在 MSP 中 被 称 为 对 象 存储 模式 。 
" ”具有 磁盘 缓冲 技术 , 可 以 将 磁带 中 的 部 分 访问 频 度 较 高 的 文件 复制 到 磁盘 中 作为 Cache 
缓存 以 提高 访问 速度 。 


火星 技术 : 用 磁盘 作为 磁带 的 缓存 就 像 用 RAM 作为 磁盘 的 缓存 一 样 ，MSP 将 这 种 思想 用 

到 了 磁盘 下 面 的 层次 。 注 意 ， 这 里 的 缓存 并 不 是 指 D2D2T 那 种 模式 。 绥 存 和 缓冲 不 一 样 ， 

缓存 指 的 是 慢 速 介质 上 的 数据 被 复制 到 高 速 介质 中 ， 高 速 介质 作为 一 种 Cache; 而 缓冲 则 

表示 数据 先 存放 在 高 速 介 质 中 ， 作 为 一 个 Buffer， 此 时 低速 介质 中 尚未 存放 这 些 数 据 ， 待 

高 速 介 质 达 到 一 定 触 发 条 件 后 ， 数 据 便 被 移动 或 者 复制 到 低速 介质 。 

， ”使 用 通用 标准 协议 来 控制 主流 厂商 的 带 库 ， 这 就 使 得 MSP 兼容 几乎 所 有 带 库 。 

= RARM (Redundant Array ofRemovable Media ) 磁带 元 余 技 术 ， 有 效 防止 因 磁带 数据 
损坏 而 造成 的 数据 丢失 。 

火星 技术 : RAID 的 意思 是 “廉价 宛 余 磁盘 阵列 ”， 磁 盘 可 以 阵列 ， 磁 带 一 样 可 以 。 火 星 

科技 的 磁带 宛 余 技术 ， 就 是 将 磁盘 阵列 中 的 RAID 技术 迁移 到 了 磁带 中 。 同 样 ， 用 多 盘 磁 

带 来 做 XOR 运算 , 生成 一 份 校 验 磁带 。 当 某 盘 磁带 完全 损坏 , 或 者 其 中 部 分 数据 损坏 时 ， 

可 以 用 XOR 算法 生成 损坏 的 数据 。 不 仅 如 此 ， 如 果 多 盘 磁 带 上 都 有 部 分 数据 损坏 ， 只 要 

同一 条 带 上 最 多 只 有 一 个 segment 的 数据 损坏 ,那么 一 样 可 以 通过 校 验 来 找 回 损坏 的 数据 。 

， 迁移 器 带宽 控制 , 可 以 针对 每 个 迁移 器 或 者 全 局 来 限制 迁移 数据 时 的 IO 强度 , 使 得 迁 
移 操作 对 生产 环境 的 影响 降 为 最 低 。 

， ”文件 片段 恢复 技术 ， 可 以 从 某 个 特定 格式 的 大 文件 中 恢复 出 可 以 被 应 用 程序 所 识别 并 
且 使 用 的 文件 片段 而 不 是 回迁 整个 文件 。 

火星 技术 : 比如 在 视频 回放 环境 下 ， 有 时 候 用 户 可 能 只 需要 查看 某 个 大 视频 文件 中 的 某 一 

小 部 分 , 而 此 时 如 果 大 动 干戈 地 把 整个 文件 都 回迁 , 不 仅 浪费 时 间 , 而 且 还 有 损 设备 的 寿命 ， 

还 占用 额外 的 磁盘 空间 。 对 此 , 火星 科技 开发 出 了 文件 片段 恢复 技术 , 通过 对 特定 格式 的 文 

件 做 特殊 标记 ， 可 以 以 很 小 的 粒度 来 恢复 出 应 用 程序 可 以 识别 并 且 正 确 播放 的 视频 片段 。 


” ”开放 式 的 磁带 记录 格式 ， 第 三 方 软件 也 可 以 识别 。 
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= ”支持 多 种 主流 OS 平台 ,包括 Windows、Linux、Solaris、HPUX、AIX。 

4) 在 用 户 苛刻 的 需求 中 成 长 起 来 

火星 高 科 在 技术 领域 有 自己 独特 的 观点 ,这 些 观 点 都 是 他 们 在 面临 了 很 多 实际 客户 环境 并 且 
参与 定制 开发 后 逐渐 总 结 而 成 的 ， 具 有 很 高 的 参考 价值 。 


火星 事件 : 火星 MSP 平 台 以 及 企业 级 备份 软件 均 支持 磁带 离线 存放 ， 即 Vault 功能 。 这 样 
就 可 以 使 用 较 少 的 磁带 槽 位 来 满足 对 大 量 磁带 的 操作 。 某 用 户 的 离线 磁带 架 特别 多 , 每 次 
软件 提示 将 某 某 磁带 放 人 带 库 的 时 候 ， 用 户 查找 起 来 很 麻烦 ， 用 户 将 磁带 架 进行 了 拍照， 
并 且 将 照片 以 及 对 应 的 架子 以 及 槽 位 编号 发 给 了 火星 科技 , 要 求 将 图 片 做 到 软件 中 , 每 次 
对 磁带 进行 出 库 或 者 入 库 , 均 在 图 片 对 应 的 位 置 进行 直观 的 标识 。 这 还 没完 , 没 过 多 长 时 
间 ， 用 户 的 磁带 架 升级 了 ， 架 子 上 方 增 加 了 LED 显示 屏 来 显示 对 应 的 信息 ， 用 户 提 出 要 
求 , 让 软件 直接 可 以 通过 RS 一 232 串口 及 对 应 协议 直接 在 LED 显示 屏 上 显示 出 磁带 信息 。 


通过 一 次 次 对 用 户 各 种 需求 的 定制 开发 , 火星 高 科 快速 积累 了 大 量 经 验 , 将 很 多 有 共性 的 定 
制 功能 放 入 了 软件 主体 中 ,不 断 丰富 软件 的 功能 。 

火星 事件 : 高 级 分 级 应 当 手 动 进行 越 高 级 的 用 户 ， 他 想 手动 控制 存储 系统 以 及 数据 的 欲 

望 就 越 强烈 。 美 国 的 分 级 产品 之 所 以 自动 化 、 智 能 化 强 ， 是 因为 美国 的 人 力 成 本 高 昂 ， 而 

中 国人 则 比较 勤劳 。 


某 档案 馆 的 归档 项 目 中 , 火星 高 科 遭 遇 了 大 量 小 文件 备份 速度 奇 慢 的 问题 , 这 个 问题 是 普遍 
存在 的 ， 而 火星 高 科 没 有 回避 ， 选 择 了 冲破 这 道 堵 了 很 长 时 间 的 墙 ， 取 得 了 胜利 。 

火星 技术 : 大 量 小 文件 的 传统 磁带 备份 一 直 是 让 人 非常 头痛 的 事情 。 文 件 索 引 及 Catalog 

的 生成 和 处 理 过 程 是 很 慢 的 , 大 量 小 文件 的 情况 下 , 可 能 光 这 一 步 就 要 耗费 数 小 时 甚至 几 

天 的 时 间 ， 这 显然 无 法 接受 。 对 此 , 火星 高 科技 巧妙 地 避 开 了 索引 过 程 而 转 为 利用 一 种 变 

通 和 虚拟 的 方式 来 备份 大 量 小 文件 ， 速 度 获得 了 20 余 倍 的 提升 。 


某 用 户 的 数据 备份 项 目 中 , 竞争 对 手 为 国外 某 备份 软件 厂商 ,他 们 的 销售 一 个 劲 地 向 用 户 
忽悠 他 们 的 多 流 备份 技术 , 即 同一 个 备份 任务 拆 分 成 多 个 数据 流 同 时 写 人 多 个 驱动 器 , 由 
于 火星 高 科 的 备份 软件 不 支持 这 种 方式 , 所 以 对 手 一 直 拿 这 一 点 来 攻击 。 而 火星 高 科 从 容 
应 对 ， 成 功 赢得 了 用 户 的 信任 。 


火星 观点 :LTO 已 经 发 展 到 了 第 4 代 , 第 5 代 也 已 经 出 来 了 , 数据 传输 速度 已 经 非常 高 了 ， 
待 备份 的 应 用 程序 向 外 吐 数 据 的 速度 甚至 都 可 能 达 不 到 这 个 速度 , 既然 这 样 , 再 将 它 拆 分 
成 多 个 流 ， 有 必要 么 ? 不 但 没有 必要 ,反而 有 害 , 第 一 ,多 流 备份 之 后 的 磁带 一 旦 有 一 盘 
损坏 , 那么 其 他 磁带 上 的 数据 也 就 没 用 了 ; 第 二 , 本 来 前 端的 数据 速度 可 能 已 经 连 一 个 流 
都 饱和 不 了 了 ， 再 将 其 拆 分 为 多 个 流 ,， 那么 势必 造成 磁带 驱动 器 从 载 ， 造成 鞋 氛 效 应 ( 见 
其 他 章节 ) ， 降 低 磁带 寿命 。 

多 流 备份 是 早期 的 技术 , 那 时 驱动 器 的 数据 写 人 速度 很 低 ， 所 以 不 得 已 而 为 之 , 但 是 随 着 
硬件 的 发 展 ， 自 己 、 这 个 问题 早 就 被 弱化 了 对 手 厂商 拿 着 鸡毛 当 令 箭 的 做 法 ， 实 属 不 该 ! 


关于 备份 出 错 是否 要 自动 重 试 的 问题 ， 火 星 高 科 也 有 自己 独特 的 看 法 。 
火星 观点 : 备份 出 错 大 多 数 时 间 都 是 因为 带 库 硬件 或 者 磁带 等 方面 出 问题 , 此 时 就 算 重 试 
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N 次 也 无 济 于 事 , 反而 还 浪费 了 系统 资源 。 硬 件 原因 导致 的 备份 出 错 无 须 育 目 重 试 , 待 手 
动 排除 故障 之 后 ， 手 动 再 次 发 起 备份 。 


火星 高 科 的 很 多 观点 和 技术 都 颇具 中 国 特色 , 这 正 是 因为 火星 高 科 是 从 中 国 各 行业 用 户 的 苛 
刻 的 、 千 奇 百 怪 的 需求 当中 成 长 起 来 的 。 

火星 高 科 成 立 于 1992 年 ， 至 今 已 经 快 20 年 的 时 间 了 。2010 年 中 旬 笔 者 有 幸 参 观 了 火星 高 
科 , 并 且 与 同仁 们 进行 了 热烈 的 交谈 。 从 交谈 中 笔者 感觉 到 ,火星 高 科 是 一 家 非常 重视 技术 的 公 
司 , 以 用 户 需 求 为 导向 , 技术 研发 为 依托 ， 如 今 公司 已 经 成 为 一 家 国内 数一数二 的 在 归档 领域 掌 
担 自 主 核心 技术 的 公司 。 从 当初 对 磁带 一 无 所 知 到 今天 成 为 归档 领域 的 权威 , 火星 高 科 正如 她 的 
名 字 一 样 ， 通 过 不 断 的 努力 进取 ， 星 星之 火 终 成 烷 原 之 势 ! 

畅想 : 作者 在 此 也 以 个 人 的 角度 畅想 一 下 MSP 的 未 来 。 下 一 步 MSP 可 以 向 全 面 数据 分 级 

中 间 件 方向 进军 , 内 部 定义 各 种 Tier, 丰富 各 种 接口 , 比如 系统 内 的 Tier 分 类 和 查询 、Tier 

的 性 能 属性 查询 等 。 功 能 上 ,除了 支持 文件 级 归档 ,还 可 以 与 底层 存储 设备 配合 ,支持 块 

级 或 者 LUN 级 的 透明 分 级 , 并 且 提 供 一 系列 针对 块 级 别 的 API, 比如 将 某 个 LUN 从 RAID 

10 的 RAID 组 迁移 到 RAID 5 的 RAID 组 , 或 者 将 某 个 LUN 中 的 数据 迁移 到 NAS 上 , 并 且 

还 保持 客户 端 访问 方式 不 变 。 当 然 , 要 做 到 这 些 功能 是 很 不 容易 的 ， 这 要 求 这 个 平台 既 具 

有 迁移 中 间 件 的 性 质 ， 同 时 还 要 具有 虚拟 化 网 关 的 性 质 。 

5) MSA 备份 一 体 化 设备 

火星 高 科 最 近 发 布 了 一 款 备份 一 体 化 设备 ， 叫 做 火星 舱 ( Mars Storage Appliance，MSA ) 。 
火星 舱 数 据 备 份 设备 支持 多 种 操作 系统 平台 ， 如 Windows、Linux、IBM-AIX、SUN-Solaris、 
HP-UX、RedHat、Novell、 红 旗 等 ， 支 持 这 些 异 构 平台 下 的 文件 、Oracle、SQL Server、Sybase、 
Exchange 等 数据 库 备 份 以 及 操作 系统 备份 , 支持 重复 数据 删除 功能 。 同 时 允许 系统 管理 员 将 硬盘 
分 级 ,将 特定 的 硬盘 /分 区 完全 仿真 成 磁带 库 或 者 磁带 机 ， 也 就 是 VTL 功能 ， 可 大 幅度 缩短 备份 
/恢复 时 间 ， 同 时 减少 高 峰 期 对 网 络 资源 的 占用 。 并 可 不 限 驱动 器 数量 ， 提 供用 户 分 类 存储 数据 
功能 。 如 图 18-47 所 示 为 火星 舱 系列 存储 设备 中 的 MSA Backup Advanced ( MSA-BA ) 一 体 化 备 
份 设备 的 系统 架构 图 。 
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其 中 备份 策略 引擎 负责 全 局 配置 、 管 理 和 触发 整个 备份 域 中 的 备份 任务 , 数据 移动 器 负责 将 
数据 从 各 个 待 备份 主机 端 相应 的 应 用 代理 处 传送 到 备份 服务 器 中 的 虚拟 磁带 中 保存 , 设备 控制 器 
是 专门 用 来 控制 虚拟 机 械 手 的 模块 ，VTL 模块 则 是 用 来 将 底层 磁盘 虚拟 成 对 应 的 虚拟 磁带 驱动 
器 、 虚 拟 机 械 手 以 及 虚拟 磁盘 的 虚拟 化 引擎 模块 。 

6 ) 支持 国产 ， 并 不 应 该 只 是 口号 

近年 来 , 国家 有 关 部 委 也 明确 了 态度 , 在 涉及 国家 安全 级 别 的 项 目 中 优先 或 者 必须 使 用 国产 
产品 。 并 且 于 2010 年 5 月 对 信息 安全 产品 要 求 必须 通过 CCC 强制 认证 , 包括 备份 软件 。 但 是 现 
状 是 ， 没 有 通过 CCC 认证 的 产品 依然 存在 于 市 面 上 。 火 星 高 科 的 Mars Backup Advanced 企业 级 
备份 软件 支持 主流 数据 库 的 备份 ， 包 括 Oracle、Sybase、SQL Server、Exchange 和 多 家 国产 数据 
库 产 品 ， 如 和 人 大 金 仓 、 武 汉 达 梦 、 神 州 奥斯卡 、TRS 等 ， 也 于 第 一 时 间 通 过 了 CCC 认证 。 对 信 
息 安 全 产品 的 CCC 认证 过 程 中 包含 很 多 项 目 ， 比 如 对 后 门 、 漏 洞 等 的 审查 等 。 然 而 对 于 一 些 国 
外 的 产品 ， 未 通过 3C 认证 的 也 还 在 卖 。 政 策 监管 和 执行 的 不 到 位 ， 让 政策 成 了 一 纸 空 文 。 

无 语 : 不 仅 如 此 ， 界 定 一 款 产 品 是 否 是 国货 的 底 限 , 也 被 打破 了 。 在 最 近 某 个 数据 备份 项 

目 中 ,招标 明确 规定 : 投标 产品 必须 是 国产 产品 。 但 是 结果 却 让 人 瞳 目 结 舌 ， 中 标的 竞 然 

是 IBM， 它 的 产品 竞 然 被 定义 成 了 国货 ， 这 个 结果 让 参加 投标 的 多 家 国内 厂商 感到 无 语 。 

不 知道 “有 关 部 门 ”到 底 在 干什么 ， 强烈 建议 有 关 部 门 把 “有 关 部 门 ”取缔 。 

在 此 也 号 召 国内 广大 用 户 。 能 用 国产 尽量 用 国产 ， 不 仅 考虑 价格 因素 ， 至 少 要 考虑 安全 、 

民族 、 国 家 。 多 一 个 人 用 国产 ， 国 货 的 品质 就 会 提升 越 快 ， 就 会 早日 赶 超 西方 。 


18.3.4 Deduplication ( 重复 数据 删除 ) 


所 有 人 的 电脑 内 总 会 有 一 些 重复 的 文件 复制 , 尤其 是 对 一 些 有 收藏 六 好 的 人 来 讲 , 他 们 会 疯 
狂 地 在 Internet 上 下 载 一 些 他 们 认为 很 有 价值 的 视频 、 音 乐 或 者 图 片 等 ， 由 于 他 们 在 不 停 地 下 载 
而 很 少 去 欣赏 这 些 内 容 , 所 以 遇 到 相同 的 内 容 时 可 能 会 无 意识 地 再 次 下 载 ， 这 样 的 话 ， 他 们 硬盘 
上 的 数据 将 会 有 相当 数量 的 重复 。 这 些 重复 的 数据 存在 于 存储 系统 中 , 一 是 浪费 空间 , 二 是 一 旦 
需要 备份 ， 那 么 又 会 浪费 备份 时 间 ， 而 且 备份 之 后 的 数据 也 会 再 次 占用 额外 的 空间 。 

在 企业 IT 系统 内 ， 包 含 了 个 人 电脑 本 地 存储 、 服 务 器 本 地 存储 和 外 部 网 络 存储 系统 。 在 这 
个 整体 的 系统 内 ,数据 的 重复 率 将 会 更 大 。 比 如 对 某 个 数据 库 的 备份 ,每 周一 次 全 备 ， 那么 两 次 
全 备份 的 数据 一 定 会 有 很 多 相同 的 部 分 。 

再 比如 ， 每 个 员工 电脑 上 至 少 都 会 装 一 套 Windows 操作 系统 ， 这 些 数据 在 全 局 范围 内 ， 就 是 
重复 的 。 而 对 于 服务 器 , 除了 操作 系统 重复 之 外 , 安装 的 程序 也 有 可 能 重复 ， 而 程序 所 生成 的 数据 
也 有 可 能 重复 ， 比 如 某 人 给 企业 内 所 有 人 发 送 了 一 封 邮 件 ， 并 且 携 带 了 一 个 10MB 大 小 的 附件 ， 
那么 邮件 服务 器 会 在 每 个 人 的 邮箱 中 都 生成 一 份 这 个 附件 的 复制 ， 这 就 是 一 笔 很 大 的 重复 数据 。 

说 道 邮 箱 , 腾讯 QQ 邮箱 是 笔者 一 直 以 来 比较 喜欢 用 的 。QQ 邮箱 对 超大 附件 的 做 法 就 是 将 
附件 存储 在 服务 器 上 一 个 独立 位 置 , 不 管 将 其 作为 附件 发 给 谁 ， 这 些 附件 始终 只 有 一 份 复制 , 任 
何 收 到 邮件 的 人 所 看 到 的 附件 其 实 并 没有 附 到 本 封 邮 件 中 ,而 只 是 一 个 链接 , 打开 附件 时 会 从 服 
务 端 将 数据 下 载 到 本 地 , 这 是 一 个 很 好 的 解决 办 法 。 那么 对 于 处 于 不 同 机 器 之 上 的 本 地 文件 如 果 
重复 , 能 有 什么 办 法 来 解决 呢 ? 在 此 总 结 一 下 所 有 可 能 的 场景 。 

(1 ) 同一 主机 操作 系统 本 地 存储 的 重复 文件 。 包 括 同名 但 是 内 容 不 同 、 内 容 相同 但 是 名 字 不 
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同 以 及 只 有 部 分 内 容 相 同 的 文件 (下 同 ) 。 

(2 ) 不 同 主机 操作 系统 本 地 存储 的 重复 文件 。 

(3 ) 不 同 主机 操作 系统 都 在 同一 台 外 部 NAS 存储 设备 进行 数据 集中 存储 时 的 重复 文件 。 

(4 ) 不 同 主机 操作 系统 都 在 同一 台 外 部 Block 存储 设备 进行 数据 集中 存储 时 的 重复 文件 。 

(5 ) 虚拟 机 环境 下 磁盘 镜像 文件 中 的 重复 部 分 。 

(6 ) 虚拟 机 环境 下 裸 磁 盘 映 射 模 式 下 的 重复 数据 。 

对 于 (1) ， 可 以 由 用 户 手动 来 判断 并 且 删 除 重复 的 文件 ， 必 要 时 可 以 对 一 份 文 件 作 不 同名 
称 的 快 键 方式 或 者 链接 。 但 是 对 于 只 有 部 分 内 容 相 同 的 文件 ， 如 果 不 通 过 特殊 程序 的 话 ， 就 只 能 
保留 。 

对 于 (2) ， 在 这 种 情况 下 ， 多 台 主 机 上 的 操作 系统 文件 大 部 分 是 重复 的 ， 为 了 消除 这 种 重 
复 ,可 以 部 署 无 盘 系 统 , 但 是 无 盘 系 统 的 性 能 实在 不 好 控制 ， 而 且 使 用 起 来 有 诸多 不 便 。 而 对 于 
非 操作 系统 文件 的 重复 文件 ， 是 无 能 为 力 的 。 

对 于 (3) ，NAS 系统 的 不 同 或 者 相同 目录 中 有 重复 内 容 的 文件 ， 这 种 情况 下 如 果 没有 特殊 
的 程序 起 作用 的 话 ， 不 能 够 擅自 删除 文件 或 者 制作 链接 。 因 为 NAS 一 般 只 提供 对 外 的 接口 ， 其 
内 部 虽然 也 是 某 种 操作 系统 ， 但 是 NAS 设备 一 般 不 会 提供 用 户 其 内 部 文件 系统 的 操作 接口 ， 所 
以 这 种 情况 下 的 重复 文件 也 是 无 法 消除 的 。 

对 于 (4) ， 由 于 重复 的 文件 存在 于 不 同 的 主机 操作 系统 内 ,那么 如 果 要 删除 掉 重 复 的 文件 ， 
就 必须 将 最 后 留存 的 那 份 实体 文件 所 在 的 目录 通过 网 络 共享 出 来 , 其 他 主机 访问 这 个 共享 , 并 且 
制作 一 个 针对 这 个 文件 的 链接 , 那么 这 个 链接 就 只 能 是 一 个 快 键 方式 , 快 键 方式 使 用 起 来 有 诸多 
不 便 。 所 以 ， 这 种 情况 下 要 实现 重复 数据 的 删除 也 是 不 现实 的 。 

对 于 (5) 和 (6 ) ， 就 更 不 是 通过 用 户 手动 能 够 实现 的 了 。 

综 上 所 述 , 在 同一 主机 系统 内 ,对 于 整个 文件 的 内 容重 复 , 可 以 在 最 终 用 户 层 消除 重复 , 但 
是 需要 用 户 来 手动 操作 并 且 记 录 链 接 关 系 ( 即便 是 同一 主机 操作 系统 内 , 硬 链接 不 能 够 跨 不 同文 
件 系统 ) ， 这 显然 不 现实 。 对 在 不 同 主机 系统 内 的 重复 文件 无能为力。 所 以 ,不管 从 任何 角度 
来 讲 , 都 需要 一 个 特殊 的 程序 来 实现 这 种 重复 数据 删除 工作 , 并 且 还 需要 维护 对 上 层 访 问 的 完全 
透明 性 。 

Single Instance Storage ( SIS， 单 一 实例 存储 ) ， 就 是 实现 这 种 删除 重复 文件 内 容 的 一 种 技术 。 
所 谓 Single Instance ( 单一 实例 ) ， 指 的 就 是 相同 内 容 的 文件 , 在 系统 内 只 存在 一 份 实体 ， 其 他 副 
本 都 只 作为 一 个 指针 链接 而 存在 ， 链 接 只 占用 一 个 FS Block 的 空间 。SIS 可 以 在 主机 端 实现 ， 比 
如 在 某 个 操作 系统 上 安装 一 个 SIS 处 理 模 块 ， 它 会 根据 用 户 的 设置 来 自动 定期 或 者 实时 地 扫描 系 
统 内 所 有 可 访问 的 文件 系统 内 的 文件 内 容 ， 一 旦 发 现 相同 内 容 的 文件 ， 则 只 保留 一 份 文件 实体 ， 
删 掉 其 他 多 余 的 副本 并 为 它们 创建 特殊 的 链接 ( 可 以 跨 文件 系统 ,并 非 普通 硬 链接 ) ， 这 个 链接 
其 实 与 上 一 节 中 所 述 的 Tier 分 级 软件 所 做 的 链接 类 似 。 

对 于 上 文中 (2 ) 对 应 的 情况 ， 虽 然 SIS 理论 上 当然 可 以 实现 跨 主机 的 重复 数据 删除 ， 但 是 
由 于 需要 跨 网 络 访问 , 在 管理 和 性 能 上 皆 有 诸多 不 便 ,所 以 目前 尚未 有 这 种 实现 方式 。 也 可 以 在 
NAS 上 实现 SIS, 这样 就 解决 了 上 面 的 (3 ) 所 对 应 的 问题 。 而 对 于 (4 ) 中 的 情况 ,其实 是 与 (2 ) 
类 似 的 ， 只 不 过 数据 放 在 外 部 块 级 存储 设备 而 不 是 本 地 ,所 以 SIS 在 这 种 情况 下 也 不 能 实现 重复 
数据 删除 。 对 于 ( 5 ) 所 述 的 情况 , SIS 是 无 能 为 力 的 , 因为 即便 是 用 相同 的 步骤 安装 两 台 GuestOS， 
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这 两 个 Os 的 系统 盘 对 应 的 磁盘 镜像 文件 也 不 见得 每 个 字 节 都 相同 , 虽然 它们 很 大 一 部 分 都 是 相 
同 的 。 对 于 (6 ) ，SIS 此 时 已 经 看 不 到 文件 了 ， 所 以 更 是 无 能 为 力 。 (对 于 (5) 和 (6 ) ， 虽 然 
无 法 在 虚拟 机 服务 器 上 使 用 SIS 达到 预期 效果 ， 但 是 依然 可 以 在 GuestOs 中 使 用 SIS 技术 来 消除 
重复 文件 。 ) 

SIS 可 以 理解 为 文件 级 别 的 Deduplication。 块 级 别 的 Deduplication 才 是 真正 意义 上 的 
Deduplication, 简称 Dedup ( 去 重 / 消 重 ) 。 但 是 一 般 情况 下 会 用 Deduplication 同时 表示 文件 级 和 
块 级 的 重复 数据 删除 。 文 件 级 的 Dedup 不 但 在 满足 实际 需求 上 存在 上 文 所 述 的 一 系列 问题 ， 而 
且 其 底层 技术 实现 方法 上 也 有 很 大 的 局 限 性 , 比如， 只 能 以 整个 文件 的 二 进 制 内 容 来 比 对 ， 而 遇 
到 只 有 部 分 内 容 相同 的 文件 , 或 者 只 有 文件 头 部 信息 不 同 而 后 续 的 内 容 完全 相同 的 文件 , 则 无 能 
为 力 。 

但 是 不 排除 有 一 些 稍微 智能 一 些 的 SIS 技术 , 可 以 识别 和 定 界 并 且 保留 文件 头 部 信息 。 比 如 
mp3 等 音 视频 ，mp3 文件 的 头 部 会 保存 一 些 音乐 信息 ， 如 果 有 两 个 mp3 文件 ， 其 实体 音乐 编码 
部 分 是 完全 相同 的 ， 只 不 过 歌手 、 类 别 等 头 部 信息 不 同 ， 所 以 这 两 个 mp3 文件 的 大 小 也 不 同 ， 
那么 ,对 于 高 智能 SIS 便 可 以 识别 这 种 头 部 信息 的 不 同 而 将 其 保留 ， 然 后 将 重复 的 音乐 编码 部 分 
删除 。 然 厕 ， 要 实现 这 种 智能 ， 就 必须 感知 各 种 主流 的 应 用 程序 所 生成 的 文件 比如 MS Office、 
mp3、mp4 等 ， 并 且 随 着 应 用 程序 的 升级 换代 ，SIS 模块 也 需要 跟着 更 改 才 能 识别 新 格式 的 头 音 
信息 和 边界 ,而 且 应 用 程序 有 太 多 , 不 可 能 每 种 都 支持 ,所 以 实现 起 来 太 累 。 需 要 有 一 种 更 彻底 
的 、 更 高 效 的 、 一 劳 永 逸 的 解决 办 法 。 

这 种 一 劳 永 逸 的 Dedup 方法 就 是 块 级 Dedup。Block 是 存储 系统 路 径 中 仅 次 于 Sector 的 最 底 
层 的 数据 结构 了 ， 如 果 直 接 来 比 对 整个 存储 系统 内 所 有 Block 的 二 进 制 内 容 的 异同 ， 消 除 相 同 内 
容 的 多 余 Block 副本 ， 那 么 不 管 Block 中 存储 的 内 容 对 应 的 是 哪个 分 区 的 哪个 文件 系统 下 的 哪个 
文件 , 相同 内 容 的 多 余 Block 的 实体 内 容 都 可 以 被 消除 ,而 只 在 Metadata 中 留 有 一 个 指针 来 指向 
被 保留 的 那 唯一 一 份 有 实体 内 容 的 Block。 

如 果 多 台 主 机 将 自己 的 数据 存储 于 同一 台 外 部 独立 存储 设备 中 ,如 果 在 这 台 存 储 设备 上 实现 
全 局 的 Block 级 的 Dedup， 那 么 也 就 可 以 做 到 消除 多 台 主 机 上 的 重复 数据 。 对 于 虚拟 机 服务 器 上 
的 磁盘 镜像 文件 ， 块 级 别 的 Dedup 就 可 消除 两 份 镜像 文件 中 元 余 的 Block， 而 对 于 利用 裸 盘 映射 
模式 来 存储 GuestOS 数据 的 虚拟 方式 ， 同 样 也 可 以 使 用 块 级 Dedup 来 消除 重复 数据 。 所 以 说 ， 
块 级 的 Dedup 是 最 彻底 也 是 去 重 比率 最 高 的 Dedup 方式 。 现 在 基于 SIS 技术 的 产品 不 多 见 了 ， 
基本 上 都 是 基于 Block 级 的 Dedup 产品 , 相对 于 智能 SIS, Block Dedup 设计 成 本 更 低 , 去 重 比率 
也 更 高 ， 获 得 的 收益 也 更 大 。 

以 上 介绍 了 Dedup 的 必要 性 ， 以 及 实现 Dedup 的 两 种 大 方向 。 下 面 就 对 实现 Block Dedup 
的 具体 技术 进行 介绍 。 


1. 压缩 与 Dedup 的 本 质 区 别 


想到 节约 空间 ， 大 家 可 能 首先 想到 的 是 压缩 。 比 如 WinZip、WinRAR 、7-Zip 等 工具 ,都 
是 我 们 常用 的 ， 而 且 某 些 情况 下 会 获得 很 高 的 压缩 比 。 但 是 有 印象 的 读者 可 能 还 记得 ， 本 书 第 
16 章 中 16.2.5 节 中 的 那个 例子 ， 普 通 压 缩 工具 对 那 种 情况 是 无 能 为 力 的 ， 因 为 压缩 是 一 个 局 部 
处 理 ， 而 并 不 是 全 局 处 理 ， 窗 口 很 小 。 

而 Dedup 所 要 实现 的 ， 是 针对 整个 存储 系统 的 全 局 数据 ， 普 通 压 缩 程序 不 可 能 去 扫描 全 局 
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的 数据 然后 压缩 而 后 访问 的 时 候 再 解压 缩 ， 这 是 绝对 不 现实 的 ， 一 是 耗费 大 量 CPU 资源 ， 二 是 
对 上 层 很 难 做 到 透明 访问 ( WinXP 内 置 的 Zip 引擎 可 以 做 到 透明 访问 ) 。 所 以 ， 需 要 使 用 其 他 
技术 手段 来 实现 全 局 Block Dedup。 


2. 全 局 范围 内 实现 Dedup 的 核心 技术 手段 一 一 Hash 


每 个 人 的 指纹 都 不 相同 , 一 旦 发 现 两 个 相同 的 指纹 , 就 证 明 是 同一 人 所 留 下 的 。 如 果 给 每 个 
Block 录 一 个 指纹 并 保存 ， 那 么 就 可 以 通过 比 对 这 个 指纹 来 判断 两 个 Block 是 否 内 容 相同 了 。 对 
数据 来 做 指纹 录入 ， 有 一 个 现成 的 方法 ， 即 Hash 方法 ，Hash 方法 衍生 出 多 种 不 同 的 具体 算法 ， 
目前 最 为 常用 的 算法 是 MD5 ( Message Digest v5 ) 和 SHA--1( Secure Hash Algorithm v1 ) 。 SHA-1 
算法 会 对 任意 一 份 长 度 小 于 264 的 数据 内 容 进 行 扫描 计算 最 后 得 出 一 个 长 度 为 160 的 值 (MD5 
算法 则 是 生成 一 个 128 的 值 ) ， 这 个 值 就 是 针对 这 份 数据 的 指纹 。 相 同 内 容 的 数据 经 过 Hash 之 
后 ， 总 会 得 到 相同 的 指纹 ， 但 是 不 同 内 容 的 数据 在 经 过 Hash 之 后 ， 也 有 一 个 非常 小 的 几率 可 能 
会 得 到 相同 的 指纹 。 

从 实体 内 容 可 以 算出 指纹 ,但 是 却 绝对 不 可 能 从 指纹 逆 算 出 原来 的 实体 内 容 。 所 以 Hash 方 
法 也 常 被 用 于 密码 保存 和 比 对 , 即 系统 不 保存 明文 密码 , 而 是 在 用 户 设 定 登录 密码 时 将 密码 Hash 
成 指纹 存放 , 这样， 即便 黑客 从 系统 中 截取 了 这 段 指 纹 , 那么 也 不 可 能 根据 指纹 逆 算 出 原来 的 明 
文 密码 ， 即 其 他 人 永远 不 可 能 知道 是 哪些 字符 串 被 算 成 了 对 应 的 Hash 值 。 用 户 登录 时 输入 的 密 
码 也 被 计算 成 Hash 值 与 系统 保存 的 指纹 进行 比 对 ， 如 果 匹 配 则 成 功 登录 。 破 解 Windows 登录 密 
码 的 过 程 其 实 并 不 是 “破解 ”， 而 是 暴力 地 将 系统 中 保存 Hash 值 的 文件 蔡 换 成 其 他 文件 ， 新 文 
件 中 的 Hash 值 对 应 的 原文 密码 是 已 知 的 ， 利 用 这 个 方法 ， 用 已 知 的 密码 即 可 登录 系统 。 

不 管 数 据 的 长 度 有 多 长 , 只 要 不 超过 额定 大 小 , 用 同一 种 算法 所 计算 出 来 的 指纹 长 度 总 是 定 
长 的 , 比如 即便 针对 一 个 大 小 为 4GB 的 文件 用 SHA-1 算法 来 提取 其 指纹 , 指纹 长 度 依然 为 160。 
那么 如 果 某 个 系统 内 有 两 个 4GB 的 内 容重 复 的 文件 ， 那 么 它们 的 指纹 也 一 定 是 相同 的 ， 此 时 就 
可 以 删 掉 其 中 一 个 文件 的 实体 内 容 而 只 保留 一 个 占 位 符 , 当 有 程序 访问 这 个 被 消除 实体 内 容 的 文 
件 的 时 候 , Dedup 模块 会 根据 指针 信息 从 剩余 的 那个 文件 中 对 应 的 部 分 将 内 容 提 取 并 且 返回 给 访 
问 者 。 这 样 做 ， 相 比 压缩 来 讲 就 有 了 本 质 的 变化 。 

提示 : 数据 指纹 技术 有 很 多 神奇 的 应 用 ， 比 如 某 网 站 提供 一 种 服务 ， 如 果 你 会 哼 唱 某 段 曲 

子 但 苦 耐 不 知道 这 首 曲 子 的 名 称 ， 那 么 只 要 你 哼 哼 出 这 首 曲子 并 且 录 下 来 上 传 到 服务 器 ， 

那么 服务 器 经 过 短暂 分 析 之 后 便 会 告诉 你 这 首 曲子 的 名 称 。 乍 一 听 这 是 个 非常 神奇 的 功 

能 ,其 实 如 果 明 白 数据 指纹 技术 ， 就 不 会 话 异 了 。 服 务 器 会 根据 这 首 乐曲 的 音调 频率 等 信 

息 生 成 对 应 的 指纹 , 然后 与 数据 库 中 的 大 量 已 经 保存 的 音乐 指纹 比 对 ， 如 果 发 现 与 某 个 指 

纹 类 似 , 那么 便 将 匹配 的 音乐 名 称 返 回 给 请 求 者 。 当 然 , 这 种 音频 指纹 比 对 算法 需要 具有 

一 定 的 Robust 性 ， 会 过 滤 掉 环境 杂 波 的 编码 数据 ，Hash 是 做 不 到 的 ， 即 使 音调 音色 都 相 

同 的 两 份 音频 ， 其 编码 之 后 的 数据 也 不 一 定 相 同 ， 所 以 只 扫描 计算 二 进 制 流 的 Hash 方法 

是 无 法 完成 比 对 音频 的 任务 的 。 

数据 指纹 的 另外 的 应 用 领域 还 在 于 判断 一 份 数据 在 传输 的 过 程 中 是 否 发 生 了 内 容 改变 , 在 

传输 的 源 端 算 好 一 个 指纹 ,目的 端 接收 到 之 后 再 算 一 个 指纹 ， 比 对 两 个 指纹 ,相同 则 证 明 

没 发 生 改变 ， 不 同 则 表明 发 生 了 改变 ， 数 据 不 可 用 。 
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另外 ， 数 据 指纹 还 可 以 用 于 远程 Cache 环境 。 比 如 某 个 CDN 内 容 发 布 网 络 环境 中 ， 针 对 
一 份 源 数据 ， 在 各 地 拥有 多 个 二 级 Cache， 这 些 Cache 需要 严格 保证 其 Cache 的 数据 与 源 
数据 内 容 一 致 ， 如 果 源 数据 发 生 内 容 改 变 ， 那 么 其 指纹 也 就 改变 。Cache 可 以 从 源 端 拉 取 
指纹 随时 比 对 ， 如 果 发 现 不 匹配 ， 则 表明 源 已 经 改变 ,那么 Cache 的 数据 不 再 可 用 ， 针 对 
用 户 的 数据 请 求 ，Cache 会 从 源 端 把 最 新 的 数据 拉 过 来 。 

数字 签名 。 每 个 人 的 笔迹 都 是 不 同 的 ， 但 是 。 时 代 的 电子 签名 如 何 表示 呢 ? 答案 是 使 用 
Hash 算法 来 将 某 人 给 出 的 一 时 特定 字符 算 成 指纹 ， 只 要 给 一 份 电子 合同 附属 上 这 个 指纹 
便 知道 某 人 在 合同 上 按 了 手印 。 其 他 人 不 可 能 伪造 别人 的 签名 , 因为 其 他 人 根本 不 知道 别 
人 的 原始 字符 串 。 

其 实 Hash 算法 在 各 种 程序 中 都 被 广泛 使 用 ， 比 如 08 内 部 、 数 据 库 类 程序 等 。 只 要 涉及 
到 用 很 少 的 数据 来 唯一 表示 一 个 很 长 的 数据 ， 那 么 都 会 用 到 Hash 算法 。 

网 络 硬盘 服务 商 可 以 使 用 Hash 技术 来 实现 单一 实例 存储 。 比 如 腾讯 的 QQ 中 转 站 就 使 用 
了 Hash 技术 ,每 个 人 在 上 传 大 文件 的 时 候 ， 系 统 首先 会 对 文件 进行 “扫描 ”， 这 个 扫描 
的 过 程 其 实 就 是 计算 Hash 值 的 过 程 ,浏览 器 将 Hash 值 传送 到 服务 端的 某 数据 库 中 进行 匹 
配 查询 ， 如 果 发 现 了 相同 的 Hash 值 ， 则 表示 已 经 有 其 他 人 上 传 了 相同 内 容 和 文件 名 的 文 
件 ， 那 么 本 次 上 传 将 会 立即 完成 ， 不 管 文件 有 多 大 。 


3. Hash 冲突 及 其 解决 办 法 


没 人 能 够 保证 地 球 上 所 有 人 的 指纹 都 是 不 同 的 ， 很 有 可 能 某 两 个 人 的 某 处 纹理 是 可 以 吻合 
的 。 数 据 指纹 也 一 样 存在 这 个 问题 , 算法 决定 了 针对 不 同 的 数据 内 容 有 可 能 生成 相同 的 指纹 , 但 
是 几率 非常 低 。 这 种 情况 称 为 Hash 冲突 。 设 想 一 下 ， 如 果 有 两 份 明文 内 容 ， 它 们 的 指纹 却 恰好 
相同 ,而 旦 其 中 一 份 内 容 恰 好 是 某 和 的 密码 ， 而 你 恰好 知道 这 件 事 ,那么 你 此 时 虽然 不 可 能 知道 
那 人 的 密码 明文 是 什么 ， 但 是 你 却 知道 用 你 的 明文 可 以 算出 和 他 一 样 的 Hash 值 ， 那 么 你 就 可 以 
用 你 的 明文 去 登录 他 的 系统 ， 取 得 他 的 权限 。 

然而 ,寻找 Hash 冲突 的 字符 串 ， 或 者 根据 已 知 Hash 值 来 寻找 拥有 相同 Hash 值 的 字符 串 ， 这 
个 过 程 虽然 是 大 海 捞 针 , 但 是 理论 上 还 是 可 以 捞 的 。 我 国 山东 大 学 王小云 教授 早 在 本 世纪 初 就 宣布 
她 已 经 找到 了 针对 已 知 的 Hash 指纹 来 找到 与 已 知 Hash 值 相同 指纹 的 数据 的 方法 。 请 注意 , 这 种 方 
法 并 不 是 Hash 的 逆 运 算 ， 因 为 Hash 是 不 可 逆 运算 的 。 我 们 设计 一 个 简单 证 反 即 可 得 到 这 个 结论 : 
假设 可 以 根据 Hash 值 来 逆 运 算出 原始 值 ， 假 设 有 这 样 一 种 方法 ， 那 么 逆 运 算出 来 的 原始 内 容 只 可 
能 有 一 个 而 不 可 能 有 两 个 结果 ， 那 么 这 个 结论 就 与 “不 同 原始 内 容 可 能 会 有 相同 的 Hash 值 ”这 个 
事实 相 矛 盾 ， 由 此 就 推翻 了 这 个 悖 论 。 也 就 是 说 ， 原 始 内 容 M1 其 指纹 为 H1 ， 通 过 某 种 算法 ， 可 
以 找到 另 一 份 原始 内 容 M2， 而 其 指纹 也 为 H1， 但 是 无 法 判断 M2 是 否 等 于 M1, 可 能 等 于 也 可 能 
不 等 于 。 但 是 是 否 等 于 已 经 不 重要 了 , 这 就 像 DNA 不 同 但 是 长 相 相 同 的 两 个 人 一 样 ， 他 们 在 社会 
中 某 些 场合 可 以 互相 替代 ,但 是 一 旦 你 和 他 说 话 ， 就 可 能 会 发 现 根本 不 是 一 个 人 。 

计算 机 领域 与 社会 不 同 ， 高 层 智能 尚未 在 计算 机 世界 出 现 。 只 要 有 了 Hash 值 这 个 通行 证 ， 
就 可 以 伪造 电子 签名 , 比如 某 员工 知道 老板 的 电子 签名 Hash 值 , 而 后 他 根据 这 个 Hash 值 找 到 了 
某 个 Hash 相同 的 另 一 份 字符 串 ， 那 么 他 便 可 以 用 这 份 字符 串 来 对 某 份 伪造 合同 进行 签名 ， 而 系 
统 对 这 份 字符 串 的 Hash 计算 结果 与 老板 的 相同 ， 所 以 系统 认为 合同 是 经 过 老板 签名 的 。 这 种 方 
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法 虽然 并 不 是 真正 意义 上 的 “破解 ”, 但 是 其 造成 的 后 果 与 破解 无 异 。 其 被 称 为 “Collision Attack”。 

Dedup 系统 中 如 果 出 现 了 Hash 冲突 ,如 果 不 想 办 法 解决 , 那么 对 应 的 数据 块 就 会 永久 丢失 ， 
丢失 还 不 是 最 严重 的 , 最 严重 的 是 对 业务 产生 致命 影响 : 本 来 两 份 数据 不 相同 , 但 是 由 于 指纹 相 
同 , 系统 只 保留 了 一 份 数 据 ， 当 业务 层 要 访问 被 去 重 的 那 份 数据 时 ， 系 统 返回 的 却 是 与 之 前 不 同 
的 数据 。 而 面 对 这 种 情况 ,业务 层 一 般 会 感知 到 所 得 到 的 数据 格式 根本 不 是 自己 想 要 的 , 所 以 会 
提示 出 错 。 但 是 如 果 刚 才 的 那 两 份 数 据 恰好 具有 一 定 的 相似 性 , 或 者 数据 为 完全 的 裸 数据 ， 其 中 
不 包含 任何 应 用 可 识别 的 高 层 格式 ,那么 数据 的 变化 就 不 会 被 业务 层 感知 从 而 在 错误 的 数据 之 
上 继续 进行 处 理 ， 那 么 可 能 会 得 出 业务 层 的 重大 决策 失误 或 者 重大 生产 失误 。 

要 完全 杜绝 Hash 冲突 的 唯一 办 法 就 是 在 当 比 对 两 个 Hash 值 之 后 发 现 二 者 匹配 ,那么 可 以 在 
此 基础 上 再 对 原文 内 容 进行 二 进 制 的 逐 位 比 对 ,或 者 取 两 份 文件 的 数 个 相同 部 位 ， 比 如 头 、 身 、 
尾 来 做 二 进 制 比较 。 但 是 , 如果 在 重复 数据 相当 多 的 情况 下 , 这 种 做 法 非常 耗费 计算 和 IO 资源 。 
由 于 Hash 冲突 的 几率 本 来 已 经 非常 低 , 如 果 想 办 法 把 冲突 几率 降 得 更 低 , 也 是 一 个 可 行 的 方法 ， 
基于 此 ， 可 以 同时 使 用 两 种 Hash 算法 ， 比 如 MD5 和 SHA-1 来 针对 目标 数据 进行 计算 得 到 两 组 
结果 ， 然 后 分 别 比 对 每 一 组 结果 ， 如 果 两 次 比 对 都 相同 ,那么 就 可 以 被 判定 为 重复 数据 。 这 样 做 
虽然 也 不 能 完全 杜绝 冲突 ， 但 是 其 几率 又 被 大 大 降低 了 。 


4. 如 何 设计 Dedup 


如 果 换 了 是 各 位 , 如 何 基 于 Hash 技术 来 设计 一 个 Dedup 系统 呢 ? 下 面 笔者 就 从 简单 演绎 到 
复杂 从 而 来 纵 观 Dedup 的 全 貌 。 

设想 有 一 台 Windows 服务 器 , 挂 载 了 外 部 存储 系统 中 的 几 个 LUN， 都 格式 化 成 NTFS 文件 
系统 ， 这 些 文件 系统 下 存 有 大 量 的 元 余 内 容 ， 现 在 需要 设计 一 个 Dedup 模块 ， 在 保持 对 文件 访 
问 的 透明 性 的 前 提 下 消除 重复 的 数据 块 , 达到 
块 级 别 的 Dedup。 我 们 首先 就 应 该 想到 要 处 理 > 和 2 
块 层面 的 内 容 ， 那 么 就 一 定 要 在 Windows 下 : 
的 驱动 链 中 适当 位 置 插入 一 个 过 滤 驱 动 来 监 
测 或 修改 经 过 的 Block IO 请 求 以 及 向 上 层 通 
告 虚 拟 的 可 用 容量 ; 然后 , 还 需要 一 个 用 来 存 
放 针 对 所 有 Block 所 生成 的 指纹 库 ， 这 个 库 可 
以 保存 在 每 个 LUN 的 固定 位 置 ， 由 Filter 
Driver 对 其 进行 隐藏 和 做 数据 IO , 这 样 内 核 文 
件 系 统 便 不 会 影响 到 并 且 损 坏 指纹 仓库 了 ; 还 
需要 有 一 个 中 央 控 制 模块 来 实现 Dedup 的 主 
控 。 如 图 18-48 所 示 为 笔者 自行 演绎 出 来 的 
Dedup 模块 架构 图 。 图 18-48 Dedup 模块 抽象 示意 图 

整个 Dedup 模块 的 作用 原理 如 下 : 当初 次 安装 这 个 Dedup 模块 之 后 ，Dedup 模块 便 在 系统 
后 台 运行 ，Main Control Module 根据 设 定 的 策略 ， 从 一 个 时 间 点 开始 调用 IO Thread 模块 依次 读 
出 LUN 内 的 所 有 Block ( Block 可 以 认为 设 定 粒度 ， 比 如 4KB、64KB、1024KB 等 ) 并 传递 给 
Hash Handler 模块 来 计算 Hash 值 , 算 好 的 Hash 值 会 写 入 Hash Fingerprints Repository 中 对 应 Block 
的 Slot 存放 备查 。 主 模块 会 按照 一 个 方向 从 LUN 中 读 出 Block 计算 , 但 是 如 果 T1 时 刻 计算 完 
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Block n 之 后 ， 某 用 户 程序 或 者 其 他 任何 上 层 程序 向 任何 小 于 等 于 Block n 的 最 后 LBA 地 址 或 者 
发 起 写 IO 的 话 , 那么 之 前 所 计算 的 Hash 值 就 会 作废 无 效 , 因为 对 应 的 Block 已 经 被 新 数据 所 履 
盖 了 ， 需 要 随后 重新 读 出 这 个 Block 重新 计算 Hash。 
为 了 解决 这 个 问题 ， 需 要 维护 一 个 Delay Block Bitmap 来 记录 当 上 一 次 全 LUN 扫描 开始 之 
后 到 当前 位 置 ， 这 期 间 系 统 针对 这 段位 置 所 发 生 的 写 IO 所 对 应 的 Block 的 位 置 ， 将 其 在 Bitmap 
中 置 1。 根 据 这 个 Bitmap ，Dedup 模块 就 会 知道 指纹 仓库 中 哪些 Block 的 指纹 是 无 效 的 了 。 初 次 
全 LUN 扫描 完 之 后 ， 指 纹 仓 库 中 会 积累 相当 数量 的 有 效 指纹 ， 利 用 这 些 有 效 指纹 ，Dedup 模块 
开始 做 真正 的 Dedup 过 程 。 
真正 的 Dedup 过 程 包含 以 下 4 个 动作 。 
(1 ) Dedup 主 模块 需要 处 理 上 层 源源 不 断 发 生 的 写 IO，Filter Driver 实时 监测 写 IO, 对 于 符 
合 条 件 的 写 IO ,在 将 其 透 传 到 下 层 的 同时 ,会 复制 一 份 将 其 传递 给 Dedup 主 模 块 , Dedup 
主 模块 会 实时 地 针对 每 个 接收 到 的 写 IO 计算 Hash 值 并 且 存 储 到 指纹 仓库 中 对 应 的 Slot 
中 , 并 且 在 Delay Block Bitmap 中 将 对 应 的 位 置 0。 这 样 就 不 会 漏 下 每 一 个 写 IO, 至 此 ， 
Delay Block Bitmap 中 被 置 1 的 位 不 会 再 继续 增加 了 。 如 果 因 为 各 种 原因 Dedup 模块 工 
作 异 常 或 者 由 于 各 种 限制 条 件 比 如 CPU 负载 过 高 等 ，Dedup 引擎 暂停 工作 ， 那 么 每 个 
写 IO 并 不 会 实时 地 被 计算 成 Hash 值 ， 而 引擎 转 而 向 Dealy Block Bitmap 中 记录 这 些 写 
IO 的 位 置 ,在 系统 不 忙 或 者 引擎 开始 工作 时 根据 Bitmap 来 读 出 这 些 Block 并 计算 Hash。 

(2 ) Dedup 主 模块 还 需要 在 后 台 查 找 指纹 仓库 中 重合 的 指纹 , 一旦 找到 , 便 会 对 所 有 重复 的 
Block 生成 一 个 指针 并 日 保存 在 On Disk Pointer List 中 。 这 个 动作 交 给 Block Mapping 
Metadata Handler 处 理 。 这 个 过 程 是 真正 的 数据 消 重 过 程 ， 也 是 比较 耗费 计算 资源 的 过 
程 ， 所 以 需要 考虑 到 系统 当前 的 CPU 负载 ， 根 据 所 设 定 的 处 理 力度 进行 处 理 。 这 个 步 
又 可 能 有 人 有 疑问 , 为 何 引擎 不 去 删除 磁盘 上 的 元 余 Block 呢 ? 这 个 疑问 保留 在 下 文中 
解释 。 

(3 ) 针对 Delay Block Bitmap 中 仍然 被 置 1 的 Block， 从 LUN 中 读 入 这 些 Block， 计 算 Hash 

值 存 入 指纹 仓库 ， 并 将 对 应 的 位 置 回 0， 当 所 有 位 都 被 置 0 后 ， 表 示 当 前 的 指纹 仓库 中 
针对 所 有 Block 的 指纹 全 部 都 是 最 新 的 了 。 

(4 ) 由 于 每 一 个 写 IO 都 会 被 写 入 存储 介质 中 ， 所 以 对 于 每 个 读 IO，Filter Driver 会 直接 透 

传 到 下 层 驱 动 从 读 IO 的 目标 地 址 读 入 数据 并 且 返 回 给 上 层 。 这 个 步骤 可 能 有 人 也 会 有 
疑问 ， 如 果 每 个 写 IO 都 被 写 入 介质 ， 哪 里 能 体现 剩余 空间 增加 了 ? 这 个 疑问 一 并 留 作 
下 文 解释 。 

这 4 个 动作 不 断 地 循环 执行 ， 当 然 ， 需 要 注意 线程 时 序 逻 辑 竟 争 的 情况 ， 避 免 其 发 生 。 图 
18-48 中 椭圆 形 组 件 表 示 其 为 一 个 数据 结构 ， 保 存在 LUN 固定 位 置 中 ,但 是 Dedup 模块 执行 时 
会 将 这 些 数据 全 部 或 部 分 地 载 入 内 存 以 加 快 处 理 速度 。 

对 于 操作 系统 所 在 的 LUN， 主 机 端的 Dedup 模块 无 能 为 力 ， 因 为 主机 操作 系统 启动 过 程 中 
难免 会 对 一 些 Block 有 写 入 动作 , 而 此 时 Dedup 模块 尚未 加 载 ,所 以 此 时 指纹 仓库 中 对 应 的 Block 
指纹 已 经 无 效 , 但 是 Dedup 模块 却 无 法 感知 这 种 无 效 , 所 以 每 次 重启 , Dedup 模块 就 需要 重新 来 
一 遍 全 LUN 扫 描 重 新 生成 指纹 仓库 ,得不偿失 -所 以 不 能 够 针对 操作 系统 所 在 的 LUN 进 行 Dedup 
操作 ， 要 想 实现 ， 必 须 使 用 存储 端 Dedup 模块 ( 见 下 文 ) 。 

对 于 LUN 与 LUN 之 间 的 数据 消 重 ， 就 需要 Dedup 模块 以 所 有 LUN 中 的 指纹 仓库 作为 一 
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个 全 局 的 查找 对 象 , 一 个 LUN 中 的 Block 如 果 与 男 一 个 LUN 中 的 Block 内 容 相同 , 则 也 可 以 做 
到 消 重 。 

Dedup 是 一 个 后 台 异 步 处 理 过 程 , 它 所 带 来 的 效益 并 不 是 实时 就 可 以 感觉 到 的 。 当 然 也 可 以 
设计 成 实时 的 Dedup, 比如 写 IO 进入 后 必须 先 交 给 Dedup 模块 进行 Dedup 处 理 , 如 果 被 判断 为 
重复 数据 ,那么 使 不 会 将 实体 数据 写 入 后 端 磁盘 ,这 样 做 有 一 定 的 风险 性 ,如 果 写 IO 是 Write Back 
模式 ， 那 么 Filter Driver 会 在 接收 到 IO 请 求 立即 返回 成 功 信号 给 上 层 ， 那 么 此 时 就 要 求 Dedup 
模块 必须 有 某 种 机 制 来 保证 这 个 写 IO 在 系统 故障 时 也 不 能 丢失 ， 而 对 于 主机 端的 Dedup 模块 ， 
唯一 办 法 还 是 要 将 其 先 写 入 磁盘 ， 或 者 日 志 链 中 暂 存 ， 所 以 依然 无 法 避免 磁盘 IO， 与 其 这 样 ， 
还 不 如 保持 后 台 异 步 方 式 的 好 。 而 如 果 是 Write Through 模式 ， 那 么 前 台 处 理 将 严重 增加 IO 延 
迟 ， 影响 性 能 。 

提示 : 指纹 仓库 中 包含 有 很 多 的 Hash 值 ， Dedup 引擎 一 般 使 用 Bloom Filter 算法 来 快速 地 

查找 当前 给 出 的 Hash 值 是 否 存 在 于 指纹 仓库 中 。Bloom Filter 算法 本 身 需 要 将 指纹 仓库 中 

的 Hash 值 本 身 再 次 做 一 系列 的 处 理 , 这 其 中 包括 将 其 再 次 Hash。 详细 步 骤 就 不 做 过 多 描 

述 了 。 


5. Dedup 的 分 类 


Dedup 的 设计 总 体 上 可 以 分 为 多 种 类 别 ， 作 用 于 不 同 层次 、 目 标 和 阶段 。 

1) In-Band/Out-Band Dedup 

所 谓 Im-Band, 就 是 将 指纹 仓库 存放 在 与 所 要 Dedup 的 目标 实体 数据 所 在 的 相同 位 置 。 比如 
要 Dedup 某 主 机 上 的 若干 LUN， 那 么 指纹 仓库 也 放 在 这 台 主 机 上 的 一 个 或 者 多 个 LUN 中 国定 
位 置 ， 这 样 ， 有 多 少 主机 需要 实现 Dedup， 就 有 多 少 份 指纹 仓库 存在 。 

所 谓 Out-Band， 就 是 将 整个 全 局 系统 内 的 所 有 主机 上 LUN 的 指纹 保存 在 一 个 单独 地 点 ， 
集中 存放 ， 集 中 管理 。 主 机 上 的 Dedup 引擎 通过 网 络 与 这 个 指纹 仓库 通信 从 而 存 入 或 者 提取 指 
纹 。 由 于 Dedup 多 是 后 台 异 步 处 理 方式 ， 所 以 外 部 网 络 所 引发 的 延迟 并 不 会 从 根本 上 影响 一 段 
时 间 内 的 Dedup 的 效率 。 

传统 设计 总 是 采用 In-Band Central Dedup Engine Host 
的 方式 , 每 台 主机 上 都 安装 一 个 
独立 的 Dedup 引擎 。 然 而 , 这 只 
是 第 一 步 。 有 没有 可 能 采用 一 个 
集中 Dedup 引擎 来 统一 管理 全 局 
系统 内 的 所 有 主机 上 的 Dedup 操 
作 呢 ? 答案 是 有 。 如 图 18-49 所 
示 为 将 Dedup 引擎 全 外 置 之 后 的 
彻底 Out-Band 模式 架构 。 

右 图 中 的 架构 是 一 个 
Client/Server 架构 ,基于 图 18-48 
中 所 示 的 自演 绎 的 Dedup 引擎 架 
构 改造 。 原 本 运行 在 每 台 主 机 上 图 18-49 Dedup 引擎 全 外 置 ，0ut-Band 
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的 Dedup 引擎 的 主干 组 件 全 部 被 外 置 到 一 台 单 独 的 Dedup 服务 器 主机 上 ， 而 客户 端 主机 上 只 安 
装 Filter Driver 和 一 个 用 于 与 Dedup 服务 端 通信 的 Agent。 服 务 端 与 客户 端 之 间 通 过 某 种 网 络 来 
通信 ,由 于 Dedup 是 一 个 后 台 异 步 过程 ， 对 实时 IO 性 能 基本 上 影响 很 小 , 所 以 这 个 网 络 采用 普 
通 千 兆 以 太 网 即 可 。 Dedup 服务 端 为 每 个 加 入 Dedup 域 的 客户 端 主机 维护 各 自 的 Metadata, 包括 
指纹 仓库 、Delay Block Bitmap 和 Pointer List。 

对 于 每 个 主机 客户 端的 写 IO , 会 被 客户 端 复制 一 份 通过 网 络 传送 给 Dedup 服务 端 进行 Hash 
计算 和 Dedup 处 理 以 及 Pointer List 更 新 。 所 以 ， 这 个 网 络 上 的 流量 会 是 比较 大 的 ， 因 此 最 好 使 
用 单独 的 网 卡 和 交换 机 而 不 要 与 前 端 交换 机 混用 。 另 外 ， 向 服务 端 发 送 写 IO 数据 的 过 程 对 客户 
端 主机 的 原本 IO 性 能 影响 不 大 ， 但 部 署 时 需要 避免 这 块 网 卡 与 客户 端 原本 的 IO 适配器 处 于 同 
一 个 主机 IO 总 线 上 。 

每 个 主机 客户 端的 读 IO 操作 都 需要 查找 Pointer List 用 以 确定 IO 的 目标 地 址 所 落 入 的 Block 
是 否 已 被 Dedup ， 如 果 尚 未 被 Dedup， 那 么 Filter Driver 就 会 透明 发 向 下 层 直 接 从 底层 磁盘 对 应 
地 址 读 出 数据 ;如 果 已 经 被 Dedup， 那 么 Filter Driver 会 根据 Pointer List 中 的 源 副 本 所 在 地 址 读 
出 对 应 的 数据 部 分 。 但 是 在 上 图 所 示 的 这 种 彻底 Out-Band 模式 下 ,每 个 主机 客户 端的 Pointer List 
都 被 存储 在 Dedup 引擎 服务 器 上 ,如 果 每 次 读 IO 都 会 引发 一 个 向 外 Dedup 部 服务 端的 查询 请 求 ， 
那么 延迟 将 会 是 非常 大 的 ， 严 重 影响 性 能 。 鉴 于 此 ， 可 以 将 Pointer List 缓存 在 主机 客户 端 本 地 ， 
由 Agent 负责 维护 以 供 Filter Driver 直接 查询 ， 避 免 通过 网 络 。 被 缓存 的 Pointer List 需要 时 刻 保 
持 最 新 ，Dedup 服务 端 需要 实时 地 将 Pointer List 的 变更 推送 到 客户 端的 Agent 处 。 

2 ) 主机 端 /存储 端 / 备 份 介质 服务 器 端 Dedup 

与 其 大 动 干戈 地 在 主机 端 搞 什 么 In/Out-Band 架构 设计 ， 不 如 干脆 将 Dedup 引擎 全 部 放 入 

存储 设备 之 内 来 运行 ， 主 机 端 不 需要 做 一 点 改动 ， 完 全 透明 访问 所 有 的 Dedup 过 的 LUN。 可 以 
看 到 存储 端 Dedup 架构 与 主机 
端 别 无 二 致 ,因为 存储 设备 本 质 
上 也 是 主机 。 
图 18-50 所 示 的 架构 既 可 
以 针对 Block 存储 设备 , 也 可 以 
针对 NAS 存储 设备 。 当 然 ， 在 
NAS 上 也 可 以 实现 文件 层面 的 
Single System Image 模式 的 
Dedup。 

另外 ， 也 可 以 将 Dedup 引 
秘 放 到 备份 介质 服务 器 上 ,所 有 
客户 端的 数据 源源 不 断 地 被 传 
输 到 备份 介质 服务 器 上 , Dedup 
引擎 对 这 些 备份 数据 进行 消 重 
处 理 。 值得 一 提 的 是 , 备份 介质 图 18-50 存储 端 Dedup 引擎 架构 示意 图 
服务 器 上 的 Dedup 引擎 可 以 针 
对 不 同 的 备份 介质 选择 前 台 处 理 或 者 后 台 处 理 ， 详 见 下 文 。 
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3 ) Online/Offline Dedup 

Online Dedup 是 指 被 Dedup 的 目标 数据 为 当前 的 应 用 系统 正在 访问 的 数据 。 由 于 Dedup 过 
程 对 目标 LUN 有 一 定额 外 的 IO 消耗 和 IO 延迟， 包括 初始 化 Dedup 时 读 取 Block 进行 Hash 计 
算 的 过 程 以 及 针对 每 个 读 IO 都 需要 额外 的 查询 Pointer List 的 步骤 , 所 以 Online Dedup 对 生产 系 
统 的 IO 性 能 有 一 部 分 影响 。 

Ofline Dedup 针对 的 Dedup 目标 则 为 那些 已 经 脱离 在 线 业 务 生产 系统 访问 的 离线 数据 ， 比 
如 ， 备 份 之 后 的 数据 。 针 对 这 些 数据 所 做 的 Dedup 操作 不 会 对 生产 系统 有 影响 。 

4 ) 局 部 /全 局 Dedup 

所 谓 局 部 Dedup 是 指 ，Dedup 引擎 只 在 进入 的 某 段 数据 范围 内 做 Dedup。 比 如 单位 时 间 内 
有 一 串 128KB 字符 进入 ,如 果 是 局 部 Dedup， 则 引擎 会 将 这 128KB 数据 分 割 成 比如 4KB 大 小 的 
Block， 算 出 每 个 Block 的 Hash， 然 后 只 比 对 这 些 Block 之 问 有 没有 宛 余数 据 的 存在 ， 如 果 有 ， 
则 Dedup 其 中 宛 余部 分 ， 只 写 入 唯一 的 数据 部 分 。 

所 谓 全 局 Dedup 是 指 ,Dedup 引擎 会 对 进入 的 数据 切割 成 比如 4KB 的 Block, 算 出 每 个 Block 
的 Hash 之 后 ，Dedup 引擎 会 去 系统 全 局 指纹 仓库 中 查找 匹配 的 指纹 ， 这 样 的 话 ， 去 重 比率 将 更 
大 。 全 局 Dedup 的 另外 一 个 含义 是 ， 可 以 做 到 跨 设备 的 Dedup， 也 就 是 说 多 个 设备 共同 形成 一 
个 大 的 存储 池 ， 指 纹 仓 库存 储 着 所 有 设备 上 的 数据 指纹 ， 实 现 跨 设备 的 全 局 Dedup。 

局 部 Dedup 的 本 质 更 加 接近 于 压缩 ， 而 全 局 Dedup 才 是 真正 的 Dedup。 

5 ) Pre—Process/Post—Process Dedup 

Pre 一 Process 意 即 前 台 处 理 ，Post-Process 则 表示 后 台 处 理 ; Pre-Process 又 被 称 为 mn-Line 
Process，Post 一 Process 又 被 称 为 Out-Line Process。 前 台 处 理 的 步骤 如 本 小 节 4 部 分 结尾 所 述 。 前 
台 处 理 可 以 保证 系统 时 刻 处 于 完全 Dedup 状态 ， 任 何 时 刻 系统 中 都 没有 宛 余数 据 存在 ， 但 是 相 
应 地 它 也 增加 了 处 理 负担 和 延迟 ， 对 Write Through 模式 的 写 性 能 有 严重 影响 。 

而 Post-Process， 即 后 台 异 步 处 理 ， 根 据 设 计 的 不 同 也 有 不 同 的 影响 。 比 如 某 种 设计 选择 完 
全 的 异步 处 理 , 即 写 IO 在 进入 系统 时 ,Dedup 模块 只 在 Delay Block Bitmap 中 记录 其 位 置 ， 而 不 
计算 Hash 值 ， 任 赁 它们 被 写 入 存储 介质 。 当 Dedup 引擎 因为 某 个 条 件 被 触发 时 ， 比 如 时 间 、 剩 
余 空 间 等 ， 引 擎 将 根据 Bitmap 来 读 出 对 应 的 Block 并 且 计 算 Hash， 然 后 进行 消 重 。 但 是 这 种 做 
法 需要 耗费 额外 的 读 IO 消耗 。 在 本 小 节 4 部 分 中 的 首选 设计 方式 并 非 完 全 异步 处 理 ， 其 步骤 中 
有 一 定 的 同步 处 理 过 程 , 即 每 进入 一 个 写 IO, Dedup 实时 地 计算 其 Hash 值 并 且 保 存 到 指纹 仓库 ， 
只 有 在 发 生 Dedup 引擎 异常 或 者 系统 CPU 覆盖 过 高 时 才 转 为 异步 处 理 。 这 样 做 的 话 ， 指 纹 仓库 
中 大 多 数 时 刻 都 是 最 新 的 指纹 ， 无 须 回 读 过 程 ， 任 何 时 候 Dedup 消 重子 功能 被 触发 ， 引擎 只 需 
要 在 指纹 仓库 中 查找 相同 的 指纹 即 可 。 

综 上 所 述 ， 在 Online 的 数据 ， 总 是 应 当 使 用 Post-Process Dedup。 对 于 Offline 数据 ， 由 于 
不 会 影响 生产 系统 性 能 ， 所 以 可 以 选择 使 用 Pre-Process。 一 个 典型 的 处 理 Ofline 数据 的 角色 就 
是 备份 系统 中 的 介质 服务 器 , 当 连 接 到 介质 服务 器 的 存储 介质 为 物理 磁带 等 不 可 快速 随机 寻 址 的 
存储 介质 的 时 候 , 采用 后 台 Dedup 处 理 是 不 恰当 的 , 此 时 只 能 在 数据 被 写 入 磁带 之 前 进行 Dedup 
处 理 。 这 方面 详情 见 下 文 分 析 。 

提示 : 以 上 的 类 别 划分 于 不 同 层次 上 ， 每 个 类 别 之 间 可 以 互相 组 合 ， 比 如 “主机 端的 

Out-Band 的 Ofine 的 Post-Process 全 局 的 Dedup”。 
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6. Dedup 的 去 重 比率 影响 因素 


1) Block 大 小 的 影响 

毫 无 疑问 ，Block 粒度 越 小 ， 发 生 数 据 重复 的 几率 就 越 大 ， 去 重 比率 就 越 高 。 如 图 18-51 所 
示 ， 同 样 一 段 数据 ， 如 果 按 照 Block=8KB 来 计算 
一 个 Hash 值 的 话 ， 那 么 图 中 上 面 的 两 个 Block 的 pecoeFeH Block Size=8KB 
Hash 值 不 同 , 则 这 两 个 块 任何 一 个 也 无 法 被 去 重 。 te 
而 如 果 Block-4KB, 那么 其 中 的 就 有 一 个 Beck 与 国 国 芋 时 请 国 aaousreo 
另外 一 个 Block 发 生 重复 ,其 中 一 个 就 可 以 被 册 掉 。 图 18-51 不 同 Block 大 小 对 去 重 比率 的 影响 
然而 ， 取 得 高 比率 就 要 付出 维护 复杂 度 增高 、 性 能 降低 的 代价 ， 训 经 训 重 ， 可 各 自 把 握 。 

2) Block 边界 的 影响 


本 LacpEFenEFetAecpEFe | zAgcDeFGHEFGHABcDEFG | 
如 果 数 据 并 不 是 按照 图 18-51 中 所 示 的 那 ”， 
样 排列 ,而 是 按照 图 18-52 所 示 的 排列 方式 , 而 人 LE 
且 又 不 加 以 特殊 处 理 的 话 , 那么 这 个 例子 的 去 重 。 此 加 这 国医 

比率 就 是 0。 图 18-52 边界 位 移 导致 的 去 重 比率 降低 

上 图 左边 所 示 的 例子 中 , 只 因为 Block 边界 错开 了 一 个 字符 , 却 导致 这 段 数据 的 局 部 去 重 比 
率 为 0。 右边 所 示 的 为 两 串 字 符 串 数据 ， 只 因为 首部 插入 一 个 字符 ， 导 致 不 管 Block Size 为 多 大 
(除非 一 个 字符 的 粒度 ) ， 这 个 全 局 的 Dedup 比率 也 为 0。 

这 种 问题 是 现实 中 很 有 可 能 发 生 的 , 比如 用 户 在 某 个 文档 中 插入 一 个 字符 , 然后 另存 成 一 份 
新 文档 , 那么 这 个 新 文档 对 应 的 底层 Block 内 容 全 部 前 移 一 个 字符 ， 新 文档 和 旧 文 档 虽 然 只 差 一 
个 字符 ， 但 是 传统 的 Dedup 却 无 能 为 力 。 

为 了 解决 这 个 问题 , 一 些 厂商 实现 了 位 移 技术 , 即 针对 待 处 理 的 数据 ， 先 从 二 进 制 流 上 进行 
简单 抽样 比较 以 确定 是 否 发 生 了 这 种 位 移 现象 , 通过 比 对 结果 确定 发 生 位 移 的 偏 移 量 , 然后 使 用 
特殊 的 处 理 方法 ， 截 掉 首 部 插入 导致 整体 位 移 的 数据 段 ， 单 独 存放 并 且 记录 特殊 的 元 数据 信息 ， 
剩余 的 数据 部 分 再 按照 常规 的 分 块 计算 Hash 然后 Dedup 处 理 。 在 提取 数据 时 ， 按 照 当 初 存放 的 
元 数据 信息 以 及 截取 的 数据 段 以 及 唯一 Block 副本 共同 组 合 还 原 成 原来 的 数据 。 

实现 这 种 可 变 长 度 时 的 算法 都 是 有 固定 模式 的 , 各 个 厂商 可 能 使 用 的 算法 大 同 小 异 。 基本 上 
都 是 按照 某 窗口 对 目标 数据 进行 扫描 , 比如 首先 错位 1 字 节 , 如 果 没有 发 现 元 余 块 ， 则 错位 2 字 
节 扫 描 ， 依 此 类 推 ， 直 到 错位 到 一 个 最 大 窗口 ,比如 16 字 节 ， 之 后 如 果 还 没 发 现 一 定 比例 的 宛 
余 块 ， 则 放弃 这 次 扫描 ， 认 为 其 无 元 余 。 

这 种 方法 目前 被 厂商 称 为 “可 变 长 度 ” 的 Dedup 技术 。 传 统 的 方法 被 称 为 “固定 长 度 ” 的 
Dedup 技术 。 可 变 长 度 Dedup 技术 只 对 局 部 Dedup 有 效 ， 因 为 全 局 Dedup 的 情况 下 ， 要 进行 边 
界 位 移 , 就 必须 提前 感知 到 当前 进入 的 数据 与 已 经 存储 的 数据 中 的 哪些 是 重复 的 以 判断 在 哪里 位 
移 ， 而 这 是 不 可 能 的 。 


7. 深刻 理解 Dedup 的 作用 层次 ， 真 的 Dedup 了 么 


现在 是 解释 本 小 节 4 部 分 中 的 疑问 的 时 候 了 。 我 们 要 时 刻 牢 记 ，Dedup 是 为 了 什么 而 生 的 
呢 ? 当然 是 为 了 节省 底层 存储 空间 ， 可 以 把 节省 出 来 的 空间 再 利用 而 生 的 。 那 么 也 就 是 说 ， 如 果 
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不 能 够 节省 出 底层 空间 , 或 者 节省 出 来 的 空间 并 不 能 够 再 利用 , 那么 所 做 的 任何 事情 、 任 何 技术 、 
任何 设计 ， 都 将 是 没有 意义 的 。 

回顾 本 小 节 4 部 分 中 的 几 个 Dedup 步骤 。 当 Dedup 引擎 在 指纹 仓库 中 找到 相同 指纹 之 后 ， 
它 不 去 磁盘 上 将 元 余 的 Block 抹 掉 ， 而 只 是 将 这 个 信息 更 新 到 Pointer List 中 。 有 人 会 有 疑问 , 如 
果 某 个 Block 被 Dedup 了 ， 难 道 不 需要 去 数据 卷 中 对 应 的 位 置 将 其 标记 为 指针 么 ? 而 元 余 Block 
依然 处 于 卷 中 未 被 删除 , 那么 怎么 会 节省 出 空间 来 呢 ? 其 实 抱 有 这 个 疑问 的 人 尚未 理解 一 个 基本 
原则 : 在 主机 上 ， 是 谁 来 最 终 决定 LUN 的 剩余 空间 ?这 个 问题 在 本 书 中 曾经 不 止 一 次 提 到 过 ， 
LUN 一 层 根本 无 法 感知 文件 系统 的 剩余 空间 ， 所 以 ， 即 便 是 LUN 中 的 元 余 的 块 被 Dedup 了 ， 
但 是 这 种 Dedup 之 后 所 节省 的 空间 ， 也 只 是 由 Dedup 引擎 自己 知道 (通过 统计 Pointer List 中 的 
条 目 ) 。 但 是 上 层 的 文件 系统 已 经 认为 这 个 块 被 某 文 件 占用 了 , 所 以 不 会 把 它 当 做 剩余 空间 来 对 
待 ， 也 就 是 说 ， 你 只 能 眼睁睁 地 看 着 实际 的 节省 出 来 的 空间 不 能 够 被 文件 系统 使 用 。 这 人 么 说 ， 
Dedup 根本 没 意 义 了 ? Dedup 不 是 应 该 节省 出 一 部 分 数据 空间 的 么 ? 先 别 急 。 

结论 1 :任何 不 能 被 文件 系统 感知 到 的 回收 的 空间 , 对 于 这 个 文件 系统 来 讲 是 没有 意义 的 。 

同样 是 回收 空间 ， 但 是 De-Provision 的 做 法 与 块 级 Dedup 有 着 本 质 不 同 。De-Provision 是 

运行 在 存储 端的 ， 它 使 用 某 种 方法 将 主机 端 文件 系统 中 的 剩余 空间 映射 到 LUN, 在 LUN 

所 占据 的 对 应 的 这 块 空间 上 “ 打 孔 ”， 也 就 是 “Hole Punching”， 这 些 孔 洞 就 变 成 了 剩余 

空间 ， 那 么 同一 个 存储 设备 上 的 其 他 已 经 存在 的 Thin LUN 需要 占据 空间 时 ， 就 可 以 利用 

这 些 空间 ， 而 也 可 以 在 存储 端 利 用 这 些 空间 创建 新 的 Thin LUN ， 甚 至 常规 LUN。 

De-Provision 与 Thin-Provision 紧密 结合 起 来 达到 共生 。 

不 知道 大 家 现在 是 否 看 出 一 点 端倪 来 ， 仔 细 思 考 一 下 个 中 关系 。 怎 样 才能 使 主机 端的 块 级 
Dedup 变 得 有 意义 呢 ? 答案 是 , 要 么 老 老实 实地 让 文件 系统 感知 到 剩余 空间 的 变化 ,要么 就 让 主 
机 端 块 级 Dedup 实现 与 存储 端 块 级 Dedup 类 似 的 功能 。 

方法 1 : 让 主机 端 文件 系统 感知 到 空间 的 节省 。 你 会 发 现 ， 对 于 块 级 Dedup 来 讲 ， 这 种 方 

法 永远 行 不 通 。 为 何 呢 ? 因为 块 级 Dedup 根本 没有 考虑 一 点 点 FS 层 的 多 辑 ， 它 与 

De-Provision 的 本 质 是 不 同 的 。 所 以 ， 文 件 系 统 始终 认为 底层 被 Dedup 的 块 是 有 文件 在 占 

据 的 。 但 是 对 于 文件 级 别 的 Dedup， 比 如 SS， 是 完全 可 以 做 到 的 ，SIS 会 作用 在 文件 级 ， 

会 将 文件 中 元 余 的 数据 切 掉 ， 而 文件 的 元 数据 中 的 文件 长 度 保持 不 变 , 但 是 底层 占用 空间 

却 变 了 ,这 些 修改 都 可 以 被 文件 系统 感知 到 ， 所 以 剩余 空间 也 就 增 大 了 。 当 文件 系统 发 起 

对 文件 中 被 Dedup 的 内 容 访问 的 时 候 ,SIS 的 底层 过 滤 驱 动 会 截获 对 应 的 访问 IO 请 求 并 且 

读 出 唯一 副本 并 返回 给 上 层 。 

方法 2 : 模仿 主机 端 对 LUN 的 管理 和 Thin/De-Provision。 毫 无 疑问 ， 要 做 到 此 ， 就 需要 在 

主机 端的 LUN 之 上 再 建立 一 层 空 间 管理 层 ,也 就 是 卷 管理 层 , 在 卷 管理 层 之 内 实现 对 LUN 

之 上 的 卷 的 Dedup 而 不 是 对 LUN 来 Dedup。 这 样 做 了 之 后 ， 卷 管理 层 便 会 感知 到 哪些 卷 

实际 占用 了 多 少 物理 空间 ， 而 节省 出 来 的 LUN 中 的 空间 便 可 以 建立 其 他 的 新 卷 。 当 然 ， 

如 果 在 这 个 卷 管理 层 内 同时 实现 Dedup 、Thin/De-Provision 的 话 ， 那 么 其 节省 的 空间 将 会 

更 多 ， 存 储 利 用 率 将 会 更 高 ! 

提示 : ZFS 既是 一 个 LUN/ 卷 管理 层 又 是 一 个 文件 系统 ， 它 相当 于 把 外 部 智能 存储 设备 具 

有 的 功能 集成 到 了 主机 之 内 , 类似 于 Symantec Storage Foundation。ZFS 对 LUN 的 管理 是 非 
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常 灵 活 的 。 并 且 ZFS 已 经 实现 了 卷 级 别 的 Dedup。 


结论 2 : 一 切 在 主机 端 运 行 的 、 块 级 的 、 针 对 LUN 的 Dedup, 根本 无 法 达到 节省 和 利用 底 

层 存 储 空间 的 目的 。 

那么 主机 端 针对 LUN 的 块 级 Dedup 是 否 完全 没有 意义 了 呢 ? 非 也 。 比 如 , 在 备份 这 个 LUN 
的 时 候 ， 主 机 端 就 可 以 不 备份 被 Dedup 的 Block， 节 省 备份 数据 的 存储 空间 。 如 果 备份 是 通过 网 
络 将 数据 传送 给 备份 介质 服务 器 的 ,那么 还 可 以 大 大 降低 传送 的 数据 数量 ,降低 备份 所 需 的 时 间 。 

结论 3 : 主机 端 块 级 的 、 针 对 LUN 的 Dedup， 只 有 在 备份 整个 LUN 时 才 会 表现 出 节省 传 

输 数 据 总 量 、 降 低 备 份 窗口 的 作用 和 意义 。 

综 上 所 述 ， 块 级 的 Dedup 最 好 是 直接 作用 在 最 终 的 存储 端 ， 因 为 我 们 最 终 要 节省 的 就 是 物 
理 磁盘 的 空间 , 而 物理 磁盘 直接 归 存储 设备 管理 , 所 以 没有 理由 不 在 存储 端 来 实现 Dedup。 然而 ， 
数据 存储 技术 不 但 包含 如 何 存储 数据 ， 还 包含 数据 在 系统 中 的 传输 ， 比 如 网 络 数据 备份 系统 。 


8. 网 络 数据 备份 子 系统 中 的 Dedup 


不 管 是 否 是 Frontend- Free 模式 的 备份 ， 既 然 要 备份 ， 那 么 一 定 牵 扯 到 数据 从 源流 向 目的 ， 
而 目的 就 是 备份 介质 服务 器 , 备份 介质 服务 器 再 将 接收 到 的 待 备份 数据 写 入 底层 的 备份 介质 , 比 
如 磁盘 、 磁 带 等 。 所 以 ,不 管 是 哪 一 层 的 Free， 数 据 传输 过 程 总 是 无 法 避免 的 。 而 如 果 需 要 备份 
的 数据 中 包含 了 很 多 宛 余 的 内 容 , 那么 在 传输 的 时 候 就 会 产生 浪费 , 增加 了 额外 不 必要 的 数据 传 
输 时 间 。 

而 如 果 在 数据 传输 之 前 ， 将 待 备份 的 数据 进行 Dedup 操作 ， 在 传输 过 程 中 只 传输 唯一 的 数 
据 副 本 以 及 对 应 的 Pointer List 等 Metadata， 那么 就 会 大 大 降低 需要 传送 的 数据 数量 , 就 像 上 一 节 
中 的 结论 3 所 指出 的 那样 。 当 然 , 结论 3 中 指出 的 在 主机 端 实现 LUN 的 Dedup 在 备份 时 会 发 生 
效果 ,但 是 这 必须 要 求 Dedup 引擎 与 备份 恢复 系统 配合 ,比如 备份 服务 器 发 起 备份 操作 时 ,Dedup 
引擎 必须 介入 ， 否 则 的 话 将 会 以 传统 方式 备份 带 有 宛 余 的 数据 的 整个 LUN。 所 以 ， 在 实际 产品 
中 ，Dedup 模块 一 般 都 是 作为 备份 软件 的 一 个 子 模块 来 存在 的 ， 安 装 在 客户 主机 之 上 。 

然而 ， 很 少 有 直接 备份 整个 LUN 的 ， 大 多 都 是 备份 文件 ， 所 以 此 时 主机 上 的 SIS 模块 便 可 
以 与 备份 系统 相配 合 。 

也 不 一 定 非 要 在 主机 端 实现 Dedup, 有 时 候 宁愿 策 牲 一 些 数据 传输 时 间 , 也 不 希望 客户 主机 
过 多 的 介入 从 而 影响 主机 性 能 。 此 时 ,就 可 以 在 备份 数据 离开 客户 端 主机 的 下 一 站 ,也 就 是 备份 
介质 服务 器 处 进行 Dedup 操作 ， 这 样 的 话 ， 数 据 到 了 备份 介质 服务 器 之 后 都 将 被 存储 为 一 个 打 
包 的 映像 文件 ， 所 以 也 就 不 必 考 虑 文件 级 还 是 块 级 了 ， 统 一 使 用 块 级 Dedup 以 提高 去 重 比率 。 
在 介质 服务 器 上 实现 Dedup 可 以 有 两 种 选择 : 前 台 Dedup 和 后 台 Dedup。 

如 果 备 份 介质 为 磁带 , 则 必须 以 前 台 的 方式 来 实现 Dedup , 因为 磁带 是 非 高 速 随机 寻 址 介质 ， 
不 适合 后 台 的 Dedup。 在 前 台 Dedup 过 程 中 , 可 以 采用 局 部 和 全 局 两 种 模式 的 Dedup。 如 果 采 用 
局 部 模式 ， 则 介质 服务 器 上 的 Dedup 引擎 对 接收 进来 的 数据 实时 切割 成 Block 然后 计算 Hash 值 
并 存储 到 指纹 仓库 中 存放 ,第 一 个 Block 无 条 件 直接 写 入 介质 ,第 二 个 Block 进入 后 先 计算 其 Hash 
值 并 且 与 已 经 存在 的 指纹 进行 比较 ,如果 匹 配 , 那 恰 好 不 用 写 入 介质 ， 只 需要 将 这 条 匹配 信息 记 
录 在 Pointer List 中 即 可 ， 后 续 的 Block 的 处 理 以 此 类 推 。 这 样 ， 就 可 以 针对 这 个 备份 流 自身 进行 
Dedup, 也 就 是 局 部 Dedup。 如 果 采 用 全 局 的 Dedup 方式 , 则 介质 服务 器 上 的 Dedup 引擎 对 接收 
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进来 的 数据 计算 Hash 值 后 ， 会 将 这 个 Hash 值 与 之 前 曾经 被 备份 过 的 数据 对 应 的 指纹 仓库 中 的 
Hash 值 进行 比较 从 而 Dedup， 也 就 是 说 进入 的 数据 在 全 局 范围 内 是 没有 元 余 的 ， 但 是 全 局 模式 
对 Dedup 引擎 的 效率 以 及 介质 服务 器 的 处 理 能 力 要 求 比 局 部 模式 要 高 。 

介质 服务 器 都 有 本 地 的 硬盘 ， 所 以 也 可 以 先 将 备份 数据 流 暂 存在 本 地 硬盘 的 某 处 作为 缓冲 ， 
然后 Dedup 引擎 后 台 处 理 ， 之 后 写 入 磁带 ， 也 就 是 使 用 D2D2T 方式 。 前 台 操 作 可 能 会 让 系统 应 
接 不 暇 ， 降 低 整 体 性 能 。 另 外 ， 操 作 磁 带 设备 与 操作 磁盘 设备 相 比 ， 会 耗费 更 多 的 CPU 周期 ， 
所 以 前 台 Dedup 处 理 ， 同 时 后 台 还 要 写 入 磁带 ， 系 统 整 体 性 能 将 会 非常 低下 。 因 此 D2D2T 的 方 
式 是 Dedup 应 当 采 用 的 方式 。 

如 果 备 份 介质 为 磁盘 或 者 基于 磁盘 虚拟 出 来 的 磁带 ( VTL ) ， 则 可 以 采用 后 台 Dedup 方式 ， 
因为 此 时 可 以 快速 地 定位 和 读 出 需要 的 Block。 在 这 种 模式 下 ,介质 服务 器 首先 将 收 到 的 数据 流 
按照 常规 方式 直接 写 入 磁盘 或 者 VTL。 当 Dedup 引擎 触发 时 ， 再 从 对 应 的 目标 将 数据 读 出 计算 
Hash 并 且 做 Dedup 处 理 ， 然 后 再 写 到 新 的 介质 空间 ， 原 有 的 备份 数据 集 删 除 以 腾 出 空间 。 

在 进行 数据 恢复 时 ， 介 质 服务 器 上 的 Dedup 引擎 必 须 介 入 ， 从 所 记录 的 Pointer List 以 及 数 
据 唯 一 副本 ， 共 同 生 成 一 份 完整 的 数据 ， 然 后 恢复 到 客户 端 主机 上 。 

当然 ,也 不 一 定 非 要 在 介质 服务 器 上 实现 Dedup。 在 外 部 备份 存储 介质 设备 中 比如 磁盘 阵列 、 
磁带 库 、VTL 上 一 样 也 可 以 实现 Dedup， 这 里 便 是 数据 的 最 终归 属地 了 。 在 这 两 处 实现 Dedup， 
其 本 质 原理 都 是 一 样 的 ， 所 以 就 不 做 过 多 介绍 了 。 

综 上 所 述 , Dedup 与 备份 是 绝对 不 可 分 割 的 , Dedup 在 数据 备份 恢复 的 时 候 能 够 起 到 重要 的 
作用 。 另 外 , 作用 于 Online 存储 系统 上 的 Dedup 可 以 节省 存储 空间 的 浪费 , 腾 出 空间 以 做 它 用 ， 
也 是 Dedup 发 挥 重要 作用 的 一 处 。 


9. Dedup 思想 的 其 他 应 用 


增 量 备份 、 差 量 备份 , 通常 是 在 应 用 程序 层 来 控制 的 , 应 用 程序 来 负责 备份 它 所 操作 的 文件 
以 及 记录 每 次 备份 的 时 间 点 以 及 文件 所 变化 的 部 分 。 备份 软件 在 这 里 起 到 的 作用 只 是 配合 应 用 程 
序 将 其 生成 的 数据 流 导 向 存储 介质 中 保存 , 同时 管理 和 维护 存储 介质 , 以 及 制定 备份 任务 计划 等 
功能 。 当 然 ， 备 份 软件 也 可 以 直接 将 整个 LUN 备份 下 来 。 

然而 , 备份 软件 自身 如 何 能 够 实现 LUN 级 别 的 增 量 或 者 差 量 备份 呢 ? 备份 软件 虽然 不 能 够 
感知 各 种 应 用 程序 所 生成 的 文件 中 变化 的 内 容 部 分 , 但 是 它 可 以 记录 底层 的 Block 变化 , 将 上 一 
次 备份 整个 LUN 之 后 ,这 个 LUN 中 所 发 生 的 所 有 写 IO 对 应 的 Block, 按 照 位 置 记录 在 一 个 Bitmap 
中 。 下 次 触发 备份 时 可 以 只 将 Bitmap 中 被 置 1 的 Block 备份 下 来 即 可 ， 这 样 就 实现 了 差 量 备份 。 

如 果 要 实现 增 量 备份 , 则 可 以 将 上 一 次 的 Bitmap 封存 ,新 建 一 份 空 Bitmap 来 保存 自 上 一 次 
差 量 或 增 量 备份 之 后 LUN 中 变化 的 Block， 当 再 次 触发 增 量 备份 时 ， 将 这 份 新 Bitmap 中 被 置 1 
的 位 对 应 的 Block 备份 下 来 ,并 封存 此 Bitmap ， 创 建新 Bitmap， 依 此 类 推 。 在 进行 恢复 时 , 会 根 
据 需 要 恢复 的 备份 点 ， 将 这 个 备份 点 之 前 的 所 有 Bitmap 做 一 个 OR 操作 ,合成 一 份 完整 反映 需 
要 恢复 的 Block 的 Bitmap, 然后 首先 将 初次 全 备份 的 数据 覆盖 到 目标 上 , 再 根据 这 份 完整 Bitmap 
和 每 次 增 量 所 备份 的 Block 集 ， 提 取 对 应 的 Block 然后 覆盖 到 目标 对 应 的 Block 位 置 上 。 这 种 方 
法 可 以 大 大 减少 每 次 需要 备份 的 数据 量 ， 但 是 却 不 能 减少 每 次 恢复 时 所 恢复 的 数据 量 。 

上 面 的 做 法 可 以 从 一 定 程度 上 消除 一 些 不 必要 的 数据 块 的 恢复 ,但 是 并 不 能 彻底 杜绝 传输 一 
些 不 必要 的 元 余数 据 块 ， 因 为 备份 软件 是 无 法 感知 到 多 次 增 量 备份 的 数据 块 是 否 有 元 余数 据 存 
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在 。 如 果 待 恢复 的 目标 处 已 经 存在 对 应 的 数据 , 比如 某 个 LUN, 由 于 用 户 误 对 LUN 进行 了 格式 
化 操作 导致 数据 丢失 ， 需 要 恢复 ， 那 么 这 个 LUN 会 被 从 备份 介质 中 完全 读 出 并 且 覆 盖 ， 纵 使 当 
前 损坏 的 LUN 中 数据 几乎 与 待 恢复 的 数据 相同 〈 格式 化 只 是 抹 掉 初始 文件 系统 入 口 之 后 新 创建 
一 个 而 已 ) ， 所 以 ,这 就 会 产生 资源 浪费 。 如 果 数 据 是 通过 网 络 进行 传输 的 ,那么 传输 多 余 的 数 
据 块 就 会 增加 不 少 恢复 时 间 ， 增 加 RTO。 
如 果 用 Dedup 的 思想 ， 在 进行 恢复 之 前 ， 先 对 待 被 覆盖 的 数据 和 待 恢复 的 数据 各 自 计 算 
Hash， 通 过 比 对 找 出 相同 的 Hash， 然 后 只 覆盖 有 差别 的 Block， 这 样 的 话 ， 在 一 些 情况 下 (比如 
上 面 的 格式 化 例子 ) ,将 会 大 大 降低 RTO。 某 些 产品 已 经 可 以 实现 这 个 功能 ， 称 为 基于 Hash 的 
增 量 恢复 。 

Dedup 技术 也 可 以 帮助 在 数据 容 灾 过 程 中 降低 需要 传送 的 数据 的 整体 数量 , 比如 对 某 个 待 传 
输 到 灾 备 站 点 的 数据 流 ， 可 以 对 其 做 局 部 Dedup 处 理 ， 大 大 减少 元 余数 据 的 发 送 。 


10. Dedup 功能 在 产品 中 的 嵌入 和 表现 形式 


上 文中 曾经 描述 过 ， 数 据 存 储 技术 包含 如 何 存储 数据 以 及 如 何 传输 数据 。 那 么 Dedup 就 可 
以 作用 在 数据 的 存储 点 ,也 可 以 作用 在 数据 传输 的 通路 上 。 前 者 的 模式 在 上 文中 已 经 有 很 多 描述 。 
对 于 后 者 的 模式 ， 则 可 以 在 数据 传输 通路 中 设置 一 个 网 关 ， 在 这 个 网 关 设 备 上 部 署 Dedup 模块 ， 
任何 通过 这 个 网 关 的 数据 流 都 被 Deudp 了 ， 前 端的 济 涌 大 河 ， 被 Dedup 了 之 后 就 变 成 了 涓涓 细 
流 。 细 流 的 尽头 是 备份 介质 服务 器 ,介质 服务 器 将 细 流 写 入 慢 速 的 磁带 来 保存 。 这 个 关口 大 大 降 
低 了 后 端 介质 服务 器 需要 写 入 的 数据 量 ， 降 低 了 备份 窗口 。 
目前 的 Dedup 产品 ， 有 些 运行 在 主机 端 以 降低 备份 时 所 需要 传输 的 数据 量 ， 有 些 运行 在 存 
储 端 以 达到 节省 空间 的 目的 , 有 些 运行 在 数据 传输 的 通路 中 来 消除 元 余数 据 ， 有些 运行 在 介质 服 
务 器 上 来 降低 写 入 后 端 介质 的 数据 量 ， 有 些 则 运行 在 数据 的 最 终归 宿 一 一 磁带 或 者 VTL 上 , 对 
数据 做 最 后 的 Dedup。 


11. Dedup 存在 的 问题 和 风险 


Hash 冲突 当然 是 第 一 大 风险 。 第 二 大 风险 就 是 数据 没有 元 余 ， 一 旦 源 副 本 受 损 ， 则 一 损 俱 
损 。 但 是 对 于 第 二 个 问题 ， 如 果 Dedup 用 于 Online 数据 中 ， 那 么 确实 会 有 这 种 风险 。 但 是 如 果 
针对 于 Offline 的 备份 数据 ， 那 么 似乎 并 不 是 一 个 真正 的 问题 ， 因 为 备份 已 经 是 Online 数据 的 元 
余 , 虽然 见 余 一 份 相 比 元 余 多 份 来 讲 保险 系数 要 低 , 但 是 源 副 本 受 损 , 很 大 程度 上 是 因为 整个 介 
质 受 损 ， 这 样 看 来 ， 一 损 俱 损 也 是 逃 不 过 的 。 

Dedup 对 数据 IO 性 能 方面 有 一 定 影响 。 在 一 个 备份 系统 中 , 在 没有 引入 Dedup 之 前 , 所 备 
份 的 数据 都 是 实 实在 在 的 物理 数据 ， 每 次 备份 下 来 的 数据 基本 上 都 会 在 物理 位 置 上 被 连续 存放 。 
而 一 旦 引入 了 Dedup, 那么 多 次 备份 的 数据 中 的 元 余数 据 就 会 被 用 指针 蔡 代 , 那么 就 会 产生 “ 孔 
洞 ”， 使 得 本 来 物理 上 连续 的 数据 变 得 不 再 连续 。 这 样 ， 当 要 从 被 Dedup 之 后 的 数据 中 将 某 个 
备份 集 读 出 来 的 时 候 ， 此 时 在 底层 就 属于 一 种 随机 IO 了 ， 有 时 候 从 Dedup 的 磁盘 介质 中 恢复 数 
据 的 过 程 ， 甚 至 比 从 磁带 中 还 要 慢 。 这 种 效应 会 随 着 时 间 的 流逝 而 越 来 越 严重 ， 就 像 文件 系统 中 
的 文件 碎片 一 样 。 

Dedup 在 写 入 数据 的 时 候 基本 上 有 两 种 方式 : reverse referencing 和 forward referencing。 前 者 
的 做 法 是 ， 当 在 系统 发 现 一 个 元 余数 据 块 时 ， 系 统 会 保留 之 前 被 存储 的 旧 数 据 段 , 同时 在 旧 数据 
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段 处 写 入 一 个 新 指针 ， 而 不 是 将 新 数据 写 入 磁盘 ; 后 者 的 做 法 是 ， 系统 会 将 新 数据 段 写 入 磁盘 的 
连续 的 物理 位 置 上 , 然后 将 旧 数 据 删 除 同 时 将 旧 数 据 蔡 换 成 一 个 指向 新 数据 段 的 指针 。 对 于 前 者 ， 
也 就 是 不 断 为 新 的 元 余数 据 段 写 入 指针 的 做 法 ,可 能 会 导致 最 新 的 数据 对 应 的 碎片 不 断 增加 ; 对 
于 后 者 , 也 就 是 系统 不 断 地 写 入 新 数据 而 删除 旧 数 据 同时 替代 为 指针 的 做 法 , 则 可 能 会 使 最 新 备 
份 的 数据 物理 上 保持 连续 ， 但 是 旧 备 份 对 应 的 数据 在 物理 上 却 变 得 越 来 越 随机 。 

因为 涉及 到 更 大 的 磁盘 写 入 数据 流 ,forward referencing 模式 如 果 在 前 处 理 模式 的 重复 数据 删 
除 系统 中 使 用 的 话 , 会 严重 影响 性 能 , 所 以 它 只 在 后 处 理 模式 的 重复 数据 删除 系统 中 使 用 , 这 种 
模式 的 数据 存储 方式 可 以 让 最 新 的 备份 数据 恢复 起 来 更 快 ， 而 且 这 也 是 最 常见 的 情况 。 但 是 
Forward referencing 模式 却 会 引 来 额外 的 IO 开销 , 比如 它 不 但 需要 将 元 余 的 数据 先 写 入 磁盘 而 不 
是 写 指针 ， 而 且 随 后 还 会 查找 旧 的 匈 余数 据 进 行 删除 操作 。 

除了 使 用 Forward referencing 模式 来 确保 最 新 被 备份 的 数据 具有 较 高 的 读 取 速度 之 外 ， 有 些 
厂商 还 在 Dedup 系统 内 实现 了 类 似 于 碎片 整理 的 操作 ,或 者 有 些 厂 商 干 脆 对 最 新 一 次 的 备份 不 
进行 任何 Dedup 操作 ， 以 确保 它 的 恢复 速度 。 

不 管 是 Thin、Tier, 还 是 Dedup， 其 实 它们 都 是 很 早 就 已 在 其 他 领域 中 实现 的 技术 ， 如 今 这 
些 技术 被 用 在 了 网 络 存储 领域 中 ， 来 回 翻 炒 以 便 挖掘 价值 和 发 展 。 


12. Dedup 之 后 再 压缩 


为 了 获得 最 大 的 空间 节省 比率 ,还 可 以 在 对 数据 进行 Dedup 处 理 之 后 ， 再 次 进行 压缩 操作 。 
有 人 可 能 会 不 太 了 明白 , 既然 Dedup 的 节省 效果 比 压 缩 高 得 多 , 那么 为 何 Dedup 之 后 还 要 压缩 呢 ? 
因为 正如 前 文 所 述 , 压缩 有 一 定 的 窗口 ， 只 可 以 在 小 范围 数据 长 度 之 内 进行 数据 消 重 , 而 Dedup 
则 可 以 在 更 大 的 范围 甚至 全 局 范围 内 实现 消 重 ， 但 是 它 也 有 一 定 的 最 小 粒度 ， 比 如 4KB、16KB 
等 , 它 可 以 将 多 份 相同 内 容 的 颗粒 进行 消 重 只 保留 一 份 , 但 是 却 不 可 能 对 这 一 份 颗 粒 内 部 的 元 余 
数据 再 进行 消 重 , 那么 此 时 传统 的 数据 压缩 算法 就 可 以 派 上 用 场 了 。 如 果 目 标 数 据 是 文本 等 匈 余 
度 较 大 的 类 型 ， 那 么 Dedup 之 后 再 压缩 ， 依 然 可 以 获得 将 近 20%~30% 的 空间 节省 。 这 是 相当 可 
观 的 , 但 是 也 有 一 个 最 大 劣势 , 就 是 在 压缩 数据 时 以 及 读 取 时 的 解压 缩 过 程 中 , 会 非常 耗费 CPU 
资源 。 所 以 这 种 手段 一 般 常 用 在 VIL 等 备份 环境 中 ， 由 于 传统 的 磁带 机 和 机 械 磁 带 库 中 的 驱动 
器 均 具 有 压缩 功能 ， 所 以 这 种 压缩 不 需要 额外 引入 第 三 方 模块 ， 但 是 对 于 VTL 来 讲 ， 就 必须 引 
入 一 个 压缩 软件 模块 了 。 也 就 是 说 ， 一 台 VTL 上 可 能 同时 具有 Dedup 以 及 压缩 模块 ， 有 的 产品 
还 引入 了 硬 压缩 卡 来 分 担 主 CPU 的 负担 。 


18.3.5 ”磁盘 数据 一 致 性 保护 及 错误 恢复 


1. 坏 扇 区 重 定向 


数据 在 系统 中 流动 的 时 候 ， 随 时 可 能 会 发 生 畸 变 , 比如 某 个 位 原本 应 该 是 0, 却 被 畸变 为 1。 
这 种 情况 尚 没有 办 法 解决 , 但 是 有 些 存储 系统 为 了 保证 至 少数 据 从 硬盘 被 读 入 内 存 这 个 阶段 中 不 
会 畸变 , 引入 了 一 些 额 外 的 校 验 值 来 对 读 出 的 数据 做 校 验 , 如 果 一 致 则 不 动作 , 一 旦 发 现 不 一 致 ， 
则 通过 某 种 手段 来 恢复 之 前 的 数据 。 比 如 通过 校 验 值 来 纠正 , 或 者 通过 RAID 层面 的 Parity 来 恢 
复 整 个 Segment 上 的 数据 。 

其 次 ， 当 遇 到 物理 磁盘 坏 道 的 时 候 ， 也 需要 一 些 处 理 措施 。 磁 盘 自身 会 有 坏 扇 区 / 坏 道 重 定 
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向 功能 。 比 如 某 时 刻 磁 盘 接 收 到 针对 某 扇 区 的 写 操作 ,但 是 却 发 现 此 扇 区 已 损坏 ,无 法 写 入 , 那 
么 此 时 磁盘 会 在 其 盘 片 的 保留 区 域 分 配 一 个 扇 区 作为 这 个 坏 扇 区 的 项 蔡 ， 将 内 容 写 入 这 个 新 户 
区 , 并 且 在 映射 表 中 增加 一 个 条 目 以 便 后 续 所 有 针对 这 个 地 址 的 操作 都 重 定 向 到 替代 扇 区 。 但 是 
对 于 读 操 作 , 如 果 接收 到 主机 针对 某 扇 区 的 读 操作 而 发 现 此 扇 区 已 损坏 无 法 读 出 , 那么 此 时 磁盘 
只 能 去 报错 ， 因 为 此 时 数据 已 经 读 不 出 来 了 。 

在 磁盘 阵列 中 ， 如 果 某 个 RAID 组 中 有 磁盘 报 扇 区 损坏 ， 那 么 控制 器 此 时 可 以 从 RAID 组 
中 其 他 磁盘 同一 条 带 中 的 数据 做 XOR 计算 来 恢复 出 对 应 Segment 的 数据 。 一 方面 控制 器 可 以 将 
读 出 的 数据 返回 给 外 部 发 起 IO 的 客户 端 主机 ， 同 时 ， 控 制 器 将 这 块 数据 再 覆盖 写 入 有 坏 扇 区 磁 
盘 的 对 应 Segment， 当 这 块 磁盘 试图 写 入 这 个 坏 扇 区 时 发 现 无 法 写 入 ， 此 时 就 不 一 样 了 ， 磁 盘 会 
自动 将 这 个 坏 扇 区 重 定向 到 保留 空间 的 某 个 好 扇 区 中 , 这 个 动作 对 上 层 是 透明 的 。 写 入 之 后 , 需 
要 再 次 读 取出 这 个 地 址 的 内 容 来 验证 是 否 扇 区 重 定向 动作 真 的 成 功 了 。 利用 这 种 迁 回 的 方法 , 阵 
列 控制 器 可 以 将 某 块 磁盘 的 寿命 延长 。 这 种 做 法 在 Linux 下 的 软 RAID 中 就 有 实现 ， 称 为 Bad 
Sector Remapping ( BSR ) 。 

此 外 , 磁盘 自身 的 保留 区 域 容量 也 是 有 限 的 , 如 果 由 于 坏 扁 区 或 者 坏 道 过 多 而 导致 连 这 些 保 
留 区 域 也 耗 尽 的 话 , 那么 这 块 磁盘 就 不 能 再 自动 重 定向 了 。 那么 此 时 就 可 以 宣告 磁盘 完全 故障 了 
么 ?并 非 如 此 , 还 可 以 继续 延长 它 的 寿命 。 如 果 遇 到 这 种 情况 ,那么 此 时 RAID 管理 层 可 以 发 挥 
作用 了 , 可 以 这 样 设计 : 让 它 先 向 LUN 管理 层 查询 一 下 当前 这 个 坏 扇 区 地 址 是 否 是 被 某 个 LUN 
占用 的 ， 如 果 确 实 是 被 某 LUN 占用 ,那么 RAID 层 立 即 先 用 其 他 磁盘 上 同一 条 带 中 的 数据 将 这 
块 丢 失 的 数据 算出 来 ， 然 后 将 整个 条 带 搬移 到 RAID 组 中 剩 余 的 、 未 被 任何 LUN 所 占用 的 空间 
内 ， 并 且 做 好 指针 映射 记录 , 或 者 只 重 定向 这 个 损坏 的 Segment ( 一 个 条 带 占用 一 块 盘 上 的 空间 
称 为 Segment ) 。 这 样 ， 今 后 的 所 有 IO 均 不 会 再 落 入 到 这 个 损坏 的 扇 区 或 者 此 道中 ， 从 而 将 磁 
盘 的 寿命 压榨 到 极限 ! 


2. DIF ( Data Integrity Field ) 数据 一 致 性 保护 


数据 从 被 应 用 程序 生成 ， 一 直到 被 存 入 硬盘 ， 期 间 需 要 经 过 多 次 内 存 复制 、 流 经 系统 总 线 、 
进入 IO 总线、 流出 IO 总 线 到 IO 芯片 , 然后 流出 IO 芯片 到 外 部 存储 网 络 , 比如 SAS、FC、SATA 
等 ， 然 后 进入 磁盘 缓存 、 后 流 经 磁头 臂 ， 被 转化 为 磁 信 号 ， 然 后 被 磁化 到 盘 片 中 。 由 1 和 0 两 种 
状态 组 成 的 数据 , 在 所 有 这 套路 径 上 的 每 个 部 件 中 流入 、 流 出 的 时 候 ， 难 免 会 发 生 一 些 畸 变 ， 比 
如 由 0 变 为 1 或 者 相反 。 发 生 畸 变 的 原因 有 多 种 ， 外 界 扰 动 、 软 件 bug 等 等 ， 都 可 能 造成 数据 畸 
变 。 不 仅 在 外 部 传输 的 时 候 会 发 生 畸 变 ， 就 连 磁盘 要 写 入 盘 片 的 时 候 ， 也 有 一 定 几率 发 生 。 

上 述 数据 畸变 ， 都 不 会 被 上 层 感知 ， 所 以 这 类 畸变 统称 Silent Corruption。 虽 然 上 述 数 据 畸 
变 发 生 的 几率 ,按照 常理 来 讲 应 该 非常 低 ， 但 是 实际 却 并 不 是 很 乐观 。NetApp 曾经 对 150 万 块 
在 线 SATA 硬盘 做 了 长 达 32 个 月 的 跟踪 , 结果 令 人 震惊 , 0.66% 的 SATA 盘 都 出 现 了 数据 静默 损 
毁 ，FC 盘 的 数据 静默 损毁 比率 则 为 0.06%。 虽 然 有 些 阵 列 后 台 都 有 磁盘 扫描 功能 ， 可 以 检测 到 
数据 域 Parity 的 不 一 致 ， 但 是 这 种 扫描 属于 后 台 异 步 方 式 ， 并 不 能 100% 检 测 到 不 一 致 ， 据 统计 
仍 有 13% 的 不 一 致 并 不 能 被 检测 到 。 

静默 损毁 一 旦 发 生 , 则 后 果 是 比较 严重 的 , 基本 都 会 造成 数据 丢失 。 本 书 之 前 章节 介绍 SSD 
时 ， 曾 经 说 过 SSD 中 的 Cell 失效 率 很 高 ， 需 要 引入 ECC 纠 错 码 机 制 来 纠 错 ， 比 如 每 512B 的 内 
容 引入 32b 的 纠 错 码 ， 就 可 以 纠正 这 512B+32b 的 数据 中 任意 32b 的 畸变 。 本 书 第 3 章 中 可 以 看 


737 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


738 


到 一 个 机 械 磁 盘 扇 区 的 全 貌 ， 扇 区 尾部 有 一 段 ECC 校 验 码 用 来 纠 错 。ECC 可 以 侦 测 和 纠 错 大 部 
分 的 数据 畸变 。 但 是 ， 却 不 是 万 能 的 。 

比如 典型 的 三 种 问题 就 是 Lost Write 、Torm Write 以 及 Misredirect Write。Lost Write 是 指 对 
于 某 个 扇 区 , 磁盘 根本 就 没有 去 写 入 对 应 的 扇 区 就 向 上 层 报 告 写 入 成 功 了 , 此 时 这 个 扇 区 中 的 所 
有 数据 依然 是 未 覆盖 之 前 的 ， 也 是 一 致 的 ，ECC 无 法 发 现 ， 但 是 数据 确实 丢 了 。Torn Write 则 
是 指 磁头 只 部 分 写 入 了 对 应 的 扇 区 ,就 返回 成 功 信号 了 ， 此 时 视 已 经 覆盖 的 数据 量 的 多 少 , 如 果 
太 多 , 那么 有 限 的 ECC 位 不 能 够 纠 错 如 此 多 的 不 一 致 数据 , 就 算 覆 盖 的 比较 少 , ECC 可 以 纠 错 ， 
那么 纠 错 之 后 ， 也 会 是 这 个 扇 区 未 覆盖 前 所 对 应 的 数据 ， 数 据 依然 丢失 了 。Misredirect Write 是 
指 ， 磁 头 在 写 入 某 个 扇 区 内 容 的 时 候 ， 定 位 不 准 , 将 内 容 写 到 了 目标 扇 区 旁边 的 扇 区 中 , 或 者 由 
于 Firmware 等 的 bug， 写 到 了 压根 与 目标 扇 区 没有 任何 物理 近邻 关系 的 位 置 相 隔 很 远 的 扇 区 中 ， 
接着 返回 成 功 信号 ， 此 时 ECC 无 能 为 力 。 Lost Write 发 生 的 原因 尚 无 准确 的 结论 ，Misredirect 
Write 的 原因 大 部 分 是 外 界 扰 动 ，Torn Wirite 的 细节 原因 ， 我 也 无 法 知晓 。 这 些 限于 微观 状态 的 
动作 ， 其 原因 定位 非常 困难 。 

为 此 ， 需 要 一 种 更 加 智能 的 一 致 性 侦 测 手 段 。 这 种 手段 就 是 在 数据 区 增加 一 个 DIE ( Data 
Integrity Field， 一 种 由 T10 制定 的 标准 ) 区 段 用 来 记录 一 些 上 层 的 信息 而 不 仅 是 校 验 值 。 对 于 FC 
或 者 SAS 磁盘 ,厂商 一 般 在 低级 格式 化 的 时 候 将 每 个 扇 区 格式 化 为 520B 而 不 是 常规 的 512B( SATA 
盘 使 用 512B 扇 区 ) 。 多 出 来 的 那 8B 就 是 DIF。SATA 盘 为 何不 低 格 为 520B 扇 区 呢 ? 这 么 做 是 有 
原因 的 , 因为 SATA 盘 一 般 不 用 于 企业 级 存储 系统 中 , 而 FC 与 SAS 则 是 面向 高 端 应 用 , 需要 严格 
保证 数据 一 致 性 。 但 是 近年 来 随 着 数据 海量 增长 以 及 成 本 要 求 不 断 降低 ，SATA 盘 越 来 越 多 地 被 上 
于 企业 级 存储 系统 中 ,但 是 其 512B 扇 区 的 设计 依然 未 变 ， 并 且 SATA 盘 稳 定性 相对 FC 与 SAS 更 
低 ， 所 以 也 迫切 需要 采取 手段 来 保护 SATA 盘 数 据 的 一 致 性 。 我 们 下 面 将 会 讨论 这 一 点 。 

如 图 18-53 所 示 为 DIF 区 段 在 整个 启 区 
扇 区 中 所 处 的 位 置 以 及 其 内 部 细节 结 
构 。 其 中 Guard 字段 为 2B 的 CRC 校 验 
字段 ; Application Tag 这 个 2B 的 字段 则 
是 可 自 定义 的 任何 信息 ， 比 如 这 个 块 属 


一 2Bytes 2Bytes 一 4Bytes 


于 哪个 LUN， 或 者 属于 哪个 文件 系统 、 图 18-53 DIF 区 段 的 结构 
哪个 目录 甚至 哪个 文件 ID 等 ， 都 可 以 ， 
由 阵列 设计 者 而 定 ; 4B 的 Reference Tag 字段 则 为 本 扇 区 对 应 的 LBA 地 址 。 

DIF 区 段 会 随 着 每 次 扇 区 的 IO 请 求 一 同 被 读 出 或 者 写 入 。 


下 面 我 们 就 来 看 一 下 DIF 是 如 何 帮 助 系统 侦 测 到 LW、TW 以 及 MW 的 。 

(1) DIF 如 何 解决 Torm Write 问题 

先 说 一 下 TW, 也 就 是 某 扇 区 中 的 数据 只 被 写 入 了 一 部 分 就 返回 了 , 这 种 情况 下 ， 扇 区 中 当 
前 DIF 字段 中 的 CRC 校 验 码 是 与 数据 区 数据 计算 出 的 校 验 码 不 一 致 的 ， 当 这 个 扇 区 被 读 出 时 ， 
底层 将 执行 一 致 性 校 验 , 此 时 便 可 以 侦 测 出 数据 不 一 致 。 那 么 后 续 该 怎么 解决 呢 ? 负责 一 致 性 的 
模块 此 时 需要 将 这 个 错误 上 报到 上 层 , 比如 RAID 层 , 此 时 RAID 层 先 读 出 这 个 扇 区 所 在 条 带 中 
的 所 有 Segment 数据 ， 依 次 做 检查 ， 如 果 其 他 所 有 扇 区 数据 都 一 致 ， 那 么 此 时 RAID 才 可 以 , 才 
敢 使 用 这 个 扇 区 所 在 的 RAID 条 带 上 其 他 成 员 盘 以 及 Parity 盘 上 的 Segment 一 起 来 做 XOR 反 运 
算 ， 从 而 得 出 这 个 不 一 致 的 扇 区 原本 的 内 容 ， 然 后 再 次 覆盖 一 遍 ， 从 而 恢复 了 这 个 扇 区 原本 应 有 
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的 数据 。 而 如 果 RAID 在 检查 的 时 候 发 现 这 个 条 带 中 出 现 了 多 个 位 于 不 同 Segment 中 的 扇 区 的 内 
容 自身 CRC 校 验 不 一 致 ,那么 RAID 此 时 就 傻眼 了 ,因为 此 时 相当 于 多 盘 失 效 ， 已 经 无 法 重 算 
出 正确 数据 了 ， 只 能 向 上 层 报错 。 

(2 ) DIF 如 何 解决 Misredirect Write 问题 

再 看 一 下 MW。 假 设 某 时 刻 系 统 向 LBA1 处 进行 了 写 入 操作 ， 但 是 这 份 数据 却 被 写 到 了 
LBA1000 中 。 那 么 现在 的 状况 是 : LBA1000 处 之 前 的 数据 丢失 了 ， 需 要 找 回 ，LBA1 处 当前 的 数 
据 并 不 能 使 用 ， 因 为 是 一 份 过 期 的 数据 。 此 时 ， 系 统 面临 着 很 复杂 的 境况 ， 即 LBA1 与 LBA1000 
所 在 的 条 带 都 是 不 一 致 的 ( Raid 层 下 发 IO 时 是 一 致 的 , 但 是 磁盘 自己 写 偏 了 ， 实 际 上 当然 就 不 
一 致 了 ) ，RAID 校 验 层 可 以 通过 计算 来 察觉 到 这 种 不 一 致 ， 因 为 对 数据 区 的 XOR 结果 根本 不 
会 等 于 Parity 区 , 但 是 RAID 不 会 去 主动 实时 的 校 验 每 一 个 条 带 的 ， 甚 至 当 设备 在 读 出 整个 条 带 
数据 到 内 存 里 之 后 也 不 会 主动 做 条 带 校 验 , 因为 这 样 太 耗费 资源 。 有 些 设备 在 低 负载 时 可 以 触发 
主动 的 后 台 一 致 性 Parity 扫描 检查 来 尽量 发 现 这 些 不 一 致 ， 但 终究 只 是 做 到 了 “尽量 ”。 下 面 例 
子 中 会 举 出 系统 如 何 “ 埋 雷 ”的 例子 。 

如 果 本 次 MW 发 生 之 后 , 紧 接 着 的 下 一 个 针对 LBA1 或 者 LBA1000 所 在 条 带 的 其 他 LBA( 非 
LBA1 和 LBA1000 ) 任 何 一 个 的 IO 是 写 IO 的 话 , 那么 就 可 能 会 出 现 连环 污染 或 者 数据 永久 丢失 ， 
而 且 上 层 根 本 无 法 感知 到 静默 丢失 。 比 如 ， 本 次 MW 发 生 之 后 ， 又 有 针对 LBA1 处 的 正常 写 入 
操作 ， 那 么 如 果 RAID 组 为 校 验 型 RAID (比如 RAID 5) ， 那么 此 时 系统 会 利用 旧 LBAL 的 数 
据 、 新 LBA1 的 数据 以 及 旧 Parity 共同 算出 新 Parity ( 如 果 恰 好 为 针对 该 条 带 的 整 条 写 或 者 重 构 
写 则 不 会 出 问题 ， 本 例假 设 为 读 改写 ) ， 此 时 这 份 新 Parity 依然 是 错误 的 ， 相 当 于 把 错误 发 生 了 
转移 ， 本 来 是 LBA1 是 错误 的 ， 现 在 转移 到 Parity 上 去 了 ， 当 然 ， 上 层 是 无 法 区 分 到 底 是 LBA1 
还 是 Parity 有 问题 ， 此 时 如 果 进 行 整 条 带 校 验 计算 ， 会 发 现 仍然 是 不 一 致 的 。 但 如 果 是 重 构 写 ， 
则 会 修正 该 条 带 之 前 的 错误 ， 也 就 是 第 二 次 写 入 的 LBA1 会 覆盖 之 前 的 原始 旧 LBA1 ( 第 一 次 写 
入 的 LBA1 此 时 依然 处 于 LBA1000 处 ) ， 同 时 读 出 该 条 带 剩余 的 Segment， 共 同 计算 Parity 后 覆 
盖 旧 Parity， 此 时 整 条 带 是 一 致 的 ,LBA1 的 错误 被 新 LBA1 的 数据 修正 了 。 所 以 这 便 成 了 一 个 不 
可 预知 的 状态 ,完全 看 运气 。 但 是 如 果 在 系统 未 发 现 条 带 不 一 致 之 前 ,针对 LBA1 或 者 LBA1000 
所 在 条 带 的 其 他 LBA ( 非 LBA1 和 LBA1000 ) 的 任何 一 个 IO 是 写 IO ， 而 且 是 读 改写 的 话 ， 那么 
这 份 错误 的 LBA1 或 者 LBA1000 的 数据 便 被 “合法 化 ”了 , 因为 此 时 该 条 带 是 可 以 被 校 验 通过 的 。 
这 颗 “ 地 雷 ” 就 永远 被 埋藏 于 此 了 ， 上 层 应 用 此 时 只 能 使 用 这 份 逻辑 上 错乱 的 数据 ， 而 绝对 不 会 
知道 正确 的 数据 是 什么 。 这 种 情况 就 被 称 为 Parity pollution， 即 校 验 值 污染 。 

通过 上 述 过 程 的 分 析 我 们 可 以 得 出 结论 ， 也 就 是 如 果 有 一 种 方法 可 以 让 系统 感知 到 发 生 了 
MW， 那 么 在 特定 条 件 下 ， 系 统 可 以 成 功 纠 错 。 每 个 扇 区 的 DIE 区 段 里 的 reference tag 记录 了 该 
扇 区 所 属 的 LBA 号 ， 系 统 在 内 存 里 会 为 每 笔 IO 数据 贴 上 其 “应 该 ”对 应 的 LBA 号 ， 这 样 就 可 
以 让 系统 感知 到 MW 现象 了 。 比如 , 当 MW 发 生 之 后 的 第 一 个 针对 LBA1000 的 请 求 为 读 请 求 或 
读 改写 请 求 ( 读 改写 会 先 读 出 LBA1000 原 有 数据 ) ， 总 之 系统 读 出 了 LBA1000 里 的 数据 ， 此 时 
系统 发 现 该 扇 区 DIE 区 段 里 的 LBA 号 竟然 是 LBA1 (之 前 被 磁盘 自身 写 偏 ) 而 不 是 LBA1000, 那 
么 就 知道 发 生 了 MW， 系 统 此 时 会 立即 判断 是 否 “ 还 来 得 及 ”， 还 来 得 及 做 什么 ? 当然 是 纠 错 。 
之 前 提 到 过 ,污染 是 可 以 被 传递 的 , 已 经 被 传递 的 污染 是 不 可 挽回 的 。 比 如 ,假设 在 系统 发 现 
LBA1000 里 的 数据 其 实 应 该 属于 LBA1 之 前 ， 该 条 带 的 其 他 Segment 没有 发 生 写 入 操作 , 那么 此 
时 系统 发 现 了 MW 之 后 ， 便 可 以 利用 该 条 带 其 他 Segment 来 校 验 出 LBA1000 之 前 被 错误 覆盖 的 
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数据 ， 判 断 是 否 该 条 带 其 他 Segment 曾经 在 MW 之 后 发 生 了 写 入 的 办 法 就 是 计算 该 条 带 当前 的 
校 验 是 否 通过 ， 如 果 不 通 过 , 证 明 尚 未 有 写 入 操作 ， 也 就 是 污染 未 被 传递 ; 如 果 校 验 通过 ， 则 可 
以 判断 发 生 了 污染 传递 ， 此 时 系统 无 法 判断 从 MW 发生 到 被 发 现 之 间 这 段 时 间 之 内 系统 对 该 条 
带 上 哪个 Segment 做 了 写 入 操作 ( 如 果 能 够 判断 出 是 对 非 LBA1000 做 了 写 入 ， 那 么 还 是 可 以 挽 
本 的， 但 是 系统 判断 不 出 来 ) ，LBA1000 之 前 被 错误 覆盖 的 数据 就 无 可 挽回 了 。 
但 是 ,上 述 的 判断 方法 成 立 的 前 提 是 发 现 某 扇 区 的 确 出 现 了 MW ,也 就 是 对 应 的 reference tag 
内 LBA 号 与 当前 其 所 处 的 LBA 号 不 同 。 如 果 未 出 现 MW， 仅仅 是 校 验 无 法 通过 的 话 ， 上 述 判 
就 不 能 适用 。 比 如 这 个 场景 ，MW 发 生 之 后 ， 接 着 收 到 一 个 针对 LBA1000 的 正常 的 写 操 作 ， 
村 原本 应 当 落 在 LBA1 的 数据 就 会 被 永久 覆盖 掉 并 且 永 远 找 不 回来 。 同 时 ， 如 果 是 读 改 写 ， 则 
将 逻辑 错误 传递 到 Parity 上 去 , 并 且 每 个 扇 区 的 reference tag 中 的 LBA 号 与 其 所 处 的 LBA 也 是 
应 的 ,结果 就 是 系统 即便 发 现 了 该 条 带 不 一 致 ,也 永远 不 会 知道 其 实 该 条 带 的 数据 Segment 此 
时 已 经 都 是 一 致 的 了 , 系统 此 时 会 判断 出 并 没有 发 生 MW ( 其 实 是 发 生 过 但 是 没 来 得 及 被 发 现 之 
前 就 被 正确 的 LBA1000 扇 区 内 容 又 覆盖 写 了 ) ， 只 能 向 上 层 报错 。 

假设 我 们 运气 很 好 ， 系 统 挽回 了 LBA1000 的 旧 数据 并 做 了 恢复 ,那么 这 个 原本 应 该 覆盖 到 
LBA1 的 扇 区 ， 此 时 是 否 可 以 顺水 推 舟 的 覆盖 到 当前 的 LBA1 处 ? 一 样 ， 也 需要 对 LBA1 所 在 的 
条 带 判 断 是 否 发 生 了 污染 传递 ， 如 果 未 发 生 , 则 可 以 覆盖 ， 如 果 已 经 发 生 ， 则 不 能 覆盖 ， 因 为 系 
统 无 法 判断 出 是 否 LBA1 在 MW 发 生 和 被 发 现 这 段 时 间 内 是 否 发 生 了 写 操作 ， 不 能 擅自 覆盖 。 

如 果 无 法 纠 错 , 则 系统 直接 报 unrecoverable error, 告诉 上 层 说 这 个 错误 我 恢复 不 了 了 , 你 该 
怎么 办 就 怎么 办 吧 。 此 时 上 层 可 以 使 用 比如 恢复 数据 、 快 照 回 滚 等 方法 来 恢复 数据 ,大 不 了 几 天 
的 活 白 干 了 ， 重 新 处 理 计 算 一 遍 ， 也 不 能 明知 系统 内 有 地 雷 而 依然 向 上 层 掩盖 这 个 事实 。 

静默 损毁 属于 定时 炸弹 ， 一 旦 被 损毁 的 数据 属于 高 精 尖 行业 比如 卫星 导弹 ， 后 果 不 可 设想 ， 
比如 卫星 偏离 轨道 之 类 。 

(3) DIF 如 何 解决 Lost Write 问题 

Lost Write (LW ) 算是 最 难 解决 的 问题 之 一 。 因 为 LW 在 现场 根本 不 会 留 下 任何 犯罪 证 据 。 
TW 会 留 下 扇 区 自身 CRC 校 验 不 一 致 的 线索 , MW 会 在 错误 重 定向 之 后 的 扇 区 留 下 表 里 不 一 的 
线索 , 而 LW 呢 ? 大 家 想 一 下 ，LW 是 指 磁盘 根本 没有 去 碰 对 应 的 目标 扇 区 ， 就 向 上 层 返回 写 入 
成 功 了 ， 此 时 ， 除 非 事先 就 知道 发 生 了 LW， 否 则 你 根本 无 法 知道 是 否 发 生 了 LW。 然 而 ， 一 点 
办 法 都 没有 了 人 么 ? 非 也 。 系 统 底层 肯定 是 无 法 感知 到 LW， 那 么 就 只 能 靠 上 层 来 解决 。DIE 区 段 
中 还 有 一 项 叫做 Application Tag 的 字段 ， 它 就 是 来 解决 LW 问题 的 。 

比如 ， 系 统一 定 可 以 知道 某 个 扇 区 具体 属于 哪个 LUN， 对 于 NAS， 也 一 定 会 知道 某 个 扇 区 
具体 属于 哪个 文件 系统 、 目 录 ID 、inode ID 等 ， 如 果 每 次 写 入 扇 区 的 时 候 ， 都 将 对 应 的 这 些 高 
层 信 息 更 新 到 DIE 中 的 Application Tag 并 且 一 起 写 入 扇 区 ,那么 如 果 今 后 一 旦 发 生 LW， 当 系统 
再 次 读 出 对 应 的 扇 区 时 ， 可 能 这 个 扇 区 原本 对 应 的 文件 ID、LUN ID 、inode 号 等 是 另外 一 个 文 
件 或 者 LUN 的， 而 不 是 当前 正在 操作 的 文件 或 者 LUN 的 ， 那 么 此 时 系统 便 会 知道 发 生 了 LW， 
便 会 报错 ,但 是 绝 大 多 数 时 候 是 不 可 能 检测 到 LW 的 ,因为 基本 上 大 部 分 写 入 动作 都 属于 覆盖 写 ， 
也 就 是 某 个 扇 区 之 前 属于 哪个 文件 ,一 般 都 会 一 直属 于 这 个 文件 ， 对 其 更 改 之 后 ，inode 不 会 变 
化 , 发 生 了 LW 之 后 ,其 inode 也 依然 不 会 变化 ; 除非 某 个 扇 区 对 应 的 文件 被 删除 ， 又 有 新 文件 
占用 了 这 个 扇 区 ,然后 在 发 生 第 一 次 写 入 时 ,恰好 遇 到 了 LW ,那么 此 时 系统 便 可 以 通过 两 次 inode 
不 一 致 来 判断 发 生 了 LW。 而 对 于 LUN 来 讲 , 基本 上 用 这 种 方法 就 无 法 检测 LW 了 , 因为 LUN 
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一 旦 被 创建 ， 其 位 置 基本 上 是 固定 的 了 ， 除 非 做 了 RowW 的 snapshot 之 类 ， 既 然 总 是 固定 ， 那 么 
不 管 写 入 某 个 扇 区 多 少 次 ， 都 属于 覆盖 写 ，LUN ID 都 不 变 ， 也 就 无 法 检测 到 LW 了 。 所 以 基本 
上 目前 能 够 检测 LW 的 存储 厂商 屈指 可 数 。 
提示 : LW 对 于 一 般 存储 系统 来 讲 基本 上 属于 必 杀 级 别 ， 一旦 发 生 基本 上 所 有 产品 都 无 法 
感知 到 ， 当 然 ， 它 们 一 定 不 会 告诉 客户 它们 无 法 检测 到 LW， 只 能 说 这 种 事件 发 生 几 率 非 
常 低 , 发 生 了 的 话 你 也 就 乖乖 认 了 吧 。 但 是 有 一 家 厂商 却 凭借 其 独特 的 数据 排 布 架构 而 能 
够 检测 到 LW， 这 家 厂商 就 是 NetApp。 这 里 我 绝对 不 带 有 崇拜 或 者 推广 的 意思 。 
NetApp 的 WAFL 文件 系统 ,之 前 也 介绍 过 ,每 次 写 入 都 会 写 到 空闲 空间 ， 不 会 覆盖 写 ， 这 
种 机 制 决定 了 它 可 以 天 然 的 检测 到 LW 的 发 生 。WAEL 的 文件 系统 Tree ID 会 随 着 每 次 刷 盘 而 变 
化 ， 只 要 系统 读 出 某 个 扇 区 之 后 发 现 这 个 扇 区 中 DIF 区 段 Application Tag 字段 中 包含 的 Tree ID 
并 不 等 于 上 一 次 刷 盘 的 Tree ID, 那么 就 可 以 判断 上 一 次 刷 盘 时 这 个 扇 区 发 生 了 Lost Write， 此 时 
便 可 以 通过 RAID 层面 的 Parity 来 重 算出 这 个 扇 区 原本 应 当 写 入 的 数据 并 做 覆盖 , 其 具体 步骤 与 
上 文 所 述 的 相同 。 
(4) 如 何在 SATA 盘 中 存放 DIF 信息 
SATA 盘 每 扇 区 被 低 格 为 512B， 那 么 就 没有 空余 的 空间 来 存放 DIE 信息 了 。 此 时 就 必须 在 
上 层 强 行 分 配 DIE 空间 ， 有 多 种 手段 。 如 图 18-54 所 示 即 为 一 种 方式 ， 也 即 是 直接 把 磁盘 当做 
一 个 连续 地 址 空间 , 管 你 一 个 扇 区 多 大 , 我 就 在 每 512 字 节 之 后 放 8 字 节 的 DIF 内 容 。 这 样 做 会 
导致 520 字 节 的 逻辑 扇 区 与 512 字 节 的 物理 扇 区 错位 ， 导 致 每 读 出 一 个 逻辑 扇 区 ， 就 要 同时 读 出 
其 横 跨 的 左右 两 个 物理 扇 区 ， 写 也 一 样 ， 会 产生 大 量 的 读 写 惩罚 。 
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图 18-54 SATA 盘 中 的 DIF 放置 方法 1 
另外 一 种 方法 则 利用 一 种 扩大 粒度 的 思想 。 由 于 每 512 字 节 需要 8 字 节 的 DIF, 那么 64 个 512 
字 节 ， 人 恰好 总 共 需 要 64 x 8B=512B 的 DIE 内 容 ， 这 恰好 又 是 一 个 512B 扇 区 的 容量 ， 那 么 就 可 以 
将 这 个 专门 存放 DIF 的 扇 区 追加 到 每 64 个 扇 区 之 后 。 如 图 18-55 所 示 即 为 这 种 思想 的 一 个 示意 图 。 
Linear [B12 Hl S12 El 512 Hl 2 i. 5 
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第 64 个 房 区 
图 18-55 SATA 盘 中 的 DIF 放置 方法 2 
但 是 这 种 做 法 有 个 问题 ， 由 于 每 次 读 出 任何 一 个 扇 区 ， 都 需要 顺带 读 出 对 应 的 DIF 信息 ， 
所 以 如 果 仅 仅 读 出 比如 第 5 个 扇 区 , 那么 磁头 此 时 就 需要 等 待 盘 片 继续 旋转 到 DIE 扇 区 位 于 磁头 
之 下 时 , 将 其 读 出 , 增加 了 等 待 时 间 ; 并 且 , 如果 在 设计 DIF 扇 区 所 处 的 位 置 时 ， 比 如 可 以 放 在 
每 64 扇 区 的 首部 或 者 尾部 ， 如 果 这 种 设计 没有 考虑 盘 片 旋转 方向 与 扇 区 排 布 方向 的 话 ， 那 么 可 
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能 磁头 会 先 划 过 DIE 扇 区 ， 再 划 过 其 对 应 的 64 个 数据 扇 区 ， 那 么 此 时 磁头 就 只 能 在 读 取 对 应 的 
数据 扇 区 之 后 , 等 待 盘 片 旋转 一 大 轿 ， 再 转 回 到 DIF 扇 区 时 ， 从 而 将 其 读 出 , 所 以 这 一 点 一 定 要 
考虑 到 ， 当 划 过 DIF 时 就 将 其 读 出 从 而 节省 时 间 。 其 次 如 果 遇 到 DIF 扇 区 与 其 对 应 的 64 个 数据 
扇 区 位 于 不 同 磁道 的 时 候 ， 还 要 额外 产生 寻 道 操作 ， 这 就 更 降低 了 性 能 。 
经 过 实际 测试 ,即便 是 考虑 了 时 间 先 后 问题 ,SATA 盘 此 时 所 表现 出 来 的 性 能 确实 也 有 不 小 
的 降低 ,就 是 因为 等 待 时 间 与 寻 道 开 销 导 致 。 所 以 ， 有 些 厂家 的 设备 不 得 不 选择 降低 粒度 ， 比 如 
每 8 个 肩 区 后 面 追 加 一 个 DIE 扇 区 ， 这 样 的 话 ，8 x 8B=64B， 这 个 DIE 扇 区 中 就 只 有 前 64 字 节 
被 利用 了 起 来 ， 浪 费 掉 了 448B， 鉴 于 此 ， 可 以 将 这 个 DIE 扇 区 后 面 紧 邻 的 8 个 数据 扇 区 的 DIE 
信息 也 存放 在 其 中 ， 也 就 是 一 个 DIE 扇 区 的 左右 各 8 个 共 16 个 扇 区 的 DIF 可 以 共用 这 一 个 DIF 
扇 区 ， 这 样 就 降低 了 浪费 程度 ,， 变 为 384B 的 浪费 值 。 同 时 提升 了 性 能 。 可 以 调整 为 16 扇 区 或 者 
32 扇 区 这 样 的 粒度 ， 从 而 在 性 能 与 容量 浪费 之 问 取得 平衡 。 

(5 ) 实现 DIF 计算 和 检查 的 角色 及 其 所 处 位 置 

首先 ， 阵 列 中 的 HBA 上 的 FC、SAS 控制 器 已 经 普遍 支持 DIF 的 计算 、 插 入 与 剥离 操作 。 当 
写 数据 IO 被 由 主机 下 发 到 阵列 前 端 HBA 卡 中 的 控制 器 芯片 之 后 ， 芯 片 可 以 计算 ( 计算 出 CRC， 
并 插入 对 应 的 LBA 地 址 ) 并 向 每 个 IO 中 插入 DIE 区 段 , 之 后 将 已 经 插入 DIF 的 数据 IO 继续 下 发 
到 IO 路 径 下 层 。 不 仅 前 端 ， 阵 列 后 端 连接 磁盘 扩展 柜 的 HBA 控制 器 也 可 以 实现 DIE 的 计算 可 插 
入 。 对 于 SATA 磁盘 ， 到 底 在 阵列 前 端 就 实现 还 是 在 后 端 实现 ， 取 决 于 阵列 设计 者 的 全 盘 考 虑 。 

其 次 ， 阵 列 操作 系统 内 核 软件 模块 也 可 以 实现 DIE 的 计算 与 插入 ， 不 过 就 需要 耗费 一 定 的 
主 CPU 资源 了 ， 但 是 如 果 要 实现 诸如 LW 监测 这 种 级 别 的 DIE， 那 么 就 一 定 需要 在 阵列 系统 内 
核 中 用 软件 实现 了 。 

然后 某 些 SATA-FC，SATA-SAS 转 接 卡 上 的 控制 芯片 也 可 以 做 到 DIE 计算 与 插入 , 这 些 芯 
片 除了 要 计算 DIF 之 外 , 还 需要 考虑 SATA 盘 的 512 字 节 扇 区 对 齐 的 问题 ,需要 实现 底层 地 址 的 
屏蔽 透明 转换 操作 。 有 些 SATA 转 接 芯 片 则 自己 不 计算 DIF， 只 提供 512 字 节 到 520 字 节 的 地 址 
映射 翻译 工作 ， 这 样 就 可 以 让 上 层 部 件 来 计算 和 插入 DIF 了 。 
如 图 18-56 所 示 为 一 个 典型 系统 路 径 下 DIF 的 插入 、 校 验 转 发 、 写 入 、 读 出 、 删 除 动作 流 
程 示意 图 。 可 以 看 到 阵列 前 端 FC 控制 器 实现 了 DIE 区 段 的 插入 ( 写 入 阵列 时 ) 与 删除 ( 读 出 阵 
列 时 ) 操作 ,系统 路 径 之 下 每 个 支持 DIE 的 组 件 , 比如 后 端 HBA， 都 会 对 收 到 的 IO 数据 进行 校 
验 , 通过 就 继续 向 上 层 或 者 下 层 转发 , 一旦 发 现 不 一 致 则 向 其 上 游 报错 ， 从 而 上 游 可 以 重新 发 送 
或 者 连环 向 更 上 游 组 件 报错 从 而 推动 问题 的 解决 。 
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图 18-56 实现 DIF 的 角色 与 位 置 
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另外 ， 有 些 磁盘 (比如 日 立 ) 自身 可 以 实现 DIF 区 段 的 计算 与 插入 ， 对 上 层 透明 为 512 字 
节 扇 区 。 在 使 用 支持 DIE 的 各 种 组 件 时 , 需要 统筹 掌握 和 利用 ,从 而 在 路 径 上 各 个 点 处 保持 良好 
的 配合 。 


3. 数据 一 致 性 保护 总 结 


经 过 本 节 的 介绍 , 想必 大 家 已 经 可 以 深入 了 解 DIF 属于 一 致 性 保护 的 方式 , 以 及 TW、MW 
和 LW 三 种 典型 的 使 数据 不 一 致 的 现象 。 由 于 主机 侧 的 组 件 众多 , 所 以 目前 业界 也 一 直 在 研究 如 
何 保证 端 到 端的 数据 一 致 性 ， 让 数据 从 被 主机 侧 应 用 程序 生成 , 一 直到 最 后 写 入 磁盘 ， 都 能 够 保 
证 每 个 环节 的 一 致 性 。 

DIF 依然 不 是 万 能 药 ， 其 所 能 解决 的 一 致 性 也 是 比较 有 限 的 。 另 外 ，XOR 校 验 也 并 不 能 保 
证 100% 几 率 检测 到 不 一 致 ， 比 如 一 旦 一 串 数据 中 的 两 个 部 位 同时 发 生 畸 变 ， 一 处 由 0 畸变 为 1， 
而 另 一 处 由 1 畸变 为 0， 则 此 时 这 串 数据 的 XOR 校 验 值 是 相同 的 ， 系 统 不 会 认为 数据 不 一 致 。 
ECC 纠 错 算法 则 可 以 检测 到 这 种 不 同位 置 的 循环 畸变 。 

另外 ， 此 系统 发 现 某 条 带 的 数据 存在 不 一 致 现象 ， 但 是 每 个 扇 区 自身 的 校 验 都 是 一 致 的 ， 那 
么 此 时 系统 就 无 法 判断 出 到 底 是 谁 导 致 的 不 一 致 。 而 如 果 使 用 RAID 6 双 校 验算 法 , 就 可 以 利用 二 
元 方程 来 判断 究竟 是 哪个 Segment 发 生 了 不 一 致 ， 毕 竟 两 个 校 验 都 发 生 不 一 致 的 几率 是 非常 低 的 。 

Lost Write, 最 令 人 头疼 的 难题 , 也 不 是 不 能 解决 , 可 以 使 用 Write and Verify 这 个 SCSI 指令 ， 
即 每 次 写 入 之 后 立即 读 出 这 个 扇 区 来 判断 是 否 真 的 成 功 写 入 ， 但 是 这 样 做 会 耗费 相当 大 的 资源 ， 
不 具 实 用 价值 ， 除 非 对 数据 一 致 性 确 有 苛刻 要 求 而 又 可 以 容忍 性 能 降低 的 情况 下 。 

现在 业界 出 现 了 一 种 近 线 ( Nearline，NL ) SAS 或 者 近 线 FC 磁盘 ， 这 种 磁盘 其 原型 其 实 为 
那 种 带 有 SATA-EC 或 者 SATA-SAS 转 接 卡 的 SATA 盘 , 由 于 磁盘 阵列 后 端 一 般 都 使 用 FC Loop 
或 者 SAS Expander 网 络 来 连接 FC 或 者 SAS 磁盘 , 而 SATA 盘 若 要 用 于 这 种 磁盘 扩展 柜 中 , 就 需 
要 加 转 接 卡 , 各 个 厂商 都 去 选择 各 种 转 接 卡 ,导致 型 号 、 协 议 都 不 同 , 兼容 性 也 不 同 , 浪费 资源 。 
所 以 磁盘 厂商 干脆 推出 了 将 转 接 芯 片 集成 到 磁盘 自身 的 SATA, 这 也 就 是 所 谓 NL-SATA 磁盘 了 。 
不 仅 如 此 ，NL-SATA 并 不 仅仅 是 这 点 变化 ， 由 于 用 于 企业 级 存储 系统 中 ,所 以 厂商 在 低 格 的 时 
候 , 对 NL-SATA 盘 也 直接 低 格 成 520 字 节 扇 区 的 格式 以 便 实现 DIF。 
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第 了 9 音 


过 关 斩 将 一 一 系统 IO 路 径 及 优化 


， LUN 分 布 及 虚拟 化 

" 系统 IO 路 径 图 

”IO 优化 

" Cache 

， OS 内 核 IO 流程 

， 存储 控制 器 IO 处 理 过 程 


真正 的 存储 系统 性 能 优化 是 在 研发 机 构 的 实验 室 中 。 要 做 到 真正 彻底 的 
性 能 优化 , 需要 从 底层 设计 上 彻底 优化 。 目前 大 多 数 工 程 师 所 做 的 优化 只 不 
过 是 让 底层 已 经 设计 好 的 架构 充分 发 挥 其 应 有 的 性 能 , 严格 来 讲 , 这 不 叫 优 
化 ,因为 其 本 来 就 是 应 该 被 完成 的 。 本 章 首先 介绍 系统 IO 路 径 上 面 的 各 个 
层次 的 固有 的 设计 上 的 优化 动作 ,然后 会 给 出 一 些 如 何 将 这 些 固 有 设计 发 挥 
出 来 ， 或 者 说 如 何不 拖 它们 后 腿 的 经 验方 法 。 

本 章 的 精髓 在 于 系统 I0 路 径 架 构图 。 围 绕 这 张 图 来 论述 图 中 各 个 模块 
和 路 径 是 怎样 影响 系统 I0 的 。 要 想 优化 性 能 ， 必 须 胸 有 成 图 。 作 者 精心 制 
作 了 这 张 图 ， 请 读者 务必 牢记 。 

要 理解 存储 系统 , 首先 要 理解 计算 机 系统 本 身 。 存储 系统 中 任何 主体 都 
是 计算 机 ， 理 解 了 计算 机 IO 路 径 ， 也 就 理解 了 整个 IT 系统 的 IO 路 径 ， 只 
有 这 样 才能 目 无 全 牛 , 胸 有 宏 图 , 才 谈 得 上 最 后 去 做 优化 分 析 工 作 , 厚 积 薄 

正 像 电影 《黑客 帝国 》 中 所 反映 的 那样 ,要 真正 地 理解 计算 机 都 做 了 些 
什么 , 我 们 只 有 变 身 Nio 去 钼 入 其 中 一 探究 竟 。 但 是 目前 做 不 到 这 一 点 , 目 
前 所 做 的 是 用 程序 来 监测 程序 本 身 ， 比 如 debug 程序 。 我 们 作为 计算 机 世界 
的 造物 主 ,可 能 有 时 候 也 永远 无 法 探究 到 被 我 们 造 出 来 的 物种 可 能 并 没有 按 
照 我 们 规定 的 步骤 去 做 。 这 也 就 是 进化 的 开始 。 
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本 书 前 面 的 内 容 大 部 分 都 是 游 走 于 系统 表层 的 一 些 功能 表象 , 本 章 将 刺 破 表层 , 到 达 存 储 系 
统 的 内 部 来 一 探究 竟 ， 看 存储 系统 到 底 是 怎么 处 理 IO 请 求 的 。 

如 图 19-1 所 示 ， 本 章 开篇 即 给 出 了 一 幅 系统 IO 路 径 架 构图 ( 传统 基于 Block 协议 访问 的 
磁盘 阵列 ) ， 这 幅 图 者 括 了 主机 与 存储 系统 与 数据 IO 相关 的 全 部 主要 逻辑 模块 与 数据 流 的 每 个 
停 站 以 及 所 有 停 站 对 数据 所 做 的 处 理 动作 和 功能 模块 。 作 者 认为 , 要 涉足 性 能 优化 方面 ,就 必须 
在 大 脑 中 形成 这 样 一 张 图 并且 随 手 可 以 画 出 。 在 计算 机 中 ,一 个 IO 请 求 始 于 应 用 程序 ， 终 于 
磁盘 ， 在 这 条 路 径 上 ， 有 形形色色 的 角色 将 对 这 个 IO 请 求 进行 或 转发 ， 或 地 址 映射 ， 或 排队 ， 
或 拆 分 ， 或 合并 等 动作 。 
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图 19-1 系统 I0 路 径 模块 架构 图 


19.1 理解 并 记忆 主机 端 IO 路 径 架构 图 

总 体 来 讲 ， 系 统 IO 路 径 所 包括 的 主要 角色 模块 就 是 上 面 列 出 来 的 这 些 ， 一 个 IO 会 依次 经 
过 每 个 角色 , 在 物理 上 跨越 主机 与 存储 系统 之 间 的 网 络 , 在 应 用 程序 和 磁盘 之 间 双 向 流动 。 本 节 
论述 IO 的 起 源 地 也 就 是 主机 端的 IO 路径 模块 架构 。 

提示 : 本 章 的 所 有 论述 均 基于 机 械 硬盘 ， 不 考虑 SSD。 
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19.1.1 ”应 用 程序 层 


应 用 程序 是 计算 机 系统 内 主动 发 起 IO 请 求 的 大 户 , 但 计算 机 系统 内 可 以 向 底层 存储 设备 主 

动 发 起 IO 请 求 的 角色 不 仅 限于 应 用 程序 , 其 他 处 于 操作 系统 内 核 层 的 模块 , 比如 文件 系统 自身 、 
管理 层 自身 、 适 配器 驱动 层 自身 等 ,都 可 以 主动 发 起 IO。 当 然 , 只 有 应 用 程序 发 起 的 IO 才 可 

以 修改 用 户 实体 数据 的 内 容 ， 其 他 角色 发 起 的 IO 一 般 只 是 对 数据 进行 移动 / 重 分 布 / 校 验 /压缩 / 
加 密 等 动作 ， 并 不 会 修改 用 户 层面 的 实际 数据 内 容 。 

应 用 程序 在 读 写 数据 的 时 候 一 般 是 直接 调用 操作 系统 所 提供 的 文件 系统 API 来 完成 文件 数 
据 的 读 写 等 操作 。 有 的 应 用 程序 可 以 直接 调用 卷 管理 层 或 者 适配器 驱动 层 API 从 而 直接 操控 底层 
的 卷 或 者 LUN， 比 如 一 些 数据 库 程序 ， 它 们 直接 操控 卷 而 不 需要 使 用 文件 系统 提供 的 功能 ， 它 
们 自己 来 管理 数据 在 底层 卷 上 的 分 布 。 

应 用 程序 发 起 的 IO 的 类 型 是 影响 IO 性 能 的 最 首要 因素 。 本 书 第 4 章 介 绍 了 7 对 IO 类 型 ， 
每 一 对 中 包含 的 两 个 类 型 是 相反 关系 。 在 此 将 这 7 对 共 14 种 IO 类 型 做 成 了 一 个 表格 并 且 简 要 地 
列 出 了 每 种 IO 对 系统 整体 相对 性 能 的 影响 。 

其 中 ， 最 优 的 IO 方式 为 连续 并 发 IO ， 如 果 追 求 吞吐 量 ， 则 应 当 使 用 大 块 连续 并 发 IO ， 如 
果 追 求 IOPS， 则 应 当 使 用 小 块 连续 并 发 IO。 最 差 的 IO 方式 为 随机 顺序 IO ， 这 种 模式 下 不 管 是 
吞吐 量 还 是 IOPS 都 是 相对 很 低 的 。 比 如 某 应 用 程序 更 改 大 量 文件 的 文件 名 或 者 访问 时 间 等 属性 ， 
如 果 程序 为 单线 程 同 步调 用 方式 ， 则 每 次 操作 只 能 发 起 一 次 IO ， 每 一 轮 只 能 更 改 一 个 文件 ， 如 
果 有 几 万 个 或 者 更 多 的 文件 ,那么 此 时 处 理 速度 将 会 非常 慢 。 解 决 办 法 是 改 为 异步 调用 , 或 者 多 
线程 同步 调用 ， 让 IO 并 发 执行 ， 充满 IO Queue。 


表 19-1 IO 属性 对 性 能 的 影响 


整体 相对 性 能 
连续 情况 下 一 般 优 于 写 ， 随 
机 情况 下 可 能 会 低 于 写 
连续 情况 下 一 般 低 于 读 ， 随 
机 情况 下 可 能 会 优 于 读 


将 数据 向 


贡献 成 为 带宽 吞吐 县 


每 个 IO 的 目标 地 址 段 比较 短 读 写 小 文件 贡献 成 为 IOPS 


单位 时 间 内 所 发 生 的 IO 其 目标 
地 址 相对 前 一 个 IO 为 相 邻 或 跳 | 视频 编辑 播放 ”| 最 优 的 IO 方式 
跃 很 小 
单位 时 间 内 所 发 生 的 IO 其 目标 | 没有 索引 前 
地 址 相对 前 一 个 IO 跳跃 很 大 据 条 目 搜索 
同步 阻塞 IO 方式 ， 只 能 等 当前 | 单线 程 同步 
的 IO 完成 后 才 发 起 下 一 个 IO ”| 用 的 应 用 程序 


最 差 的 IO 方式 


最 差 的 IO 方式 
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续 表 


整体 相对 性 能 
持续 IO | IO 持续 地 被 发 起 视频 播放 

IO 进行 一 段 时 间 后 停顿 一 段 时 间 再 
发 起 


持续 / 
间断 IO | 间断 IO 


科学 计算 


IO 吞吐 量 或 IOPS 在 单位 时 间 内 的 值 


趋 于 稳定 Mk 


稳定 IO 
稳定 / 
突 发 IO 


影响 存储 系统 处 理 能 力 , 控制 
突 发 IO | 某 时 刻 突然 发 起 大 量 的 IO 请 求 科学 计算 器 随时 保存 一 定量 的 Buffer 
来 应 付 
读 写 实体 数据 内 容 的 IO 请求 贡献 为 实际 吞吐 量 
读 或 者 更 改 文件 属性 或 SCSI/ATA 协 贡献 为 虚 吞 性 量 , 由 于 系统 总 
议 中 其 他 非 实体 数据 操作 的 IO 请 求 吞吐 量 和 IOPS 为 定 值 ， 所 以 
比如 设备 控制 请 求 等 影响 实际 吞吐 量 
表 19-1 给 出 了 各 种 IO 形式 对 整体 性 能 的 影响 ， 这 些 影 响 都 是 相对 的 ， 即 总 体 来 讲 的 普遍 
影响 ,不 具有 特殊 情况 下 的 意义 。 
每 个 应 用 程序 都 会 有 自己 的 Buffer 用 来 存 取 有 待 处 理 的 数据 。 应 用 程序 向 文件 系统 请 求 读数 
据 之 后 , 文件 系统 首先 将 对 应 的 数据 从 底层 卷 或 者 磁盘 读 入 文件 系统 自身 Buffer， 然 后 青 将 对 应 
的 数据 复制 到 对 应 应 用 程序 的 Buffer 中 。 应 用 程序 也 可 以 选择 不 使 用 系统 内 核 缓存 ， 这 时 FS 将 
IO 请 求 透明 地 翻译 并 转发 给 底层 处 理 , 返回 的 数据 将 直接 由 OS 放 到 应 用 程序 Buffer 中 。 当 应 用 
程序 向 文件 系统 请 求 写 入 数据 时 , 文件 系统 会 先 将 应 用 程序 Buffer 中 对 应 的 数据 复制 到 文件 系统 
Buffer 中 ， 然 后 在 适当 的 时 刻 将 所 有 FS Buffer 内 的 Dirty Page 写 入 硬盘 ; 同样 ， 如 果 不 使 用 系统 
内 核 缓存 ， 则 写 入 的 数据 经 过 FS 文件 一 块 地 址 翻译 后 直接 由 OS 提交 给 FS 下 层 处 理 。 文 件 系统 
的 动作 是 可 控 的 ， 我 们 将 在 下 一 节 描 述 文件 系统 的 相关 细节 参数 。 


1. 同步 调用 和 异步 调用 


应 用 程序 可 以 选择 两 种 IO 执行 方式 : 第 一 种 是 同步 IO 调用 ， 另 一 种 是 异步 IO 调用 。 

如 图 19-2 所 示 , 前 者 指 某 线程 向 OS 发 起 IO 请 求 之 后 便 一 直 处 于 等 待 挂 起 状态 ， 直 到 OS 
将 IO 结果 返回 给 这 个 线程 ; 后 者 指 某 线程 向 OS 发 起 IO 请 求 之 后 , OS 立即 返回 一 个 “已 接受 ” 
信号 , 线程 此 时 就 可 以 继续 执行 后 续 代码 (后 续 代码 可 以 执行 对 以 前 接收 到 的 数据 的 分 析 处 理 或 
者 继续 对 OS 发 起 后 续 的 IO 请 求 ) ， 当 OS 将 IO 数据 从 相应 介质 读 入 或 者 写 入 完成 后 , 会 利用 
某 种 方式 让 线程 知道 (比如 Windows 系统 异步 IO 常用 的 IO Completion Port 机 制 ) 。 有 人 可 能 
会 在 此 产生 疑问 ， 如 果 遇 到 某 个 程序 必须 等 待 当前 IO 数据 返回 ， 不 返回 的 话 就 无 事 可 做 而 挂 起 
呢 ? 这 种 情况 是 有 的 ,如 果真 的 遇 到 这 种 情况 , 只 能 说 明 存 储 系 统 或 者 数据 链 路 的 速度 太 慢 已 经 
影响 程序 性 能 了 ， 但 是 这 里 请 注意 ， 如 果 使 用 了 异步 IO 调用 ， 则 可 以 在 短 时 间 内 发 送 大 批 IO 
请 求 到 OS， 从 而 接收 到 大 批量 数据 返回 ， 如 果 这 时 应 用 程序 依然 没 被 喂 饱 ， 那 么 说 明 存储 系统 
性 能 无 法 跟 上 ; 而 如 果 程 序 虽然 使 用 了 异步 IO 调用 但 是 却 与 同步 IO 时 做 相同 的 动作 ， 即 一 个 
IO 请 求 发 出 后 ,程序 虽然 没有 被 阻塞 但 是 依然 自我 等 待 ， 一 个 IO 一 个 IO 的 来 ,那么 实际 也 是 
没有 任何 效果 的 。 


5 将 
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图 19-2 同步 异步 10 示意 图 

前 文中 所 述 的 并 发 IO, 其 在 应 用 层 ( 并 发 IO 在 每 个 层次 都 有 对 应 的 意义 ) 的 意义 就 是 指 异 
步 IO 模式 ， 批 量 发 起 IO 从 而 喂 饱 底层 存储 系统 ， 榨 取 极 限 性 能 而 又 不 能 让 其 过 载 。 过 载 的 后 
果 就 是 IO 响应 时 间 急 剧 增加 而 IOPS 和 带宽 吞吐 量 根 本 没 怎么 增加 。 

IO 请 求 发 送 到 OS 内 核 之 后 到 内 核 将 IO 请 求 对 应 的 数据 读 取 或 者 写 入 完成 这 段 时 间 会 贡献 
为 OS 内 的 IOWait 指标 增高 ，IOWait 指标 一 旦 升 高 到 高 于 60% 左 右 的 百分比 ， 那 么 就 需要 考虑 
后 端 存储 系统 所 提供 的 性 能 是 否 已 经 不 能 满足 条 件 了 , 需要 检查 各 项 配置 以 确认 是 否 是 存储 系统 
本 身 能 力 有 限 还 是 配置 没有 最 优化 。 

同步 IO 调用 如 果 不 加 任何 参数 的 话 一 般 是 操作 系统 提供 的 默认 调用 方式 , 也 是 一 般 应 用 程 
序 首选 的 IO 调用 方式 。 一 般 情 况 下 ， 如 果 遇 到 数据 链 路 速度 或 者 存储 介质 速度 很 慢 的 情况 ， 比 
如 通过 低速 网 络 进行 IO ( Ethernet 上 的 NFS、CIFS 等 ) ,或 者 使 用 低速 Flash 芯片 等 时 ， 使 用 异 
步 IO 方式 是 一 个 很 好 的 选择 。 第 一 是 因为 IO 请 求 发 出 后 线程 可 立即 执行 后 续 功 能 ， 比 如 继续 
处 理 已 接收 到 的 数据 等 ， 第 二 是 因为 异步 IO 调用 可 以 接连 发 出 多 个 IO 请 求 ， 一 同 发 向 目标 ， 
目标 在 接收 到 这 些 IO 请 求 之 后 可 以 一 并 处 理 ， 增 加 效率 。 比 如 SATA 硬盘 的 NCQ 功能 ， 如 果 
应 用 层 只 有 一 个 线程 ， 而 且 整 个 IO 链 路 上 都 是 同步 调用 的 ， 那么 这 个 Queue 中 永远 就 只 有 一 个 
IO 请 求 ， 想 排队 优化 都 不 可 能 ， 磁 头 臂 只 能 按照 IO 顺序 寻 道 。 

要 实现 与 单线 程 异步 IO 类 似 的 结果 , 可 以 采用 另 一 各 方法 , 即 生成 多 个 线程 或 进程 , 每 个 线程 
或 进程 各 自 进行 同步 IO 调用 。 然 而 ,维护 多 个 线程 或 进程 需要 耗费 更 多 的 系统 资源 ， 而 采用 单线 程 
异步 IO 调用 虽然 需要 更 复杂 的 代码 来 实现 ， 其 相 比 多 线程 同步 IO 的 方式 来 说 仍然 更 加 高 效 。 

注意 : 在 Windows 系统 中 ， 如 果 应 用 程序 在 打开 某 文件 进行 读 写 操作 时 未 指定 特殊 参数 ， 

则 文件 系统 默认 是 使 用 自身 缓存 来 加 速 数据 读 写 操作 的 。 并 且 , 这 种 情况 下 异步 调用 多 数 

情况 下 会 自动 变 为 同步 调用 , 结果 就 是 I0 发 出 后 操作 系统 不 会 返回 任何 消息 直到 IO 完成 

为 止 ， 这 段 时 间 内 线程 处 于 挂 起 状态 。 为 何 会 这 样 呢 ? 有 三 个 原因 。 

(1 ) 预 读 和 Write Back。 文 件 系统 缓存 的 预 读 机制 可 以 增加 IO 读 操 作 的 命中 率 , 尤其 是 小 块 连 

续 IO 操作 , 命中 率 几乎 百分之百 。 在 这 种 情况 下 ,每 个 读 IO 操作 的 响应 时 间 会 在 微 秒 级 
别 ， 所 以 Os 会 自动 将 异步 调用 变 为 同步 调用 以 便 节 约 异 步 IO 所 带 来 的 系统 开销 。 
(2 ) 尽量 保持 IO 顺序 。 异 步 IO 模式 下 , 应 用 程序 可 以 在 单位 时 间 内 发 出 若干 IO 请 求 而 等 
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待 OS 批量 返回 结果 。OS 对 于 异步 IO 结果 的 返回 顺序 可 能 与 IO 请 求 所 发 送 的 顺序 不 
同 ， 在 不 使 用 文件 系统 缓存 的 情况 下 ，OS 不 能 缓存 底层 返回 的 IO 结果 以 便 重 新 对 结 
果 进 行 排序 , 只 能 够 按照 底层 返回 的 实际 顺序 来 将 数据 返回 给 应 用 程序 , 而 底层 设备 比 
如 磁盘 在 执行 IO 的 时 候 不 一 定 严 格 按照 顺序 执行 ， 因 为 文件 系统 之 下 还 有 多 处 缓存 ， 
IO 在 这 里 可 能 会 被 重 拍 或 者 有 些 IO 命中 ， 有 些 则 必须 到 存储 介质 中 读 取 ， 命 中 的 IO 
不 一 定 是 先 被 发 送 的 IO。 而 应 用 程序 在 打开 文件 的 时 候 如 果 没 有 给 出 特殊 参数 ， 则 默 
认 行为 是 使 用 文件 系统 缓存 的 ， 此 时 系统 内 核 缓存 便 会 严格 保持 IO 结果 被 顺序 地 返回 
给 应 用 程序 ， 异 步调 用 变 为 同步 模式 。 
(3 ) 系统 内 核 缓存 机 制 和 处 理 容量 决定 。 文 件 系统 一 般 使 用 Memory Mapping 的 方式 来 进行 
IO 操作 ， 将 映射 到 缓存 中 一 定数 量 的 page 中 , 目标 文件 当 需 要 的 数据 实际 内 容 没 有 位 
于 对 应 page 中 时 ， 便 会 产生 Page Fault， 需 要 将 数据 从 底层 介质 读 入 内 存 ， 这 个 过 程 
OS 自身 会 强行 使 用 同步 IO 模式 向 下 层 存储 发 起 IO。 而 OS 内 存在 一 个 专门 负责 处 理 
Page Fault 情况 的 Worker 线程 池 ， 当 多 个 应 用 程序 单位 时 间 使 用 异步 IO 向 Os 发 送 大 
量 请 求 时 ,一 开始 OS 还 可 以 应 付 ， 接 收 一 批 IO 对 其 进行 异步 处 理 ， 但 是 随 着 IO 大 
量 到 来 ,缓存 命中 率 逐 渐 降低 ， 越 来 越 多 的 Page Fault 将 会 发 生 ， 诸 多 的 Worker 线程 
将 会 参与 处 理 Page Fault, 线程 池 将 迅速 耗 尽 。 此 时 OS 只 能 将 随后 到 来 的 IO 变 为 同步 
操作 ， 不 再 给 其 回应 直到 有 Worker 线程 空闲 为 止 。 如 果 应 用 程序 在 打开 文件 进行 操作 
时 明确 要 求 不 使 用 文件 系统 缓存 ， 那 么 就 不 会 受 上 述 情 况 的 制约 ，OS 会 直接 返回 “ 接 
收 ” 信 号 给 应 用 程序 同时 将 请 求 发 送 到 文件 系统 做 文件 一 块 地 址 翻译 后 转发 到 下 层 处 
理 。 
导致 Windows 将 异步 强行 变 为 同步 的 原因 不 只 有 系统 内 核 缓存 的 原因 ， 其 他 一 些 原因 也 可 
以 导致 其 发 生 。 在 Windows 系统 中 ,访问 NTES 自身 压缩 文件 、 访 问 NTFS 自身 加 密 文 件 、 任 
何 扩展 文件 长 度 的 操作 都 会 导致 异步 变 同 步 操作 。 要 实现 真正 的 异步 IO 效果 ， 最 好 在 打开 文件 
时 给 出 相关 参数 ， 不 使 用 内 核 文件 系统 缓存 。 但 是 不 使 用 文件 系统 缓存 会 引起 读 IO 请 求 过 慢 ， 
采用 越过 缓存 并 且 使 用 异步 IO 的 应 用 程序 都 是 经 过 严格 优化 的 ， 它 们 自身 会 实现 预 读 操作 从 而 
将 数据 预先 读 入 自身 的 缓存 。 这 种 不 使 用 内 核 文 件 系统 缓存 的 IO 方式 又 被 普遍 称 为 “Direct IO” 
或 者 “DIO”。 异 步 IO 模式 又 被 称 为 “AIO” 即 “Asynchronous IO”。 


2. Windows 系统 下 的 Asynchronous Explorer 


在 这 里 向 大 家 介绍 一 个 工具 : Asynchronous Explorer。 这 个 工具 为 一 位 国外 高 手 开发 ， 他 为 
了 研究 异步 IO 的 行为 而 专门 开发 了 这 个 工具 。 它 可 以 让 你 直截了当 地 判断 在 执行 IO 操作 时 
Windows 系统 底层 都 做 了 什么 事情 , 发 生 了 什么 , 是 否 某 处 有 缓存 在 发 生 作用 等 。 有 兴趣 的 读者 
可 以 在 作者 的 博客 留 下 E-mail 以 便 作 者 将 这 个 工具 发 送 过 去 。 

如 图 19-3 所 示 为 Asynchronous Explorer 的 主 界面 。 程 序 首先 需要 在 磁盘 上 任意 目录 生成 一 
个 结构 化 的 文件 ， 这 个 文件 中 存放 着 大 小 为 1KB 的 若干 条 记录 ， 初 始 时 需要 创建 这 个 文件 ， 指 
定 其 包含 记录 的 条 数 。 创 建 完 后 ， 在 窗口 中 部 区 域 填 入 测试 将 要 发 送 的 IO 请 求 数量 ， 每 个 请 求 
会 读 出 文件 中 的 一 条 记录 ， 也 就 是 每 个 读 IO 请 求 为 1KB( 两 个 扇 区 ) 大 小 。 然 后 单 击 Generate 
按钮 生成 测试 需要 发 送 的 IO 列表 , 生成 的 IO 完全 是 随机 IO。 然 后 单 击 Run 按钮 , 程序 便 会 以 
异步 IO 模式 向 OS 发 起 请 求 ， 所 有 IO 将 尽量 一 次 性 发 出 。 
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图 19-3 Asynchronous Explorer 主 界面 

窗口 中 部 给 出 了 可 选 的 参数 ，Scan Suggestions 在 下 一 节 介 绍 。 其 中 有 个 调用 参数 比较 重要 ， 
即 FILE_FLAG_NO_BUFFERING， 勾 选 这 个 参数 表示 应 用 程序 在 打开 文件 进行 IO 的 时 候 不 使 
用 文件 系统 缓存 ( 读 和 写 IO 都 不 进入 系统 内 核 缓 存 而 直接 进入 卷 或 者 设备 驱动 IO 层面 ) ， 
FILE_FLAG_WRITE_THROUGH 在 下 一 节 介 绍 。 

窗口 下 部 为 本 次 测试 的 结果 标示 图 ， 每 一 个 黑 点 表示 一 个 IO， 对 角 线 为 同步 线 ， 即 如 果 某 
个 黑 点 落 在 了 这 条 线 上 ,那么 就 表示 这 个 IO 的 结果 是 被 按照 请 求 发 出 的 顺序 返回 给 应 用 程序 的 ， 
如 果 黑 点 落 在 同步 线 之 上 ， 则 证 明 IO 结果 早 于 被 发 出 的 顺序 被 返回 ， 黑 点 落 在 同步 线 下 方 则 表 
示 这 个 IO 结果 晚 于 被 发 出 的 顺序 返回 。 图 中 有 波动 幅度 的 曲线 为 IO 结果 返回 的 时 间 与 IO 地 址 
偏 移 量 的 函数 曲线 。 

现在 我 们 来 分 析 一 下 图 19-3 中 的 曲线 和 IO 分 布 情况 并 做 出 几 个 判断 。 测 试 时 由 于 选择 了 
FILE_FLAG_NO_BUFFERING， 所 以 本 次 测试 为 纯 异 步 IO 模式 ， 所 有 IO 在 最 短 的 时 间 内 批量 
发 送 到 了 OS 内 核 。 然 而 OS 返回 的 结果 却 不 是 按照 IO 被 发 出 时 的 顺序 返回 的 ， 有 早 有 晚 ， 基 
本 上 平均 分 布 ， 这 种 现象 的 原因 是 因为 FS 之 下 某 处 有 某 种 Queue 在 发 生 作用 ， 典 型 的 例子 就 是 
硬盘 中 的 Queue， 比 如 SATA 盘 的 NCQ。Queue 会 将 IO 按照 当前 磁头 各 所 在 的 位 置 按照 电梯 
原理 进行 优化 重 排 ， 使 得 磁头 式 降 低 寻 道 次 数 和 寻 道 跨度 从 而 优化 性 能 。 这 一 点 可 以 从 IO 偏 移 
量 曲线 判断 ， 可 以 看 到 IO 结果 基本 上 是 按照 偏 移 量 递增 的 顺序 返回 的 ， 而 IO 发 送 的 时 候 却 是 
完全 随机 的 ,所 以 这 里 判断 底层 的 某 个 Queue 对 随机 的 IO 按照 偏 移 量 做 了 重 排 ， 使 得 磁头 璧 顺 
序 地 并 且 小 跨度 地 寻 道 依次 完成 了 所 有 IO 的 读 取 动 作 并 且 返 回 结果 。 偏 移 量 曲线 产生 了 4 次 平 
滑 波 动 ， 第 一 次 向 下 ， 第 二 次 长 时 间 平 缓 向 上 ， 第 三 次 陡峭 向 下 ， 第 四 次 陡峭 向 上 ， 可 以 判断 这 
些 波动 对 应 了 磁头 熙 的 摆动 方向 , 磁头 式 做 了 四 次 大 幅度 摆动 , 而 每 次 摆动 周期 内 伴随 着 多 次 小 
跨度 换 道 操作 ， 这 种 磁头 臂 寻 道 方式 是 很 优秀 的 。 

在 主 界面 中 选择 Processing Time Plot 单 选 按钮 可 以 切换 到 另 一 种 结果 显示 模式 ， 即 IO 发 送 
顺序 与 对 应 IO 响应 时 间 及 IO 偏 移 量 的 曲线 图 ， 如 图 19-4 所 示 。 上 部 曲线 为 IO 响应 时 间 ， 范 
围 跨度 比较 大 的 曲线 仍然 表示 IO 偏 移 量 曲线 。 可 以 看 到 IO 偏 移 量 是 来 回 摆 动 非常 随机 的 。 由 
于 Bypass 掉 了 文件 系统 缓存 ， 所 以 IO 响应 时 间 的 数量 级 上 升 到 了 100ms 的 级 别 。 
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图 19-4 响应 时 间 和 偏 移 量 曲线 
我 们 再 来 看 一 下 使 用 系统 内 核 缓存 之 后 的 IO 变化 情况 ， 如 图 19-5 所 示 。 虽 然 程序 依然 使 
用 异步 IO 调用 , 但 是 此 时 OS 已 经 强制 变 为 同步 IO 操作 并 且 保持 了 IO 结果 返回 的 顺序 符合 发 
送 时 的 顺序 。 可 以 看 到 每 个 IO 都 落 在 了 同步 线 上 ， 两 个 模式 显示 的 偏 移 量 曲线 相同 ， 表 示 IO 
结果 返回 的 顺序 与 发 送 时 的 顺序 相同 , 并 且 由 于 系统 内 核 缓存 预 读 的 影响 , 测试 文件 大 部 分 已 经 
于 缓存 中 ， 所 以 IO 响应 时 间 下 降 到 了 100 微 秒 级 别 ， 降 低 了 1000 倍 。 
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图 19-5 使 用 系统 内 核 组 存 之 后 的 10 变化 
进行 完 上 面 的 测试 之 后 ，FS 下 层 某 处 的 Buffer ( 比如 磁盘 自身 缓存 ) 一 定 残留 有 之 前 预 读 的 
部 分 数据 。 为 了 验证 这 一 点 , 我 们 即刻 勾 选 FILE_FLAG_NO_BUFFERING, 并 日 不 再 重新 Generate 
新 的 IO 列表 ， 使 用 原 有 的 列表 以 保证 缓存 命中 率 。 立 即 Run 起 来 。 结 果 验 证 了 这 个 说 法 。 


| | Na 
i 册 | 
外 


如 图 19-6 所 示 , IO 发 起 之 初 一 段 时 间 内 结果 返回 非常 迅速 , 延迟 在 100 微 秒 级 别 , 全 部 落 
在 了 同步 线 上 。 既 然 没有 使 用 系统 内 核 缓 存 , 这 么 快 的 响应 速度 是 从 哪里 来 的 呢 ? 答案 只 有 一 个 ， 
即 FS 下 层 某 处 必定 有 一 处 或 者 多 处 缓存 在 发 生 作 用 ， 这 个 或 者 这 些 缓存 内 残留 有 之 前 程序 读 取 
过 的 数据 部 分 ， 所 以 开始 的 一 部 分 IO 命中 , 直接 从 缓存 返回 给 了 应 用 程序 ， 而 且 可 以 发 现 偏 移 
量 F 线 随机 跳跃， 表明 IO 结果 是 按照 发 送 顺 序 迅速 被 返回 的 。 而 随后 的 IO 命中 率 变 得 越 来 越 
低下 ， 最 终 成 发 散 形 状 分 布 ， 这 时 底层 的 Queue 优化 效用 又 被 显现 出 来 ， 偏 移 量 曲线 变 得 平滑 ， 
响应 时 间 也 相对 上 升 到 了 10ms 级 别 。 


图 19-6 验证 FS 下 层 某 处 缓存 的 作用 效果 


测试 时 勾 选 了 一 个 选项 ， 即 显示 IO 发 。 坏 = ra 
送 和 IO 返回 的 追逐 条 , 如 图 19-7 所 示 。 上 。 “” 寺 ” | 


面 的 条 表示 IO 被 发 送出 去 的 完成 量 ， 下 面 
的 条 显示 IO 结果 返回 的 完成 量 , 缓存 命中 5 
时 两 个 条 的 行进 速度 是 相同 的 ， 而 缓存 不 命 图 19-7 异步 I0 的 追逐 条 
中 时 IO 完成 量 进度 条 就 会 落后 于 IO 发 送 进 


| 
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度 条 。 本 测试 样 例 中 ， 起初 一 段 时 间 两 个 条 行进 速度 相同 ， 随 后 IO 完成 量 条 逐渐 变 慢 ， 对 应 了 
测试 结果 。 如 果 降低 测试 读 取 的 数据 量 ， 比 如 读 取 1 x 100 条 记录 ,那么 100KB 的 数据 对 于 磁盘 
缓存 来 讲 是 个 小 数目 , 被 完全 留 在 磁盘 缓存 的 几率 会 增加 , 此 时 再 次 测试 就 会 发 现 偶尔 会 出 现 IO 
完全 落 在 同步 线 上 的 情况 ， 虽 然 Bypass 了 系统 内 核 缓存 。 

下 面 ， 我 们 用 Asyn Explore 来 验证 一 下 在 纯 异 步 IO 模式 下 ， 应 用 程序 的 IO 是 否 是 批量 发 
送 的 。 我 们 使 用 iSCSI 协议 来 连接 一 个 外 部 存储 系统 中 的 LUN， 并 在 主机 端 利 用 Wireshark 工具 
来 抓 包 分 析 。 如 图 19-8 所 示 , 在 5 号 TCP 包 中 竟然 一 次 性 包含 了 30 个 SCSI Read 请 求 IO, 可 
见 异 步 IO 确实 是 在 短 时 间 内 批量 被 发 出 的 ， 以 至 于 30 个 IO en ite TCP 包 中 
传送 。 后 面 的 几 个 加 长 的 包 同 样 是 这 种 情况 ， 当 然 也 夹杂 着 只 包含 一 个 IO 请 求 的 TCP 包 。 对 
IO 的 Response 结果 会 在 随后 一 个 一 个 地 被 返回 。 另 外 ， pa IO 请 求 的 长 度 =2 来 看 ,确实 符 
合 Async Explore 每 次 读 IO 请 求 1KB 数据 相符 (2 x 512B=1KB ) 。 


el Ome Ox00600037, Len: 1) 
3 1 SCST mcm Read C10 LUN: OXO0 (LEA: 0x00882b02 en 2 
IE re (CEA OXONNEIIE Te 2 


61SCST 。 SSI: : 0x00 (LBA: en 

?1231 SI: Reag(i0) LUN: Ox00 (LEA: 0X00882c52， Len: 2) 

B15C5I 。 SCSI: Read(10) LUN: Ox00 (LEA: Ox0088258a, Len: 2)SCS1: Read(10) LUN: Ox00 (LEA: Ox00553ecc, Len: 2) | 
sc: NS [LaA: 2 


9 iscsr Read(10) LUN; Ox00 (LOA; Ox00884460, Len; a 
12 1scst Scsr: Read(10) LUN: Ox00 (LEA: Ox00882133, Len: 2)scs1: Read(10) LUN: Ox00 (LEA: Ox00831868, Len: 2)SCs1: Read(10) LUN: Ox00 

20 ls Scst: Rod(10) Lu: Oro (LaA: OroDes00>c, Lon: 2)ScST: Read(10) LiN: Ox00 (LaA: Oxo08et 2b, Len: 2)Scs1: nead(10) LuN: O00 

21 iscsIr SCSI: Read(10) LUN: Ox00 (LEA: Ox0088127c, Len: 2)SCSI: Read(10) LUN: Ox00 (LBA: Ox00880f46, Len: 2)SCSI: Read(10) LUN: Ox00 

23 iSCSI SCSI: Read(10) LUN: Ox00 (LEA: Ox00882fde, Len: 

26 iSCSI SCSI: Read(10) LUN: Ox00 (LEA: Ox00881050, Len: 2)SCSI: Read(10) LUN: Ox00 (LEA: Ox00880092, Len: 2)SCSI: Read(10) LUN: Ox00 

36 1SCSI 。 SCSI: Read(10) LUN: Ox00 (LEA: Ox0085255a, Len: 2)SCSI: Read(10) LUN: OX00 (LBA: Ox00852c70, Len: 2)5CS1; Read(10) LUN: OXO0 

38 iSCSI SCSI; Read(10) LUN; Ox00 (LEA; Ox008836bS, Len; 

4 


去- 
1scsST Scsr: Read(10) LuN: 0x00 (LEA: Ox00883692, Len: 2)scs1: Read(10) LUN: Ox00 (LBA: Ox008309b2，Len: 2)scs1: Read(10) LuN: Ox00 — 


本 Frame 5 (1518 bytes on wire, 1514 bytes captured) 

四 Etherner II, Src: cisco_28:b6:c0 (00;12:30:28:b5:c0), Dst: Natapp_07:43:06 (00:30:98:07:43:06) 

Internet protocol, src: 10.128.132.5 (10.128.132.5), Dst: 10,128.133.75 《10.128.133.75) 

Transmission Control Protocol, Src Port: houston (4041), Dst Port: iscsi-target (3260), seq: 97, Ack: 561, Len: 1460 
国 15CST (scsr ¢ 

5c5T CDB Read(10) 


四 SCST CDB Read(10) 

田 15CST (SCSI Conmand) 
四 SCSI CDB Read(10) 

田 1SCST (SCSI C 
SCSI CDB a 

田 TSCST (SCSI 

SCSI COB ea 

田 TSCST (SC 

图 SCST CDB ea 

四 1SCST (se 
Hr 

m iscsr (scst Conmand) 
田 SCST CoB Read(10) 
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图 19-8 验证 纯 异 步 I0 的 批量 发 送 


注意 :在 使 用 ISCSI/NAS 等 基于 TCPIP 的 存储 协议 时 , 并 且 是 随机 IO 环境 下 , 利用 Bypass 
文件 系统 缓存 的 纯 异 步 IO 模式 会 大 大 减少 网 络 传输 的 开销 。 因为 如 果 使 用 文件 系统 缓存 ， 
则 0S 强制 变 为 同步 IO 模式 ,IO 一 个 一 个 地 执行 ,所 以 每 个 I0 请求 就 需要 被 封装 到 单独 
的 TCP 包 和 以 太 网 帧 中 , 在 IO 量 巨 大 的 时 候 , 这 种 浪费 是 非常 惊人 的 。 图 19.8 所 示 的 例 

子 中 , 纯 异 步 IO 模式 下 的 抓 包 数 据 文件 只 有 120KB， etd FS 缓存 之 后 , 同样 的 IO 
列表 ， 抓 包 数 据 变 为 490KB ， 开 销 是 前 者 的 4 倍 ， 个 绝对 不 容 忽视 的 地 方 。 


注意 : 不 管 Windows 还 是 Linux， 都 是 “用 户 程序 一 0S 内 核 一 存储 设备 ”这 种 架构 ,用户 
程序 和 OS 内 核 之 间 存 在 一 套 I0 接口 ,同样 ,OS 内 核 与 存储 设备 之 间 一 样 存在 着 IO 接口 ， 
也 有 异步 同步 、Write Through 、Write Back 等 参数 。Linux 操作 系统 的 10 行为 与 Windows 
有 很 多 不 同 之 处 。 


第 19 章 过 关 斩 将 一 一 系统 10 路 径 及 优化 @ 


注意 : 在 Windows 系统 下 ，0S 内 核 与 存储 设备 之 间 的 10 行为 完全 与 用 户 程序 与 OS 内 核 
之 间 的 I0 行为 对 应 , 即 上 层 为 同步 调用 则 底层 也 同步 , 上 层 为 异步 调用 则 底层 也 异步 ( 在 
不 使 用 FS 缓存 时 ) 。 

而 在 Linux 系统 下 ， 上 层 的 IO 与 底层 不 一 定 是 对 应 关系 ， 比 如 ， 如 果 使 用 文件 系统 进行 
IO 并 且 Mount 之 后 , 底层 对 磁盘 的 操作 会 严格 按照 Mount 时 给 出 的 选项 ( Asyne 或 者 Sync ) 
来 执行 , 并 且 , 如 果 Asyne Mount 而 同时 用 户 程序 进行 同步 调用 , 则 底层 依然 是 异步 操作 。 
对 于 不 使 用 文件 系统 进行 IO 的 情况 ， 比 如 使 用 dd 程序 直接 操作 设备 层 ， 由 于 dd 采用 同 
步调 用 ， 而 底层 卷 设备 不 可 能 有 预 读 机 制 ， 所 以 对 于 dd 的 同步 读 操作 ， 在 底层 也 反映 为 
对 磁盘 设备 的 同步 读 操作 ; 但 是 对 于 Write Back 模式 的 写 操作 ， 由 于 底层 卷 处 存在 缓存 ， 

这 个 缓存 会 在 接收 写 操 作 之 后 即 返回 成 功 给 上 层 , 然 后 对 I0 进行 优化 IO Combination 等 )， 

然后 批量 异步 Flush 到 物理 存储 设备 。 卷 处 的 缓存 不 但 可 以 Write Back， 而 且 还 拥有 读 缓 
存 作用 (虽然 它 不 可 进行 预 读 操 作 , 但 是 之 前 被 读 入 数据 会 残留 一 定时 间 ) ， 如 果 上 层 在 
短 时 间 内 发 起 重复 地 址 的 读 操 作 ， 会 先 从 卷 缓存 处 寻求 命中 ， 不 命中 后 再 读 取 磁 盘 。 


注意 : 这 里 还 需要 理解 一 点 ， 即 如 果 使 用 文件 系统 缓存 ， 那 么 Windows 会 强行 将 异步 IO 
变 为 同步 阻塞 模式 ， 即 应 dst IO 了 。 这 样 做 虽然 使 用 了 文件 系统 
缓存 的 加 速 作 用 , 但 却 也 降低 了 IO 并 发 度 。 而 如 果 在 FS 下 位 某 处 的 缓存 同样 有 具有 加 速 IO 
的 作用 , 那么 不 使 用 FS 的 缓存 从 而 让 应 用 层 处 可 以 产生 并 发 的 无 阻塞 异步 I0, 而 这 些 IO 
命中 于 FS 下 位 的 某 处 缓存 ， 这 样 就 可 以 一 箭 双 周 了。 本 例 中 由 于 测试 只 是 用 了 台式 机 单 
块 磁盘 ， 磁 盘 缓存 容量 小 上 且 处 理 能 力 有 限 ， 所 以 IO 响应 很 快 升 高 。 如 果 底 层 设备 为 具有 
大 容量 缓存 和 高 处 理 能 力 的 智能 存储 设备 , 那么 缓存 命中 率 会 大 大 增加 , 这 种 情况 下 就 会 
获得 更 快 的 响应 时 间 ， 是 最 优 的 实现 方式 。 如 图 19-9 所 示 , 测试 使 用 一 台 外 部 NAS 存储 
系统 , 具有 大 容量 缓存 和 高 处 理 能 力 , 即使 使 用 了 FILE_FLAG_NO_BUFFERING 参数 , 依 
然 得 到 了 比较 高 的 响应 速度 和 向 同步 线 归 拢 趋势 的 IO 分 布 。 分 别 利用 CIFS 和 iSCSI 作为 
访问 协议 ， 得 到 了 相同 的 结果 。 左 面 是 CIFS 的 结果 ， 碳 面 是 iSCSI 的 结果 。iSCSI 环境 下 
读 取 了 1000 条 记录 ， 所 以 IO 分 布点 比 CIFS 多 ， 后 者 读 取 了 100 条 记录 。 


图 19-9 FS 下 层 有 缓存 的 吉 果 
注意 几 种 表述 方式 : 异步 I0 不 一 定 不 使 用 缓存 ， 同 步 I0 不 一 定 使 用 缓存 。 同 步 异 步 和 
Write Back/Through 没有 直接 关系 。 


3. Network IO 


有 时 候 文 件 并 不 存放 在 本 地 磁盘 ， 而 是 存放 于 另外 一 台 计 算 机 上 ， 需 要 通过 某 种 网 络 比如 
TCP/IP 来 访问 对 方 的 计算 机 ， 并 且 还 需要 某 种 网 络 文件 访问 协议 比如 CIFS/NES 等 来 对 位 于 网 
络 另 一 端的 计算 机 上 的 文件 进行 IO 操作 ， 这 便 是 Network IO， 即 网 络 IO。 
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如 图 19-10 所 示 为 网 络 IO 的 示意 图 。 其 中 
有 一 个 关键 模块 为 Network Redirector 。 
Redirector 的 作用 是 将 上 层 的 IO 请 求 翻译 成 网 Wn Pie 
络 文件 访问 协议 后 发 送 到 对 端 , 这 样 , 应 用 程序 
就 可 以 像 访 问 本 地 文件 一 样 通过 网 络 来 访问 其 


Client Computer Server Computer 


+ 
他 计算 机 上 的 文件 了 。 | | | 
Network IO 的 过 程 如 下 。 a 
应 用 层 向 Os 发 起 IO 请 求 读 写 位 于 某 网 络 “| wee | 2 
映射 盘 符 下 的 某 个 文件 。 
OS 接收 到 这 个 IO 请 求 之 后 , 交 给 Network 
Redirector 处 理 。Redirector 接收 到 IO 请 求 之 后 ， 图 19-10 Network I0 流程 


将 这 个 IO 翻译 并 封装 成 对 应 网 络 协议 与 网 络 文 
件 访问 协议 相 匹配 的 数据 包 并 将 其 发 送 到 对 应 的 远程 计算 机 。 
远程 计算 机 上 的 Network Redirector 接收 到 这 个 IO 请 求 之 后 ， 对 源 计算 机 进行 认证 ， 认 证 
通过 之 后 ， 远 程 计算 机 根据 IO 请 求 中 的 具体 信息 对 本 地 的 目标 文件 进行 IO 操作 ， 然 后 将 数据 
通过 Redirector 返回 给 源 计 算 机 。 
源 计 算 机 收 到 远程 计算 机 的 数据 之 后 ， 将 数据 返回 给 发 起 IO 的 应 用 程序 。 
注意 : 网 络 I0 的 响应 时 间 普 遍 较 长 ， 有 时 其 至 会 出 现 超 时 的 情况 ， 应 用 程序 必须 做 好 准 
备 ， 延 长 I0 等 待 超时 时 间 。 
由 于 外 部 网 络 稳定 性 不 比 内 部 总 线 ， 所 以 会 经 常 发 生 中 断 现象 从 而 导致 TCP 连接 中 断 而 
网 络 文件 访问 协议 栈 也 会 Reset。 此 时 Client 端 应 用 程序 并 不 会 感知 这 一 点 ， 可 能 依然 会 
使 用 之 前 对 文件 进行 打开 操作 时 所 获得 的 文件 句柄 对 文件 进行 操作 , 而 Server 端 由 于 协议 
栈 Reset 导致 句柄 失效 ， 所 以 会 返回 句柄 过 期 的 通知 给 客户 端 Redirector，Redirector 便 向 
上 层 报错 , 应 用 程序 此 时 需要 重新 进行 打开 文件 操作 以 获得 新 句柄 。 这 种 现象 在 使 用 NFS 
协议 时 非常 常见 。 


4. Network IO 下 的 缓存 机 制 


由 于 网 络 IO 速度 远 比 不 上 本 地 IO ,所 以 如 果 在 Client 端 保持 一 个 缓存 的 话 是 非常 有 效果 的 。 
网 络 IO 的 Client 端 缓存 可 以 同时 加 速 读 和 写 IO。NES 和 CIFS 都 可 以 使 用 缓存 。 

CIFS 下 的 缓存 和 IO 机 制 

下 面 介 绍 Buffered IO 和 非 Buffered IO 模式 下 的 读 行 为 。 

使 用 系统 缓存 是 程序 在 Open 一 个 文件 时 默认 的 选项 , 不 管 对 于 CIFS 还 是 本 地 文件 。 在 此 ， 
很 多 程序 员 不 会 去 过 多 考虑 这 一 点 , 但 恰恰 就 是 这 一 步 有 失 考虑 , 在 特定 情况 下 却 可 能 造成 程序 
IO 性 能 极 差 。 我 们 来 做 一 个 疯狂 实验 。 

使 用 Async Explorer 在 一 个 CIFS 协议 映射 的 网 络 驱动 器 中 生成 一 个 测试 用 文件 。 然 后 生成 
一 份 测试 地 址 列表 ， 勾 选 FILE_FLAG_NO_BUFFERING 不 使 用 系统 内 核 缓存 , 异步 地 随机 读 取 
文件 中 的 100 条 记录 (每 条 为 1KB 大 小 ) , 开启 Wireshark 工具 抓 取 网 络 上 的 CIFS 协议 数据 流 ， 
然后 单 击 Run 按钮 ， 得 到 的 结果 如 图 19-11 所 示 ( 只 列 出 了 部 分 结果 ) 。 


我 们 从 结果 中 可 以 看 到 , 在 Bypass 
系统 缓存 后 ，Network IO 模块 完全 透 
传 了 应 用 层 的 IO 请 求 ,IO 类 型 确实 是 
只 有 异步 模式 才 可 能 让 单线 程 发 出 的 
并 发 IO， 而 且 每 个 IO 大 小 都 是 1KB。 
当然 第 一 个 IO 为 0.5KB 并 且 是 同步 
的 , 这 有 可 能 是 程序 故意 而 为 , 比如 读 
取 文 件 标识 等 信息 。 可 以 看 到 35~ 40 
号 包 表 示 了 接连 发 出 的 6 个 并 发 IO 请 
求 。 而 且 每 个 IO 针对 的 文件 Offet 也 
都 是 随机 的 。 

我 们 现在 再 使 用 同样 的 IO 地 址 
列表 ， 针 对 相同 的 文件 ， 做 相同 的 
测试 ， 唯 一 区 别 就 是 不 勾 选 
FILE_FLAG_NO_BUFFERING ， 也 就 
是 使 用 系统 缓存 。 测试 结果 如 图 19-12 
所 示 (只 列 出 了 部 分 结果 ) 。 

从 以 上 结果 看 来 ，OS 确实 将 异步 
操作 强制 变 为 了 同步 操作 ， 除 此 之 外 ， 
还 有 一 点 最 大 的 不 同 ， 即 IO Size 变 为 
了 4KB 或 者 8KB 了 。 但 是 程序 明明 给 
出 的 是 1KB 的 IO 请 求 , 为 何 到 了 底层 
反而 被 扩大 了 如 此 之 多 呢 ? 考虑 到 
4KB 和 8KB 这 种 数值 ， 我 们 首先 应 该 
想到 操作 系统 的 Memory Page 大 小 为 
4KB ， 这 里 是 不 是 OS 使 用 了 Memory 
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38 SMB 。 Read Andx Request, 
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40 SMB 。 Read Andx Request, 
41 SMB 。 Read Andx Response, 
42 SMB 。 Read Andx Request, 
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44 SMB 。 Read Andx Request, 
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46 SMB ~ Read Andx Request, 
47 SMB 。 Read Andx Request, 
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52 SMB 。 Read Andx Response, 
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Read AndxX Rest 


Read AndX Res 
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Read Andx Request, 


Read Andx Response, 
Read Andx Request, 
Read AndX Response, FID: 
Read Andx Request, 
Read Andx Response, 
Read Andx Request, 
Read Andx Response, 
Read Andx Request, 
Read Andx Response, 
Read Andx Request, 
Read Andx Response, FID: 
Read Andx Request, 
Read AndX Response, 
Read Andx Request, 


Read Andx Response, 
Read Andx Request, F- 
Read Andx Response, 
Read Andx Request, 


Read Andx Request, 


FID: Ox4006, 512 bytes at offset 0 

FID: Ox4006, 512 bytes 

Ox4006, 1024 bytes at offset 8436224 
Ox4006, 1024 bytes at offset 8450560 
Ox4006, 1024 bytes at offset 2560 
Ox4006, 1024 bytes at offset 214528 
Ox4006, 1024 bytes at offset 3892736 
Ox4006, 1024 bytes at offset 8903168 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
Ox4006, 
FID: Ox4006, 
FID: 0x4006, 
FID: Ox4006, 1024 bytes 

FID: Ox4006, 1024 bytes 

FID: Ox4006, 1024 bytes at offset 8450560 
FID: Ox4006, 1024 bytes at offset 7365120 
FID: Ox4006, 1024 bytes at offset 1895936 
FID; ,0%4006 1924 bytes ak offser 3247616 
FID: Ox4006, 1024 

FID: ‘Ox4006, "1024 by¥es ar offset 6940160 


不 使 用 缓存 异步 I0 


FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 
FID: 


1024 bytes 
1024 bytes at offset 2334208 
1024 bytes 

1024 bytes at offset 7923200 
1024 bytes 

1024 bytes at offser 9598464 
1024 bytes at offset 7364096 
1024 

1024 bytes 

1024 bytes 

1024 bytes 

1024 bytes 


a at offset 0 


FID: 0x4003, 4096 


FID: 
FID: 


Fl ns a offset 8900608 
ytes 

Ox: es at offset 2330624 
日 0x4003， 8192 bytes 
0x4003，4096 bytes at offset 7921664 


FF 
FID: 


ytes 
FID: es at offser 9596928 


F 


ytes 


FF at offset 6938624 


4003， 8192 | at offset 4632576 
区 B192 
0x4003，8192 ee offset 1368064 


: 0x4003，8192 bytes 
_0x4003，4096 bh, ee at offset 1724416 


人 用 py 读 惩罚 


Mapping 方式 来 将 IO 的 目标 映射 到 页 面 内 存 地 址 空间 了 ， 从 而 针对 这 些 目 标的 读 写 都 会 以 Page 
为 单位 呢 ? 要 调查 这 一 点 , 我 们 就 要 首先 假设 这 个 结论 成 立 ， 而 如 果 结 论 成 立 , 那么 OS 在 读 取 
对 应 Page 的 时 候 一 定 是 从 Page 的 边界 开始 读 的 ， 也 就 是 说 ,每 个 IO 请 求 的 Offet 值 必定 可 以 
除 4KB 而 除 尽 。 我 们 可 以 算 一 算 ， 上 图 中 的 每 个 Offset 都 是 可 以 除 尽 4KB 的 ， 所 以 ， 这 就 充分 
证 明了 这 个 结论 。 另 外 , 由 于 两 次 测试 需要 读 取 的 文件 偏 移 地 址 列表 是 相同 的 ,但 是 第 二 次 测试 


结果 中 每 个 IO 的 Offet 却 并 不 等 于 第 一 次 测试 结果 中 对 应 的 值 ( 高 位 大 致 相同 ) ， 


这 也 说 明了 ， 


第 二 次 测试 ，Network IO 模块 并 没有 透 传 上 层 的 IO 请 求 到 CIFS Server 上 ， 而 就 是 走 入 了 Page 


Fault 缺 页 处 理 流程 。 


细心 的 读者 可 能 已 经 发 现 ， 测 试 1 中 的 37 号 包 对 应 的 Offet 为 2560 的 IO 请 求 ， 在 测试 2 


的 结果 中 不 见 了 ， 并 没有 对 应 的 IO 被 发 送 到 CIFS Server。 这 是 怎么 
1024B，2560+1024=3584B ， 而 文件 被 映射 到 内 存 的 第 一 个 


请 求 的 Offet 是 从 第 2560B 开始 的 后 


回 事 呢 ? 我 们 算 一 算 ， 这 个 


Page 大 小 是 4096B，3584<4096， 落 入 Page 范围 内 , 那么 OS 应 该 读 入 这 个 Page 的 啊 ， 为 何 第 二 
次 测试 结果 并 没有 读 入 呢 ? 我 们 立即 可 以 推断 ， 由 于 第 一 个 IO 的 Offet 是 0， 长 度 是 512B, 同 
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样 也 落 入 第 一 个 Page， 是 不 是 OS 会 对 已 经 读 入 的 Page 做 一 定时 间 的 缓存 呢 ? 测试 结果 充分 证 
明了 这 个 行为 ， 正 因为 37 号 包 对 应 的 第 4 个 IO 请 求 发 生 了 Read Cache Hit， 所 以 第 二 次 测试 时 
Network IO 模块 根本 没有 将 这 个 IO 请 求 发 送 给 CIFS Server。 

那么 为 何 会 出 现 8KB 尺寸 的 IO 呢 ? 要 解释 这 个 问题 很 简单 ,我 们 依然 将 两 次 测试 结果 来 进 
行 比较 。 在 第 一 次 测试 结果 中 找到 与 二 次 结果 中 的 63 号 包 相 对 应 的 包 , 即 42 号 包 , 一 次 结果 中 
42 号 包 对 应 的 IO 请 求 为 : 从 2334208 开始 的 1024 字 节 , 2334208+1024=2335232B , 而 2334208 ~ 
2335232 这 个 OfRet 范围 会 落 入 哪个 Page 呢 ? 大 家 可 以 计算 一 下 ,结果 是 前 一 部 分 落 入 一 个 Page， 
后 一 部 分 落 入 下 一 个 Page， 这 比较 尴 众 ， 所 以 OS 会 读 出 这 两 个 Page， 也 就 是 共 8KB 的 内 容 来 
应 对 这 个 IO 请 求 。 

还 可 以 从 测试 结果 发 现 ,即使 Open 文件 的 时 候 , 程序 选择 了 使 用 缓存 ， 客 户 端 文件 系统 也 
丝毫 不 会 做 任何 程度 哪怕 是 最 小 力度 的 试探 性 预 读 
操作 ， 但 是 却 可 以 缓存 已 经 被 读 入 的 Page。 

在 客户 端 使 用 Filemon 监测 工具 同样 监测 到 了 a Dee Doren 
相同 的 结果 ， 在 另 一 个 测试 中 ， 出 现 了 同样 的 结果 ， | 纪 hoehee mW-REAp 玉生 9 gape76 Lorgh 10a 
如 图 19-13 所 示 。 带 星 号 的 表示 非 程序 发 起 的 IO 请 。 局 名 全 站 全， 引咎 
来 ， 说 明 是 由 OS 内 核 自己 发 起 的 IO 请求。 其 中 之 全 各 三 沁 全 人 
IRP_MJ_READ 是 内 核 IOM 提供 的 功能 函数 ， 详 见 。 让 各 he 后 下 和 全 二 全 区 下 
本 章 后 面部 分 。 图 19-13 Filemon 监测 结果 


eh FILE_FLAG_NO_BUFFERING 或 者 FILE_FLAG_WRITE_THROUGH 这 两 个 参数 对 
写 I0 请 求 来 讲 具 有 大 致 类 似 的 效果 ,但 是 对 于 读 IO 来 讲 ， 想 越过 FS 缓存 就 只 能 使 
a 。 如果 目标 文件 位 于 网 络 另 一 端 , 那么 FILE_FLAG_NO_BUFFERING 这 个 参数 只 
会 对 客户 端 发 生效 果 ， 当 请 求 被 传送 到 服务 器 端 时 ， 对 于 读 请 求 ， 这 个 参数 不 会 产生 任 
何 效 果 ， 服 务 器 总 是 可 以 首先 进行 目标 文件 在 其 本 地 缓存 的 Cache Hit 流程 ; 但 是 对 写 
请 求 会 有 效果 , 服务 端 在 SMB 协议 中 会 检测 这 个 参数 对 应 的 标记 以 便 做 出 相应 动作 , 设 
置 了 标记 的 请 求 ， 服 务 端 会 保证 将 其 写 入 硬盘 之 后 才 返回 完成 信号 。 如 图 19-14 所 示 为 
只 设置 了 前 者 ( 上 半 图 ) 和 只 设置 了 后 者 (下 半 图 ) 时 数据 包 中 不 同 的 位 被 置 1。 另 外 ， 
这 两 个 参数 是 有 本 质 上 的 区 别 的 ， 详 见 下 文 。 
另外 在 其 中 我 们 还 可 以 看 到 其 他 本 章 前 文 所 描述 的 一 些 FLAG， 比 如 控制 随机 或 连续 IO 
的 FLAG。 


FE create Dptions: 0x00000048 


= Directory: File being created/opened nust nct be a cirectory 
= write Through: wrires need not flush buffered data before complering 
equenc1a1 only: The file night nor on1y be accessec seouent1all 


oralons TY synchr onous 
ons cessar tly synchronous 
rented/ oned mst Me be a directary 


nd an Too Tie hane 
not ee randonby 
Wot be daleted when it 1s closed 


pan No 1 is 
= apan For Free space quary: This 1s NOT an open for free space query 
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3 Create 


0 ~ Directory: File being creted/opened mst pot be 3 directory 


al The file Ts nor only be Dir equenE ny 
a Buffer ing: Incermediare buffering 15 allowed 
NOT necessar ily synchronous 


i 
图 19-14 Tie Throveh No Burfer i 

至 此 我 们 得 出 了 结论 : 对 于 小 块 随机 IO 读 ， 使 用 CIFs 方式 访问 数据 的 情况 下 ， 客 户 端 在 
调用 API 时 使 用 缓存 的 两 个 坏处 是 : 异步 变 同步 、 读 惩罚 。 

说 到 写 惩罚 大 家 很 熟悉 , 但 是 读 惩罚 确实 也 存在 。 所 以 我 们 要 尽力 避免 读 惩罚 , 由 于 开发 人 
员 在 设计 程序 时 如 果 没 有 显 式 地 认识 到 这 个 问题 , 一 般 都 会 直接 使 用 默认 参数 , 没有 越过 系统 内 
核 的 缓存 ， 而 这 恰恰 就 是 导致 性 能 低下 的 原因 。 而 对 于 大 块 连续 IO 读 ， 更 没有 必要 使 用 客户 端 
缓存 , 因为 内 核 在 CIFS 的 IO 方式 下 不 会 预 读 , 还 要 它 做 什么 甚 呢 ?( 实验 证 明 , 即使 使 用 Async 
Explorer 在 打开 文件 时 指定 FILE_FLAG_SEQUENTIAL_SCAN 参 数 来 刺激 FS 预 读 也 是 无 济 于 事 ， 
试验 结果 就 不 再 引入 了 ) 使 用 客户 端 缓存 唯一 能 够 有 加 速效 果 的 情况 ， 是 小 块 连续 IO 读 ， 比 如 
512B 的 IO。 这 样 ， 客 户 端 每 读 入 1 个 Page， 就 相当 于 预 读 了 后 面 7 个 IO 所 需要 的 数据 。 称 这 
种 行为 为 预 读 尚且 有 些 自 欺 欺 人 , 况且 连续 小 块 读 这 种 行为 在 应 用 层 就 应 该 尽量 将 这 些 连续 的 小 
块 合并 为 大 块 才 是 正路 ， 不 应 该 不 负责 任 地 增加 底层 的 负担 。 

曾经 有 人 在 Windows Vista 64B 版 本 上 遇 到 了 同样 的 问题 ， 而 且 读 惩罚 更 加 严重 ， 每 次 需要 
读 入 32KB 的 数据 ， 但 是 这 里 作者 不 能 确认 是 否 Windows Vista 64B Edition 的 Page Size 确实 是 
32KB。 所 能 确认 的 是 , 上 文 测 试 中 的 4KB 确实 是 Page 
Size 在 起 作用 而 不 是 FS 格式 化 时 指定 的 Block Size 在 -rr Ca WRITE gr ee 19849 Lengih 1024 
起 作用 。 退 一 步 讲 ，CIFS 协议 本 身 并 没有 引入 Server 性 El -Alo SR Fem ee 人 
端 向 Client 端 通告 Server 本 地 FS Block Size 的 机 制 ，。 妥 纪 Reve PSTO-WRTE Fe BM Ja0 Leah 10 
了 和 户外 和 道 sr 的 FS mid 大 小 于 和 上 3 二 和 二 三 
上 文 测试 中 的 4KB 也 就 与 FS Block Size 无 关 。 为 了 证 归 El FASTIO SR Fat Ee ee 地 


ea a 上 
如 图 19-15 所 示 , F 盘 是 一 个 本 地 磁盘 ， 被 格式 图 19-15 Filemon 写 惩罚 监测 结果 
化 为 FS Block Size=2048KB。 图 中 第 一 行 表示 程序 向 F 
盘 下 面 的 一 个 文件 发 起 了 Ofet=19949，Length=1024B 的 随机 Ofket 写 IO， 这 一 定 会 产生 写 惩 
罚 。 果 然 ， 第 二 行 带 星 号 ， 表 示 这 是 内 核 自动 发 起 的 IO， 是 一 个 读 请 求 ， 可 以 看 到 这 个 读 请 求 
的 Offset=16384，Length=4096B。 其 Offet 可 以 被 4096 除 尽 ， 表 示 OS 自动 读 入 了 1 个 Page 大 
小 的 数据 ，Page 在 内 存 中 都 是 以 4KB 为 单位 的 ， 所 以 这 个 IO 的 起 始 Offet 也 是 出 于 Page 的 边 
界 上 。 虽 然 FS 被 格式 化 为 2048B 为 一 个 Block， 但 是 这 里 OS 依然 使 用 了 4KB 的 IO Size， 这 就 
充分 说 明了 上 文 的 结论 。 
另外 ,根据 这 个 图 我 们 还 可 以 看 得 出 来 ，OS 读 入 这 个 Page 之 后 ， 第 一 行 的 IO 会 落 入 这 个 
Page， 图 中 所 显示 的 所 有 IO 请 求 也 都 落 入 了 这 个 Page， 所 以 OS 再 没有 发 起 其 他 Page 的 读 IO 


CA A 


' 
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请 求 , 因为 图 中 所 有 的 IO 都 会 Cache Hit。 当 然 这 里 只 是 特殊 情况 , 因为 可 以 看 到 图 中 的 所 有 IO 
的 起 始 Offet 根本 没 相差 几 个 字 节 , 测试 用 程序 也 是 故意 定制 成 这 样 的 。 如 果 遇 到 一 个 起 始 Offet 
没有 落 入 已 读 入 Page 范围 的 IO 请 求 , 那么 内 核 依然 还 要 读 取 对 应 的 Page。 本 章 后 面 章节 讲述 的 
块 设备 IO 的 IO Size 等 也 都 会 受 Page Size 的 影响 。 

对 于 小 块 连续 读 ， 使 用 Buffered IO 会 有 一 定 的 缓存 命中 率 , 但 是 由 于 底层 没有 主动 预 读 ， 
所 以 带 来 的 提速 是 微乎其微 的 。 

提示 : FS Block Size 大 部 分 情况 下 并 不 决定 FS 预 读 或 者 写 惩 罚 读 的 单位 ，FS 往往 是 以 内 

存 页 面 的 大 小 来 决定 读 入 数据 单位 的 ， 包 括 下 面 章 节 要 讲 的 AIX 系统 下 FS 预 读 ， 也 是 使 

用 Page 来 作为 单位 的 。FS Block Size 的 最 大 一 个 作用 其 实 就 是 单纯 地 作为 FS 对 文件 空间 

进行 分 配 时 的 最 小 单位 。 所 以 ,这 里 请 准确 理解 OS RAM Page Size 和 FS Block Size 的 角色 

和 作 月 


上 面 论述 了 CIFS 环境 下 的 读 行 为 , 现在 我 们 再 来 看 看 写 行为 。 对 于 写 IO ， 如 果 程 序 明确 指 
出 了 使 用 FILE_FLAG_NO_BUFFERING 或 者 FILE_FLAG_WRITE_THROUGH 的 话 ， 那 么 底 
层 会 完全 透 传 上 层 程序 发 出 的 写 IO， 并 上 且 这 个 请 求 到 了 CIFS Server 端 也 会 被 Server 以 Write 
Through 的 方式 写 入 磁盘 后 才 会 返回 完成 信号 。 而 如 果 程序 没有 使 用 这 两 个 参数 的 任何 一 个 , 那 
么 客户 端 系统 会 默认 使 用 缓存 进行 写 IO。 

我 们 首先 来 调查 系统 对 非 Buffered IO 的 写 行为 。 非 Buffered IO 又 分 为 WriteThrough 方式 和 
NO_BUFFER 方式 ， 上 文 小 提示 中 给 出 了 二 者 的 本 质 区 别 ， 这 里 我 们 用 实践 来 检验 之 。 

非 Buffered IO (Direct IO ) 模式 下 的 写 行为 如 下 。 

下 面 我 们 分 析 在 CIFS 访问 方式 下 ,使 用 FILE_FLAG_NO_BUFFERING 参数 打开 目标 文件 
之 后 ， 系 统 内 核 是 否 还 会 发 生 惩罚 行为 。 

如 图 19-16 所 示 ， 使 用 测试 软件 以 相同 的 其 他 测试 参数 ， 分 别 用 WT 模式 和 
FILE_FLAG_NO_BUFFERING 方式 打开 目标 文件 进行 513B ( 注意 , 非 512B 对 齐 ) IO Size 的 随 
机 读 测 试 。 
pT 
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RP MI_CAEATE Z\3 Dpions Open WhteThrough Access 0010063 
RPMIREAD 。 ZN Clfset 1649295 Langih 513 
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FASTIO-READ 。 Z\3 Chiset $957809 Langh 513 
RP MI-READ" ZN Chisot $954975 Langh 40%8 
FASTIO-READ «ZA3 Clfset 2712744 Langh 513 
RP MI_READ* = Z\3 Cet 2711552 Landh 40% 
FASTIO-READ 。 ZN3 Clfset 6002287 Langh 513 
> MI_READ" ZV3 Ofsct 7999483 Lengh 4056 
FASTIO-READ 。 ZN Clfset 785916) Lsngkh 513 
RP MI_READ" ZW Offset 7856123 Lengh 4096 
FASTIO-READ 。 Z\3 CHset 612009Length 513 
RP MI-READ" «= Z\3 Cliset 610304Length 409E 
FASTIO-READ 。 ZA3 Cliset 637405 Longh 513 
RP MI-READ" «CZ\3 Clfset 6373373 Langh 40% 
FASTIO-READ 。 Z\3 Cfset $039573 Langh 513 
RP MI READ* Z3 Cfset $035773 Landh BS2 


es 
oe 00 besser offset ZlS2 
O009, 4096 
ys009, 096 bres a offset T9948 
ys 
A009, 4096 bes at offset ?7856128 
096 Lytes 
:x4009, 4096 bytas ar offset 61030¢ 
006 byres 
000, 4006 bees at offset E373378 


x4009, B192 by eS at offser 9035776 
x4005, B192 
4009， 时 | 


0 = Directory: File baing ersatad/cpaned must not be 3 directory 


BBSBSBESSsdHNds” 
Eq 
如 
下 


ER 
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Read Mndx RequeSr， FID; 0x8003， 313 站 :这 a offser 364000 
Read Andx Response, FID: (x6003, 513 bytes 

Nesd Nhe eer, Is md, 5 tyes at effser 7 
Read An Rasponse, FID: Oxa003 


路 其 他 
IRP_MJ_CREATE ZZ\.. Options: Operlf NoBuffer Access 0012019F 
READ ZZ\.. Olfset 1753088 Length: 513 
Z\.. Offset 384000 Lenglh 513 
Z\.. Offset 779264 Length: 513 
2. Ofset 1997824 Length 513 
Z\.. Offset 1211392 Length 513 
Z\.. Offset 823296 Length 513 
Z\.. Offset 498688 Lenglh 513 
Z\.. Offset 2452992 Length: 513 
Z\ Offset 2538496 Lenolhr 513 
Z\.. DOIfset 1017856 Length 513 
己 \- Offset 264192 Length: 513 
Z\.. Oifeet 1849856 Leng 513 
Z\.. Offset 1446400 Length: 513 
Z\.. Offset 905728 Length: 513 
三 \- Offsct 122369 Length 513 
己 \- Ofset 1861120 Length: 513 
己 \- Oifset 1876480 Length: 513 
Z\.. Olfset 1800132 Length: 513 


Read And Response, FI 
Read Andx Request，FID 


toffee 2153406 
ee es 


ys 
MB003，513 by es at offser HAS 
x8003, 513 

B03, S13 i at offser 264192 


ee at offser 1849856 


Read andx Raquest, FID 
Read Andx Rasponse, FI 


~ virectory: File being creaced/epaned mst rar be 3 directery 

rd shet before corpIering 
re oi ra fhe ig rer ily Z\. Offset 1667584Lenglh 513 
Z\ Oifset 739840 Lenglt 513 
Z\ Olfset 1654784 Lenah 513 


图 19- 16 WT 模式 与 NOBUFFER 模式 读 对 

图 中 右 侧 下 部 1 号 记录 显示 了 在 使 用 FILE_FLAG_NO_BUFFERING 参数 打开 文件 后 
所 监测 到 的 NoBuffer Accesso 下 部 左 侧 的 CIFS 协议 数据 包 中 对 应 的 FLAG"Intermediate pore 
也 置 了 1， 两 者 一 一 对 应 。 两 次 测试 给 出 的 内 核 IO 惩罚 完全 不 同 : WT 模式 下 惩罚 严重 ， 
NoBuffer 模式 下 根本 没有 惩罚 。 而 且 还 得 出 了 另外 一 个 结论 ， 即 如 果 底 层 采用 CIFS ate 
目标 文件 ， 则 上 层 程序 在 使 用 FILE_FLAG_NO_BUFFERING 之 后 ， 可 以 发 出 iosize 不 等 于 扇 区 
整数 倍 的 IO 请 求 ， 而 且 这 些 请 求 被 完全 地 透 传 到 CIFS 层 执行 。 这 个 设计 是 合理 的 ， 因 为 CIFS 
协议 自身 并 没有 规定 读 写 请 求 的 offet 必须 与 某 个 单位 对 齐 。 而 对 于 底层 直接 使 用 物理 磁盘 IO 
的 情况 ， 就 必须 要 求 使 用 NoBuffer 模式 的 程序 发 出 肩 区 对 齐 的 IO 请 求 了 。 

使 用 了 NoBuffer 模式 之 后 ， 针 对 CIFS 目标 文件 的 读 和 写 请 求 均 被 完全 透 传 。 如 图 19-17 
所 示 为 同样 使 用 了 NoBuffer 模式 对 目标 文件 进行 567B 的 随机 写 入 ， 发 现 IO 请 求 被 完全 透 传 到 
底层 ， 没 有 任何 读 或 者 写 惩罚 存在 。 


有 retoeal TB 
31 SB Write AndX Request, FID: 0X800f，567 bytes at offser 4100544 
32 8 urite AndX Response, FID: Ox300F, 567 bytes 

33 Ne wrtte Andx Reqvest, FrO: Ox80of, S67 byes at offser S294264 
34 MB Write Andx Response, FID: Ox800F, 567 

36 8 Write Andx Request, FID: Ox800f, 567 be at offset 7739550 


37 SM Write Andx Response, FID: Ox300F, 567 bytes #4 进程 请求 路 ， 其 他 

38 SB 。 Write Andx Request, F 00f ，567 bytes at offser 1078434 1 (MP-MW-CREATE ZX3 Optons Open NoBier Access OOOUB3 
39 8 Write andx Response, FID: Ox300F, 567 bytes 7 己 w. Z\3 Offset 4100544 Lengih 567 
0 NB Write Andx Reqhest, FID: Ox800f, S67 bytes at offser 6050457 8 习 w Z\3 Offset 9294264 Lengih 567 
和 NB FID: 0x800， es 9 五 m Z\3 Offset 7739550 Lengih 567 
42 8 SS er 4249098 1 司 w Z\3 Offset 1078434 Length 567 
43 SNB 。 Write AndX Response, FID: 0x800f，567 1 Z\3 Offset 6050457 Lengih 567 
44 NB Write AndX Request, F er iE es at offser 4113585 1 五 Z\3 Offset 4249098 Length 567 
45 SMB 。 Write AndX Response, FID: Oxal 13 导 s Z\3 Offset 4113585 Length 567 
46 SNB Write AndX Request, F eS at offset 6323 1 刁 m Z\3 Offset 946323 Lenglh 567 
47 SB Write AndX Response, FID: OxB00F, 567 bytes 1 王 sm. Z\3 Olfset 2294649 Lenglh 567 
全 8 write Andx Request, FID: 0x800f El es at offset 2294649 16 于 Z\3 Offset 2227743 Length 567 
49 SB Write AndX Response, T 五 wm Z\3 Offset 1433376 Lengih 567 
0 urdte Andx Nesbente "FD Od 下 ' 训 fy at offset 2227743 18 So. Z\3 Olfset 4946716 Lengiht 567 
51 SB Write Andx Response, FID: Ox800F, 567 bytes 9 Z\3 Offset 191646 Lengi 567 


图 19-17 NoBuffer 模式 写 测试 
提示 : CIFS 访问 方式 下 ,使 用 NoBuffer 模式 打开 文件 进行 IO 的 程序 没有 必要 一 定 发 出 扇 
区 对 齐 的 IO 请 求 ， 此 时 内 核 完全 透 传 上 层 的 IO 请 求 。 但 是 IO 请 求 到 了 CIFS Server 端 之 
后 ,依然 会 在 Server 端 本 地 产生 对 应 的 惩罚 ， 所 以 ,从 全 局 角度 来 讲 ,程序 任何 情况 下 都 
发 出 扇 区 对 齐 的 IO 请 求 是 最 理想 的 状态 。 
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5. Buffered IO 模式 下 的 写 行为 


这 里 需要 区 分 概念 ，Buffered IO 一 样 可 以 使 用 Write Through (WT ) 。WT 并 不 是 说 IO 请 
求 不 经 过 内 核 缓存 ， 而 是 先进 入 缓存 但 是 系统 需要 将 数据 彻底 写 入 底层 介质 之 后 才 返 回 成 功 。 

对 一 个 文件 进行 写 入 操作 有 两 种 方式 : 一 种 是 追加 写 , 另 一 种 是 覆盖 写 。 这 两 种 模式 对 系统 
底层 的 IO 行为 影响 锭 异 。 下 面 会 分 别 介绍 。 

1) Buffered IO 下 使 用 WRITE THROUGH 模式 写 

首先 我 们 对 WT 模式 做 一 系列 疯狂 实验 ,在 Windows 系统 下 使 用 某 测试 工具 打开 CIFS Server 
上 某 文件 进行 测试 , 打开 时 只 指定 WRITE THROUGH 参数 ,然后 从 文件 头 部 开始 做 1KB 每 次 
的 同步 写 操作 。 从 如 图 19-18 所 示 的 底层 IO 输出 结果 来 看 ， 产 生 了 严重 的 读 和 写 惩罚 。 


aad andx Request，FID> O74003, 4095 byres at offsm 
区 


和 串 伍 ”工地 
1 三 wei Zz Dptone Open WleT houoh Acoess: G1ODOB3 
Road A RE9E3 FrD: bxd003, 3088 byeXs "At ofFser 4096 1 ioe 2 Oet OLengh 1024 
ead Ma es dds, 深 验 再 eel 三 2 RS OUengh 0 
3 498 ES st orfeer a0ne 下 el Za olent OLongh 0 
nn ZE tem TA Peg ou 
est offset 4096 3 eel Za Olsst OLenah 4096 
中 忆 避 celt ZOlst 99 Loh 1024 
器 ieeelt Z\2 Offsst OLength 4096 
peih 2 Ooe Lengh 1on4 
西 二 soeme18 Zi Olsst 0DLenplh 4035 
bein 2 ols 40 Longth 1024 
% ai exe10. ZOlfsct 4095 Length 
各 el Zt Offeot 409 Longth 409E 
9 et 的 
2 el Zi Os A155 Loah 
bp eh 0 
% el 2 Olea Le 
eh 2 feet NIE Lah 1024 
人 Zhet an Longh 4D 
0 三 wool ZOlost 6lS2 Leongh 1024 
0 于 ell 三 2 0R3 于 Lengh 400 
102 ool 三 2 Oleat Iga Leongth 6 
104 三 veeee1t Z2 Det 9216 Length 1024 
105 三 woseit Zi Olsst Bl2 Loh 
18 马 各 elt 区 
109 三 eese1t ZA2 De gl Length 4096 
10 三光 ssia 3 Ore Tho a 
ER freer 122 In ween Zi Olest FISD Longh 485 
rH 1 三 次 ce18 RFW WATE 2Z2 Of 12296 Len 1024 


图 19-18 WT 模式 连续 小 块 写 测试 

图 中 左 侧 为 Client 与 Server 之 间 的 IO 请 求 输出 ， 右 侧 为 Client 本 地 使 用 Filemon 底层 过 滤 
驱动 检测 到 的 本 地 所 发 生 的 IO 请 求 输出 ， 发 现 二 者 是 一 一 对 应 关系 。 

为 了 满足 第 一 个 offet=0 length=1KB 的 写 操作 ， 系 统 首先 需要 读 入 4KB 大 小 的 Page0 也 就 
是 offset=0 length=4KB 的 数据 ( 对 应 右 侧 带 星 号 的 75 号 记录 ) ， 然 后 将 读 入 的 page 的 前 1KB 在 
内 存 中 替换 为 IO 请 求 的 数据 。 由 于 设置 了 WT 参数 ， 所 以 此 时 系统 还 必须 再 次 将 此 修改 后 的 
page0 写 入 ， 所 以 紧 接着 发 生 了 4KB 的 写 入 请 求 ( 对 应 右 侧 带 星 号 的 76 号 记录 ) ， 第 一 次 1KB 
写 IO 至 此 完成 。 第 二 次 程序 继续 发 起 写 IO ， 由 于 是 连续 地 址 写 ， 这 次 IO 为 offet=1024， 
length=1024。 但 是 这 次 ， 系 统 不 再 读 入 page0， 因 为 前 一 轮 修改 后 的 Page0 依然 在 缓存 中 ， 此 时 
系统 直接 使 用 这 个 page0 即 可 , 将 page0 中 从 offet1024 开始 之 后 的 1024B 蔡 换 为 本 次 IO 对 应 的 
数据 ， 然 后 立即 发 起 向 CIFS Server 的 写 入 请 求 ， 写 入 修改 后 的 page0。 对 于 再 往 后 的 2 次 写 入 ， 
系统 依然 不 需要 从 Server 端 读 入 page0， 所 以 ， 对 一 开始 发 生 的 4 个 写 IO 请 求 ， 系 统 只 读 入 了 
一 次 page0， 却 写 入 了 4 次 修改 后 的 page0。 依 此 类 推 , 对 下 4 次 写 IO， 系 统 需要 读 入 page1， 然 
后 执行 相同 过 程 。 

总 体 来 讲 使 用 WT 模式 ， 并 没有 完全 Bypass 系统 内 核 的 缓存 ， 所 以 直接 导致 了 严重 的 读 写 

罚 , 产生 了 4 倍 的 总 惩罚 量 ， 计 算 公式 为 (总 读 入 + 总 写 入 一 应 写 入 ) /应 写 入 。 图 中 右 侧 1 
ee ie 过 滤 驱 动 监测 到 了 上 层 打开 文件 时 指定 的 WT 参数 , 带 星 号 的 记录 表示 这 个 请 
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求 是 内 核发 起 的 而 不 是 程序 发 起 的 。 

同 理 ， 如 果 将 上 面 的 测试 程序 发 起 的 IO Size 改 为 2KB， 那 么 推导 可 得 出 每 2 次 上 层 IO 就 
会 对 应 内 核 的 1 次 读 page 和 2 次 写 page 动作 ,图 19-19 给 出 了 结果 ， 惩 罚 倍数 为 2 倍 。 同 理 可 
得 ， 如 果 上 层 IO Size 为 512B， 那 么 惩罚 倍数 将 达到 8 倍 。 


53 sMB 。 Read Andx Requast，FID: 0x3007, 4096 byres at offser O 
57 SM5 。 Read Andx Response，FID; Ox8007, 4096 bytes 

58 SMB 。 write AncM Request, FIn: Ox3007, 4096 bytes at offsat 0 
50 SnB 。 Write Ancx Response, FID: Ox6007, 4096 byres 

全 SMB 。 write nc Request, FID: Ox3007, 4096 bytes zt offsat 0 
人 SMB write Anc Response, FID: 0x8007, 4096 bytes 

55 SMB 。 Read Andx Requast, FID: dxB907, 4095 byres at offser 4096 
59 SMB 。 Read Andx Response, FID: 0x3007, 4096 bytes 

70 SMB write Anc Request, FID; Ox3007, 4096 bytes at offsat 4096 
72 SMB 。 Write Ancx Response, FID: Dx5007, 4095 byres 


hp Mle Mme 全， oxdaey 4 byes et offzet 4095 进程 训 路 各 其他 

分 MB Wte AnEX Reonss, FID: gx007 4090 yees Ee 

TE 38 Naad aNd neouesr, 1D: 68067098 bees 3t oFfser e192 1 [ee a)FP MCAEATE ZA2 Oplons Open WileThough Accexs O0100083 

村 SMB Read Andx Response, FIr ns we Bb ey 74 到 soexe38.. IPP MJ WRITE 2Z\2 Offset 0Length 2048 
She FID; 0x8007， es at offset 75 soewe’3d, IPP-MIREAD" Z\2 Difset OLength 4096 

号 3 下 080073096 bytes RN 

区， 人 se orfser ao oD oe FE MWe Zo oot Diep A 
和 NM 

M7 2p Read And Neausst, FIO: 72007》 A095 byses ar orfser 12268 a 轩 | shew. WRITE 强 Qet Dire 4 
BB Rd And Roopons,, Fes, B2800y, 记 1 hn 

wite ne Keguest, FID 897 4 at offset 12288 8 eg IFPMIAEAD ZA2 Of pee 4096 
Ee as MREADS 

和 
BB Wte Mme Reapenss, E26, 0000y, es MI 

| SMe 于 mg ReQUBST， FID: es es ar offser 16384 86 sio.ene38.,. IFP_MJ_WAITE" 2Z\2 Olfset 4096Length 4096 
Et a 

103 Sue wlte an nedest, FID: Ox8007, 4090 BYEeS ar offser 10384 le ne ol eats 

105 sme 。 write Anc Resporss, FID: 0x8007，4096 bytes 刁 RE 

总 
BB Mite Mme REQpenSs, FES so O800y, a soene38, FP-MI ere 

| SMB es pd RecuesT，FID: es to es at offser 20480 39 sene3 IPP_MJL_WRITE” Z\2 Olfset 8192Length 4096 
Ene Read And Respon 07， 2 

I: 3 Write nc RE OX8007, A096 BES ar orrset 20450 oe de ee ode 

116 SMB write Ancx Response, FID; Ox8007, 4096 es I -en 

3? Sm WTe AnEX RDESE FE3 Oxg007 .4096 byes ar orrser 20480 9 sereaa. IPP-MWWAITE® ZA2 Olfset 12289Lengt 1096 

119 smn wite Ancx Response, FID: 0x6007，4086 byres 99 soene38, IFPMIWAITE  Z\2 Offset 14336 Length 2048 


图 19-19 WT 模式 2KB 写 入 测试 
同 理 还 可 得 ,如 果 程 序 发 起 的 IO Size 为 4KB ,那么 惩罚 倍数 =1, 也 就 是 没有 惩罚 ,如 图 19-20 
所 示 。 如 果 程 序 发 起 page size 也 就 是 4KB 对 齐 的 IO 请 求 , 系统 底层 是 否 还 会 产生 惩罚 ? 可 以 看 
到 系统 底层 并 未 出 现任 何 惩罚 量 。 右 侧 的 监测 记录 也 表示 程序 发 起 的 IO 写 与 内 核发 起 的 IO 写 
一 一 对 应 。 


A9 SNE write Andx Reauest, FID: 
中 SME Write And Responss, FI 
52 SME Write And Reauast, FID: 
别 SME Write And Responss, FI 
56 SME Write And Reauast, FID: 
S58 SME Write And Responss, FI 
50 SME Write And Reauast, FID: 


Dx3001, 4096 bytes ar offset 0 
Ox8001, 4096 byras 
Ox3001, 4096 bytas ar offset 4096 
Ox8001, 4096 byras 
Ox3001, "4096 bytas ar offset 8192 
Ox8001, 4096 byras 

offset 12288 


G1 SME Write Andx Response, FI 
B62 SME Write Andy pequest, FID: 
EA SME Write Ancd pesponse, FI 


OxB0C1, 4096 byres 
Dx3001, "4096 bytas ar offset 16384 
Ox8001, 4096 byres 


BS SNE Wr1te Andl ReoLedt Ox3001, 4096 bytas ar offset 20480 # | 进程 路 径 “其 他 
7 SNE Wr1te Anek Respon Ova00i, 4096 byeas 他 
69 SME Wr1te Ancdx peaues- Dx3001, 4096 bytas at offset 24576 1 三 moe IRP_MJ_CREATE Z\2 Optons: OpenWrteThrough Access 00100083 
70 SME Wr1t® Anch Responss, Fd: Owa0Ci, 4096 byeas 74 SI 和 ee36- IAPM-WAITE ZA2 Oifset OLengh 4096 
有 SME Vr1t® AR Reobest, FID: Dx300l, 4096 byto ac orfset 28672 五 五 2 Oset OLengh 4036 
BN 0 en Peee en 让 
Za SME Mr1T® Ancb REGEST FID: bx3OCL 4096 bya ar affser 32768 -WRITE pe 
TMB Vitis AN Roaponss, FLD: GEOG a000 Pyes 78 SS soe IRP-M-WAITE Z\2 Olfset 4098Lengih 4096 
77 SME Wr1te Ancbe REGEecT FID? DYSDOL 4096 bytos ar offser 36a04 0 SS soe. IAPMIWAITE ZA2 Ottset 8192Lengh 4096 
79 SMB write Andx Responsb, FID: Oxsoai, 4096 byras 8 SS soene38. IRPMIWAITE" Z\2 Offset 6192 Lengl 4096 
0 SMe MriTe A peauest, FID: DR “doge bps ar offser A0000 83 oe IAPMI-WATE ZA2 Olet 12289 Cog 4096 
到 SNE Write Andx Respanss, Fb: DxaoGi，4098 bees WANTE- 
ME A PESDeDt or FB’ R00 "A008 bss ar orraer as0s0 eM soe RPW WANTE ZY Diet T2209Leng DoS 
85 SM Wr {Te andx ReSPOnsb, FID: OxB001, 006 Pyes soene36.. IRP-MI-WAITE = Z\2 Offset 16384 Lenh 4 
BE SME Wr{te andx REGUeST，FID: DxSO0l, 4096 bytes ar offset 49152 87 © soewe36. IRP-MI-WAITE” Z\2 Ofset 16384 Length 4096 
B58 SME WrfTe andx Response, FID: OxBOOL, 4096 bytes 89 soexe3.. IRP MIWAITE Z\2 Offset 20480 Length: 4096 
EI FE03 ,DOOT 4090abiMssvar offser 35248 9 3 WRNE:. 区 04 0 
Se Wr {Te andx ReSPOnSE, FT 409 byres RN Ps 
各 站 A eaeot E00 02800h tttsssac orfser 57344 eo me APM WATE. ZY Oloet ts7Lents 0 和 
Sq4 ME wr{te Andx Response, FID: OxBoOi, 4096 byces ep MI Lengh 
S5 ME Write Andx Reouest, FID: Dx800l, 4096 bytes ac offset 61440 $5 soeme. IRPMIWAITE  Z\2 Offset 29672Lengl 4096 
87 SME Write Andx Response, DxBOCL，4096 byces % 忆 aexe36. IRP_MJ_WRITE” Z\2 Offset 26672 Lenglh 4096 
Sa SME Write andx REGUESt， Ox3001, “4096 bytes at offset 65536 % SS soene. PM WAITE ZA\2 Ofset 32768 Lenglt 4096 
100 3ME .Write Ancb ReSponse, FID: OxB001, 096 byes 8 刁 IRPM-WATE: ZU Olt 22768Le 096 


ct ME Write andx Reouest, FID; Dx300l, 4096 bytes at offset 69632 
03 Me Write Andx Response, FID: OxBoci, 4096 byres 10 3 Soon. IRFMIWAITE Z\2 Offet 36864Lengh 4096 


104 SME = write andx Reouest, FID: Dx300L, 4096 bytes at offset 73728 102 F soewe36.. IRP_MLWRITE” Z\2 Offset 36864 Length 4096 
106 Sn6 write andx Response, FID: OxBOCi, 4096 byces 104 SS soexe36. IRP MI WRITE  Z\2 Offset 40960 Lenqth 4096 


图 19-20 WT 模式 4KB 对 齐 IO 测试 
上 面 的 测试 用 例 全 部 是 连续 地 址 写 入 , 从 结果 也 可 以 判断 , 连续 地 址 写 入 模式 下 , 由 于 会 有 
部 分 IO 缓存 命中 ,所 以 一 定 程度 上 降低 了 惩罚 倍数 ， 惩 罚 倍数 =pagesize/iosize， 最 小 为 1。 下 面 
我 们 设计 另外 的 用 例 来 避免 缓存 命中 ， 看 一 看 此 时 惩罚 倍数 的 变化 。 如 图 19-21 所 示 为 WT 模 
式 下 随机 1KB 写 入 行为 测试 结果 。 可 以 看 到 ， 随 机 模式 下 由 于 缓存 命中 率 几 乎 为 0, 所 以 每 次 程 
序 发 起 的 IO 都 会 导致 内 核 产生 1 个 page 的 读 和 1 个 page 的 写 操作 ，1KB 的 惩罚 倍数 为 7 倍 ， 
同 理 可 得 512B 的 惩罚 倍数 为 15 倍 。 
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49 SMB 。 Read Andx Request, FID: Ox4007, 4096 byres ar offser 581632 
53 SMB 。 Read Andx Response, FID: 0x4007，4096 bytes 

54 SMB 。 Write Andx Request, FID: 0x4007，4096 byres ar offser 581632 

56 SMB 。 write andx Response, FID: Ox4007, 4096 byres 

57 SMB 。 Read Andx Request, FID: Ox4007, 4096 bytes at offset 425984 

61 SMB 。 Read Andx Response, FID: 0x4007，4096 bytes 

62 SMB Write Andx Request, FID: Ox4007, 4096 bytes at offset 425984 

64 SMB 。 write Andx Response, FID: 0x4007, 4096 bytes 

65 SMB [TCP Retransmission] write Andx Response, 4096 bytes 

67 sMB Read Andx Request, FID: 0x4007, 4096 bytes at offset 913408 

71 sMB 。 Read Andx Response, FID: 0x4007, 4096 bytes 8 路 。 其 地 

72 SMB Write Andx Request, FID: Ox4007, 4096 bytes at offser 913408 其 他 

74 SMB Write Andx Response, FID: 0x4007, 4096 bytes IRP_MJ_CREATE © Z\2 Dplions Open WteThiough Access: O0100083 
75 SMB Read Andx Request, FID: Ox4007, 4096 bytes ar offser 630784 IRP-MI-WRITE& Z\2 Offset 584704 Lengh 1024 

79 SMB 。 Read Andx Response, FID: Ox4007, 4096 byres IRP-MI-READ* ~ Z\2 Offset 581632 Length 4096 

80 SMB Write Andx Request, FID: Ox4007, 4096 bytes ar offser 630784 IRP_MJ-WRITE。 ©Z\2 Offset 581632 Lengl 4096 

82 SMB Write Andx Response, FID: 0x4007, 4096 bytes IRP-MI-WRITE & Z\2 Offset 428032 Length 1024 

83 SMB Read Andx Request, FID: Ox4007, 4096 bytes ar offser 647168 IRP-MI-READ* «~ Z\2 Oifset 425984 Lengih 4096 

B87 SMB Read Andx Response, FID: Ox4007, 4096 bytes IRP-MLWRITE。 Z\2 Ofsct 425994 Lonath 4036 

88 SMB Write Andx Request, FID: 0x4007, 4096 bytes ar offser 647168 

90 SMB Write Andx Response, FID: Ox4007, 4096 bytes 

91 SMB 。 Read Andx Request, FID: 0x4007, 4096 byres ar offser 135168 
95 SMB Read Andx Response, FID: 0x4007, 4096 bytes 

SMe wite And Request, FID: Ox4007, 4096 byres at offset 135168 
98 SMB Write Andx Respons 

Me Read Andx Request, FI 


IRP-MI-WRITE CZ\2 Offset 914432 Length: 1024 
IRP-MI-AEAD" ~ Z\2 Offset 913408 Length: 4096 
IRP-MI-WRITE” © Z\2 Offset 913408 Lenglh 4096 
IRP-MI-WRITE CZ\2 Otfset 630784 Length: 1024 
IRP-MI-READ" ~ Z\2 Offset 630784 Lengih: 4096 
IRP-MI-WRITE" ZI\2 Ofset 630784 Lengl 4096 
103 SMB Read Andx Response, IRP-MI-WRITE CZ\2 Offset 647168 Lengih: 1024 
104 MB Wite Anc Keloose! FID: Ox4007 4096 PYLES at offser 638976 IRP-MI-READ" ~ ZI\2 Olfset 647168 Lengl 4096 
106 SMB write Andx Response, FID: 0x4007, 4096 byres IRP MI WRITE。 Z\2 Olfset 647168 Lenah: 4096 


图 19-21 WT 模式 随机 1KB 写 测试 


FID: Ox4007, 4096 
bx4007, ob bytgs ar ofrser bdasyo 
: 0x4007, 4096 bytes 


Sas ssdHds” 
， 


2 ) 追加 写 底层 IO 行为 
在 Windows 系统 中 使 用 测试 工具 从 0 开始 追加 写 一 个 文件 ， 每 次 写 1KB ， 同 步 + 连续 
+BufferedIO 模式 。 结 果 如 图 19-22 所 示 。 


# 请 求 路 。 结果 下 他 FS. WR 人 2 

69 IRP_MJ_CAEATE ZI SUCCESS Options: Open Access 0012019F 222 HE Write AndX Request, FID; 0x400a， 65536 bytes at offset 0 

72 IRP_MJ_WRAITE Z\1 SUCCESS Offset OLength 1024 223 SM6 Write Andx Response, FID: Ox400a, 65536 bytes 

74 FASTIO_WAITE ZN SUCCESS Olfset 1024 Length: 1024 281 SME Write AndX Requesr，F] Ox400a, 65536 bytes at offser 65536 
76 FASTIO_WRAITE Z\1 SUCCESS Offset 2048Length 1024 282 SM6 Wire Andx Response, ); Ox400a, 65535 bytes 

78 FASTIO_WRITE Z\1 SUCCESS Offset pe 330 SME Write Andx Request, F] jx400a,65536 bytes at offser 131072 
80 IRP_MJ_WAITE Z\ SUCCESS Olfset 4096 Length 102 332 SHE Write AndX Response, FID: Ox400a, 655365 bytes 

80 IRP_MJ_WAITE ZI SUCCESS 0ltset 此 处 省 略 千 余 行 Length 1024 382 SHE Write AndX Request, F 400a,65536 bytes at offser 196608 
1094 FASTIOY WRITE Z\1 SUCCESS Offset 523264 Length: 1024 383 SHE Write Mndx Response, Ox400a, 65535 bytes 

1096 IRP_MJ_FLUSH_BUFFERS ZI SUCCESS 450 SHE Write Andx Request, 400a，65536 b ee 六 offser 262144 
1097 IRP_MJ_WAITE”* ZNM SUCCESS Olfset OLength: 65536 4 于 SHE Write AndX Response, FID: Ox400a, 65536 

1098 IRP_MJ_WRITE* Z\1 SUCCESS Offset 65536 Lengl 65536 S10 SWE Write Andx Request, F] ‘400a，65536 上 b\ 点 坟 offser 327680 
1099 IRP_MJ_WRITE" Z\1 SUCCESS Offset 131072Length 65536 S12 SM6 Wite Mndx Response, FID: Ox400a, 65536 bytes 

1100 IRP_MJ_WAITE” ZN SUCCESS Offset: 196508 Length: 65536 560 SM6 Write Andx Request, FID: 0x400a, 65536 b\ ee A offset 393216 
1101 IRP_MJ_WRITE* Z\1 SUCCESS Olfset 262144 Length: 65536 562 SWE Wite AndX Response, FID: Ox400a, 65536 

1102 IRP_MJ_WRITE” QZ SUCCESS Offset: 327680 Length: 65536 630 SM6 write mdX Request, Ox400a,65536 b\ es en offser 458752 
1103 IRP_MJ_WRITE* Z\1 SUCCESS Offiset 393216 Length 65536 631 SME write Andx Response, FID: Ox400a, 65536 bytes 

1104 IRP_MJ_WAITE” ZN SUCCESS Olfset 458752Length: 65536 632 SHE Flush gequest, FID: Ox400a 

1105 IRP_MJ_CLEANUP ZNMI SUCCESS 


图 19-22 以 1KB 为 单位 追加 写 

在 图 19-22 中 ， 左 侧 为 在 操作 系统 底层 过 滤 驱 动 监测 到 的 本 地 IO 行为 ， 右 侧 则 为 CIFS 服 
务 端 检测 到 的 实际 接收 到 的 客户 端 IO。 pe as 程序 确实 以 1KB 为 单位 
不 断 写 入 文件 。 这 里 无 法 看 出 是 追加 还 是 覆盖 , 但 是 我 们 可 以 确定 就 是 追加 ， 因 为 程序 
模式 执行 的 。 由 于 发 生 的 IO 过 多 ， rl 1000 多 行 记录 , 最 终 程序 从 0 写 
了 共 523264+1024=524288B。 随后, 程序 发 起 了 一 个 ELUSH_BUFFER 操作 ， ep 
才 写 入 的 数据 Flush 到 存储 介质 , 当然 这 里 的 存储 介质 其 实 是 CIFS 服务 端 。 所 以 我 们 看 到 操作 系 
统 将 缓存 的 数据 写 了 出 去 ,对 应 左 侧 的 带 星 号 的 记录 , 同时 对 应 了 右 侧 的 632 号 之 前 的 包 。 可 以 
看 到 客户 端 是 以 64KB 为 单位 写 入 CIFS Server 的 。 随后， 系统 内 核发 起 了 一 个 Cleanup 操作 ,这 
个 操作 被 透 传 到 了 CIFS Server 执行 ， 所 以 在 右 侧 可 以 看 到 Server 接收 到 了 Flush Request， 并 在 
数据 成 功 写 入 Server 本 地 磁盘 之 后 ， 返 回 Response。 

综 上 所 述 ，Buffered IO 模式 下 的 追加 写 操作 ， 是 不 会 引发 任何 写 惩罚 的 ， 其 原因 是 因为 待 
写 入 的 部 分 原来 并 不 存在 , 文件 长 度 是 逐渐 增加 的 , 所 以 客户 端 内 核 不 可 能 读 入 一 个 并 不 存在 的 
Page 映射 块 。 追 加 写 模式 下 , 内 核 会 将 写 IO 数据 暂 存 并 做 合并 操作 , 合并 为 更 大 的 IO, 提升 了 
效率 ， 所 以 追加 写 使 用 Buffered IO 会 受益 颇 多 。 
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3 ) 覆盖 写 底层 IO 行为 

我 们 再 来 看 一 下 Buffered IO 模式 的 覆盖 写 对 应 的 底层 行为 。 如 果 文 件 本 身 已 经 有 一 定 尺寸， 
其 长 度 并 不 是 0， 当 覆盖 写 入 其 中 某 些 区 域 时 ， 此 时 因为 内 核 已 经 可 以 将 文件 的 对 应 区 域 映 射 到 
Page Cache 中 了 ， 那 么 就 会 产生 写 惩罚 ， 读 入 Page， 修 改 ， 写 回 。 但 是 Buffered IO 模式 下 的 写 
惩罚 还 是 与 WT 模式 下 有 些 不 一 样 的 地 方 。 
如 图 19-23 所 示 ， 使 用 测试 程序 对 目标 文件 做 从 0 开始 的 覆盖 写 ， 每 次 写 1KB 内 容 , 同步 
+ 连续 +Buffered IO 模式 。 还 是 先 来 看 左 侧 窗口 ， 可 以 看 到 与 WT 模式 相同 ， 产 生 了 写 惩罚 ， 但 
是 与 图 19-6 对 比 ， 结 果 是 有 差异 的 ， 即 本 例 中 只 有 惩罚 读 ， 并 没有 惩罚 写 。 惩 罚 读 的 倍数 与 
WT 模式 下 相同 ， 惩 罚 写 的 倍数 为 1， 即 没有 写 惩罚 。 可 以 看 到 左 侧 带 星 号 的 记录 ， 这 些 写 操作 
都 被 缓存 在 内 核 中 , 当 程序 发 起 一 个 FLUSH_BUFFER 操作 后 , 内 核 将 这 些 数据 合并 为 多 个 Dirty 
Page， 以 64KB ( 16 个 Dirty Page ) 为 单位 ， 发 向 CIFS Server。 右 侧 的 结果 也 对 应 了 这 个 结论 ， 
前 面 是 一 系列 连续 的 读 操 作 ( 省 略 了 近 千 行 ) 而 没有 任何 写 操作 。 而 当 程 序 发 起 FLUSH_BUFFER 
操作 后 ,Server 才 接 收 到 以 64KB 为 单位 的 写 操作 ,然后 又 接收 到 了 FLUSH Request, 这 个 Request 
对 应 了 程序 最 后 所 发 出 的 CLEANUP 操作 。 


计 


# | 请 | 聊 -| 结果 | 其 地 

T111 TIRP_MULCREATE Z\ SUCCESS 0Dpions Open Access 0012019F 

1114 IRP-MI-WAITE Z\ SUCCESS Diset OLeng 1024 

1115 IRP-MI-AEAD" ZN SUCCESS Ofiset OLengh 4096 

1117 FASTIO-WAITE Z\ SUCCESS Ofset 1024 Lenge 1024 

1119 FASTIO-WAITE EM SUCCESS Offset 2049 Lengt 1024 

1121 FASTIO-WAITE Z\ SUCCESS Offset 3072Length 1024 

1123 IRP_MJ-READ" Z\ SUCCESS Offset 4096 Length 4096 

1124 FASTIO-WAITE Z\ SUCCESS Difset 4096 Length 1024 

1126 FASTIO-WAITE Z\ SUCCESS Difset 5120Length 1024 

1128 FASTIO-WAITE Z\ SUCCESS Dllset 6144 Length 1024 

1130 FASTIO-WAITE Z\ SUCCESS Ofiset 7169 Length 1024 

1132 IRP_MU-READ" Z\ SUCCESS Ofset B192 Lengthe 4096 wen 

1133 FASTIO-WAITE Z\ SUCCESS Oiset B192 Length 1024 3 J 

1135 FASTIO-WAITE ZV SUCCESS Offset 9216 Langth 1024 rd We fe ee ee et 

1137 FASTIO-WAITE Z\ SUCCESS Ofset 10240 Length 1024 7 Be Mand A ampeot tt ae offeer Ste006 
SUCCESS Offset 11284 Lengttr 1024 x0003, 4036 
SUCCESS Difset 12299 Lenglht 4096 8 0008 4096 at ofrfser S20102 

r , es 

SE On ee Wite Mex Neguest, FID: 070008 6533 Pyees at offsct 0 
SUCCESS Difset 14336 Length: 1024 + 0008," -有 


it FID: OX0O0g," 08538 hyees at offser 63526 
Write Andx Response, FID: Ox00DS, 65536 
MICe AnGX 本 Se "FTD? Ox0008, "65536 byYes at offset 131072 


SUCCESS Difset 15360 Length: 102 
5UCCESS Offset 此 处 省 略 千 余 行 Length 102 
AI SUCCESS Ofiset 523264 Length 1024 
SUCCESS 
\1 SUCCESS Dffset 0Length 65536 
SUCCESS Offset 65536 Lengt 65536 
SUCCESS Offset 131072 Lengh 65536 
SUCCESS Ditset: 196508 Lengh 65535 
SUCCESS Offset: 262144 Length 65538 
SUCCESS Difset: 327690 Length 65538 
SUCCESS Offset 393216 Length 65538 
2274 IRP-MJ_WARITE Z\ SUCCESS Difset 458752 Length 65536 


图 19-23 以 1KB 为 单位 村 关 写 
读 征 罚 、 写 惩罚 、 惩罚 写 

注意 : 这 里 请 一 定 注意 这 几 个 词 的 区 别 和 用 法 。 读 惩 罚 和 写 惩 罚 是 指 在 程序 发 起 读 操 作 和 

写 操作 的 时 候 , 系统 底层 产生 了 不 必要 的 额外 IO， 要 的 IO 可 能 有 读 , 也 有 写 ， 

产生 的 惩罚 I0 为 额外 读 , 那么 就 叫 惩罚 读 ; 如 果 额 外 的 I0 为 写 , 那么 就 称 惩罚 写 。 比 如 

WT 模式 下 的 不 规则 小 块 写 人 ， 会 产生 写 惩 罚 ， 写 惩罚 里 既 有 惩罚 读 ， 也 有 惩罚 写 。 

从 结果 可 以 判断 ， 内 核 的 智能 有 待 进一步 优化 。 比 如 ， 应 当 暂 存 写 IO 到 一 定 程度 然后 青 判 
断 是 否 需要 读 入 Page， 而 不 是 每 接收 到 一 个 上 层 的 写 IO 就 先 去 执行 Readpage。 如 果 内 核 在 这 方 
面 优化 的 足够 彻底 ， 本 实验 中 是 不 会 产生 任何 惩罚 读 的 。 

对 于 随机 +Buffered IO+ 覆 盖 写 + 小 块 属性 的 写 IO , 由 于 数据 合并 为 连续 的 Dirty Page 的 几率 
非常 小 ,所 以 其 产生 的 惩罚 写 和 惩罚 读 几 乎 相同 ， 与 WT 模式 无 异 。 

对 于 Network IO 来 说 ， 应 用 程序 需要 在 选择 使 用 缓存 和 不 使 用 缓存 方面 谨慎 决定 。 综 上 所 


es 
Mite nk 人 SS 3 bt at offaet 262144 
An pesponse, FLD: ooo: 

Write AndX Request, 0 65338 sat offset 327680 
Write AncX Response, x0008，65536 

Mette an wagest, FI Ox0008, 63336 bps at affser 393216 
Write Ancx Response, 

Mrite An nequest, ee oe 二 at offset 458752 
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述 ， 一 般 情 况 下 使 用 CIFS 时 最 好 使 用 NoBuffer 模式 以 杜绝 任何 读 写 惩罚 ， 并 且 同 时 保证 iosize 
为 4KB 的 整数 倍 , 这 样 可 以 杜绝 从 Client 到 Server 端 整个 IO 路 径 中 的 惩罚 现象 。 仅 仅 在 以 下 情 
训 考 虑 使 用 Buffered IO 模式 : 小 块 连续 读 、 小 块 连续 写 。 至 于 WRITETHROUGH 模式 ,完全 
是 鸡肋 ， 建 议 不 要 使 用 。 
另外 ， 使 用 Network IO 的 程序 还 需要 适当 降低 对 IO 响应 时 间 的 要 求 ， 还 有 ， 在 网 络 异常 
中 断 或 者 服务 端 异 常 重启 之 后 需要 重新 Open0 对 应 的 目标 文件 以 便 获 得 最 新 的 File Handle。 在 其 
他 包括 调用 接口 以 及 程序 设计 等 方面 均 与 本 地 IO 无 异 。 
提示 :Windows 系统 下 的 Network IO 操作 是 由 操作 系统 内 核 的 Network IO Redirector( NIR ) 
完成 的 。Network IO ( NIO ) 相对 本 地 文件 系统 IO ( LIO ) 的 一 个 最 大 不 同 是 NIO 根本 不 需 
要 文件 一 块 映射 计算 ,由 于 NIO 底层 使 用 CIFS 等 协议 ,这 些 网 络 文件 系统 协议 并 不 像 SCSI 
等 块 协议 一 样 规定 IO Size 必须 为 扇 区 倍数 大 小 。 既 然 这 样 ，NIR 就 完全 可 以 透 传 上 层 程 
序 的 I0 请 求 直接 给 CIFS Server 处 理 , 然后 由 CIFS Server 自身 来 做 文件 一 块 映射 运算 。 所 
以 , 在 Client 端 ，NIR 根本 用 不 到 本 地 文件 系统 比如 NTFS 的 块 映射 运算 ， 用 到 的 只 是 本 
地 文件 系统 的 表示 层 ( 见 19.1.2 节 1 ) 功 能 。NIR 管理 着 NIO 层 的 缓存 , 这 个 缓存 使 用 Page 
为 单位 进行 Page In 和 Page Out 操作 ( 见 19.1.4 节 ) 。 如 果 用 户 程序 使 用 Buffered IO 模式 ， 
则 NIR 会 首先 进行 Read Cache Hit 或 者 Cache Write Back 操作 , 如 果 读 未 命中 , 则 进行 Page 
In 操作 读 入 对 应 的 Page。 既 然 涉及 到 Page 操作 , 那么 NIO 对 CIFS Server 的 I0 单位 就 会 
从 原来 的 不 规则 程度 变 为 以 Page 
Size 为 单位 对 齐 规则 长 度 的 IO。 当 
然 , 如 果 用 户 程序 使 用 DIO，, 则 可 以 
完全 越过 系统 内 核 任何 的 Page 
Cache， 在 用 户 缓存 空间 与 NIR 驱动 
之 间 建 立 一 条 直通 路 径 , 这 样 , 程序 
的 不 规则 长 度 IO 就 又 会 被 透 传 到 
CIFS Server 了 。 | 
如 图 19-24 所 示 为 NIR 在 系统 IO Network Transports 
路 径 中 所 处 的 逻辑 位 置 以 及 其 与 内 核 其 
他 组 件 之 间 的 关系 。 2 和 在 夺 半 的 作 抽风 相生 
4) 多 进程 访问 缓存 一 致 性 问题 解决 办 法 : Opportunistic Lock 
本 节 前 文 所 叙述 的 全 部 都 是 在 单 Client 单 进程 访问 目标 文件 时 所 发 生 的 情况 ,而 网 络 文件 系 
统 的 一 个 最 大 好 处 是 可 以 同时 让 多 台 Client 共同 访问 同一 个 文件 ， 当 然 这 不 应 该 算是 个 好 处 , 本 
来 就 是 它 应 该 做 到 的 , 因为 CIFS/NEFS 等 协议 本 身 就 是 本 地 文件 系统 访问 接口 的 一 种 网 络 化 透 传 
实现 方法 。 既然 本 地 文件 可 以 被 多 个 进程 同时 访问 , 那么 网 络 上 的 文件 也 没有 理由 不 可 以 被 多 个 
进程 或 者 多 个 Client 访问 。 涉 及 多 进程 同时 访问 ， 就 一 定 会 涉及 到 缓存 一 致 性 问题 。 
对 于 本 地 文件 的 共享 式 访问 方法 有 多 种 ， 具 体 如 下 。 
ma ”第 一 种 最 普通 ， 就 是 在 Open0 的 时 候 什么 也 不 做 ， 不 使 用 额外 的 参数 ， 默 认 方式 下 ， 
目标 文件 是 可 以 共享 读 写 访问 的 ， 即 可 以 同时 被 多 个 进程 打开 并 读 写 。 显 然 这 样 做 有 
很 大 的 安全 问题 以 及 数据 同步 问题 ， 如 果 使 用 Buffered IO 方式 ， 每 个 进程 都 会 有 自己 
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的 缓存 。 比 如 在 读数 据 的 时 候 ， 内 核 会 将 所 请 求 的 数据 复制 到 用 户 程序 缓存 ， 如 果 有 
多 个 程序 都 读 取 这 个 文件 ， 那 么 每 个 程序 自身 缓存 都 会 被 复制 入 对 应 的 被 请 求 数据 ， 
这 些 缓存 在 用 户 程序 缓存 中 的 数据 随后 可 以 被 程序 多 次 参考 而 无 须 再 向 内 核发 起 读 请 
求 ; 而 此 时 这 个 程序 并 不 知道 ， 可 能 有 其 他 的 程序 早已 修改 了 目标 文件 的 一 些 数 据 ， 
而 这 些 被 修改 的 内 容 并 没有 实时 地 被 更 新 到 自身 的 缓存 中 ， 自 身 正在 参考 的 是 早已 过 
期 的 数据 。 

sa 第 二 种 共享 访问 方法 高 级 一 些 ， 程 序 在 Open0 目 标 文件 的 时 候 可 以 指定 Share Mode， 
比如 不 允许 其 他 进程 对 目标 文件 进行 读 、 写 、 读 或 号 、 删 等 操作 ， 相 当 于 对 目标 文件 
加 了 一 个 全 局 锁 。 这 样 ， 加 锁 的 程序 就 可 以 肆 无 总 恒 地 在 程序 自身 缓存 空间 对 文件 进 
行 读 或 者 写 缓存 而 不 用 担心 其 他 人 中 途 对 文件 进行 修改 。 

m ”第 三 种 更 高 级 ， 由 于 全 局 锁定 一 个 文件 会 导致 其 他 进程 根本 无 法 访问 文件 的 任何 部 分 ， 
有 了 时候 某 个 程序 只 是 想 要 更 改 文件 中 的 一 小 部 分 地 址 上 的 数据 ， 此 时 程序 可 以 使 用 内 
核 提 供 的 Lockfile0 功 能 ， 对 文件 进行 以 字 节 为 单位 的 而 不 是 整个 文件 的 锁定 ， 想 要 操 
作 哪 些 字 节 段 ， 就 加 锁 哪 些 字 节 段 。 多 个 程序 可 以 共同 加 锁 一 个 文件 不 同 的 字 节 段 ， 
加 锁 后 的 字 节 段 可 以 复制 到 程序 缓存 进行 读 写 , 然后 适当 时 刻 批量 向 内 核发 起 IO 请 求 
以 永久 保存 到 底层 存储 介质 ， 这 样 效率 就 有 了 整体 提高 。 

m 第 四 种 最 高 级 , 程序 可 以 使 用 mmap0 功 能 来 将 目标 文件 映射 到 程序 自身 缓存 但 是 并 不 复 

制 其 内 容 ， 程 序 针对 映射 缓存 的 读 写 就 等 于 读 写 了 目标 文件 。 多 个 程序 如 果 都 使 用 这 种 

mmap0 功 能 进行 共享 映射 ,那么 日 标 文件 在 任何 时 刻 只 有 一 份 复制 , 处 于 系统 内 核 当中 ， 

任何 用 户 程序 在 任何 时 刻 所 看 到 的 文件 内 容 都 是 一 样 一 致 的 ， 在 mmap0 的 基础 上 ,程序 
依然 可 以 使 用 Lockfile0 来 对 文件 进行 Byte Range 加 锁 以 排 开 其 他 进程 的 访问 。 
a ”第 五 种 ， 也 就 是 将 要 介绍 的 Oplock， 见 下 文 详 述 。 
缓存 和 数据 一 致 性 有 多 个 层次 , 有 时 序 上 的 一 致 性 ( 保证 每 个 程序 所 读 入 的 都 是 最 新 的 源 数 

据 ) ,也 有 逻辑 上 的 一 致 性 ( 保证 多 个 进程 轮流 对 某 一 区 域 进行 更 改 而 不 是 同时 并 行 写 入 ) 。 只 

有 Lockfile0 才 能 够 保证 最 高 级 别 的 一 致 性 , 即时 序 和 逻辑 上 共同 的 一 致 性 。 也 就 是 说 同一 个 文件 

的 同一 个 区 域 , 任何 时 刻 只 能 有 1 个 进程 对 其 做 写 入 操作 , 多 个 进程 同时 对 同一 区 域 写 入 时 ， 必 

须 轮流 串 行 地 进行 。 既 然 多 个 进程 访问 同一 个 文件 区 域 , 那么 这 多 个 进程 一 定 都 知道 自己 在 做 什 

么 ， 谁 先 谁 后 都 是 进程 之 间 决 定好 的 ,如 果 本 来 应 该 后 写 入 的 进程 却 先 写 入 了 , 那么 后 来 的 写 入 

就 会 覆盖 之 前 的 数据 ,造成 膛 辑 上 的 不 一 致 。 如 果 不 使 用 Lockfle0， 如 果 进 程 之 间 通 过 另外 的 机 

制 来 实现 串 行 写 入 ,也 是 可 以 的 ， 但 终究 不 保险 。 而 对 于 使 用 共享 式 mmap0 进 行文 件 访问 的 多 

个 进程 ,虽然 此 时 可 以 保证 读 时 序 上 的 一 致 性 , 但 如 果 不 使 用 Lockfile0, 一 样 也 无 法 保证 写 逻 辑 

上 的 一 致 性 。 
而 对 于 网 络 文件 系统 , 同样 需要 解决 多 客户 端 访问 同一 个 目标 时 的 缓存 一 致 性 问题 。 网络 文 

件 系 统 的 处 理 方法 基本 上 就 是 本 地 文件 系统 处 理 方法 的 透 传 。 网 络 上 每 个 Client 端 内 核 的 NIO 

层 缓存 就 相当 于 使 用 本 地 文件 系统 IO 时 单 台 机 器 上 每 个 应 用 程序 自身 的 缓存 ， 而 对 于 CIFS 

Server 端 来 说 ,每 个 Client 端 就 仿佛 是 一 个 用 户 程序 , 这 些 程序 所 发 送 的 文件 操作 请 求 会 由 Server 

端的 NIR 模块 翻译 为 针对 Server 端 本 地 文件 系统 的 请 求 。CIFS 协议 其 实 本质 上 是 将 大 部 分 本 地 

文件 系统 的 操作 API 翻译 封装 到 网 络 数据 包 里 了 。 

CIFS 协议 处 理 多 客户 端 共享 同一 目标 文件 的 方法 包含 了 上 文 描述 的 四 种 。 第 一 种 就 是 没有 
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任何 限制 的 自由 访问 模式 , 这 种 模式 下 根本 不 能 保证 缓存 一 致 性 。 第 二 种 也 就 是 ShareMode 模式 
全 局 锁 ， 当 Client 端 程序 在 Open0 时 指定 这 个 参数 内 容 之 后 ，CIFS 协议 会 将 这 个 信息 放 到 网 络 
数据 包 中 传递 给 Server 端 ，Server 端 NIR 驱动 解析 之 后 做 对 应 的 处 理 动作 ， 安 全 透 传 程序 的 请 
求 给 Server 端 ,如 图 19-25 所 示 为 一 个 CIFS 协议 的 Open0 操 作 数 据 包 内 表示 ShareMode 的 字段 ， 
可 以 看 到 这 个 程序 允许 其 他 程序 对 目标 进行 读 和 写 但 是 不 允许 删除 操作 。 


RATIOCaCTOT 

图 File Attributes; Dx00000000 

Share Access: 0x00000003 SHARE_WRITE SHARE_READ 
ey ee i 


.= nelere: Object can NoT be shared for delere 
“1. ~ Write: object can be shared for wRITE 
1 = Read: Object can be shared for READ 


图 19-25 Share Mode 字段 


第 三 种 为 Byte Range Lock 方法 ,程序 对 某 个 ” 醋 ; 一 一 
远程 文件 发 起 Lockfile0 操 作 之 后 ，CIFS 协议 完全 。 Be 一 一 一 
透 传 这 个 请 求 给 Server 端 。 如 图 19-26 所 示 为 一 acsss zol 3279 
个 程序 发 起 的 Lockfile0 请 求 被 封装 在 数据 包 之 后 ie MOONS 
的 表示 , 可 以 看 到 这 一 个 数据 包 中 包含 了 三 段 字 节 ee 
锁 , 每 个 长 度 都 是 1B, 这 是 用 MS Office 程序 打开 wa MS 
一 个 Word 文档 时 抓 取 的 ， 被 锁 的 1B 看 来 是 文档 一 process 10; 65279 
中 的 关键 字 节 。 ee: ees 

第 四 种 方式 ， 也 就 是 任何 时 刻 ， 目 标 文件 只 图 19-26 字 节 Lock 字段 
有 一 个 副本 ，CIFS 方式 下 要 做 到 这 一 点 , 唯 有 让 所 有 访问 这 个 目标 文件 的 程序 都 使 用 DIO 模式 


打开 ， 这 样 所 有 程序 所 做 的 更 改 都 会 即刻 被 体现 到 CIFS Server 端 内 核 缓存 中 。 这 样 的 话 就 可 以 
保证 Server 端 任何 时 刻 只 保存 目标 文件 的 一 份 复制 ， 在 Server 端 内核 之 外 没有 任何 缓存 的 数据 。 

网 络 IO 与 本 地 IO 最 大 的 一 个 不 同 就 是 本 地 IO 的 调用 处 理 过 程 都 发 生 在 内 存 中 , 只 有 底层 
数据 块 读 写 发 生 在 比较 慢 速 的 存储 介质 处 ， 而 网 络 IO 过 程 的 调用 处 理 过 程 本 身 需要 通过 慢 速 网 
络 发 送 到 Server 端 处 理 ， 实 体 数据 的 读 写 也 要 经 过 同一 个 网 络 ， 相 对 于 本 地 IO 来 讲 效率 是 比较 
低 的 。 既 然 这 样 , 如果 在 客户 端 使 用 缓存 则 会 大 大 降低 一 些 不 必要 的 网 络 传输 但 是 却 无 法 保证 组 
存 一 致 性 。 当 然 ， 如 果 程 序 都 使 用 Lockftile0， 那么 不 会 有 任何 问题 ， 即 使 缓存 在 客户 端 也 不 会 出 
现任 何不 一 致 情 况 ( Lockfle0 之 后 ， 缓 存 依然 不 允许 Write Back， 只 人 允许 Read Ahead Hit) ,但 
是 不 是 任何 程序 都 去 考虑 字 节 锁 的 ， 有 些 程序 不 需要 逻辑 上 一 致 ， 而 只 需要 在 时 序 上 一 致 即 可 。 
使 用 DIO 模式 更 加 直截了当 地 避免 了 时 序 一 致 性 问题 ， 但 同时 可 能 增加 网 络 流量 。 不 想 加 锁 又 
要 同时 实现 客户 端 本 地 缓存 ， 还 要 保证 时 序 上 的 一 致 性 ， 似 乎 挺 复杂 。 

面 对 这 种 情况 ， 内 核 提 供 了 另外 一 种 独立 的 缓存 一 致 性 管理 方法 ， 称 为 Opportunistic Lock 
( Oplock ) ， 强 行 翻 译 过 来 就 是 机 会 锁 ， 当 然 也 可 以 叫 它 撞 大 运 锁 。Oplock 为 Windows 内 核 的 功 
能 , 而 并 不 局 限于 网 络 IO, 多 个 进程 本 地 IO 也 可 以 使 用 Oplock 来 申请 程序 自身 缓存 一 致 性 保证 。 

试想 ， 如 果 某 个 时 刻 只 有 一 个 CIFS 客户 端 打 开 文 件 进行 操作 而 其 他 客户 端 都 没有 打开 这 个 
文件 ， 那 么 此 时 这 个 文件 的 内 容 可 以 被 缓存 在 这 个 客户 端 上 ， 可 以 Read Hit 也 可 以 Write Back， 
不 存在 缓存 一 致 性 问题 。 

而 如 果 在 这 个 客户 端 尚未 Close0 这 个 文件 之 前 , 另 有 一 个 客户 端 也 向 Swerver 发 起 针对 这 个 文 
件 的 Open0 请 求 , 那么 Server 端 必须 通知 第 一 个 打开 这 个 文件 的 客户 端 将 其 缓存 中 的 Dirty Page 全 
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部 Flush 到 Server 端 ， 因 为 有 另外 的 人 要 看 ， 需 要 最 新 的 数据 。 同 时 第 一 个 客户 端 也 被 告知 它 将 不 
再 允许 Write Back ( 每 次 写 都 需要 直接 将 数据 发 向 Server 端 ， 类 似 DIO 模式 ) ， 而 Read Hit 还 是 
可 以 的 , 因为 第 二 个 客户 端 此 时 并 没有 向 文件 中 写 入 任何 内 容 , 第 一 个 客户 端 缓 存 中 的 数据 依然 是 
最 新 的 。 随 后 ， 客 户 端 2 打算 向 文件 中 写 入 内 容 ， 那么 在 写 入 内 容 之 前 ，Server 会 通知 第 一 个 客户 
端 其 缓存 全 部 作废 , 因为 客户 端 2 已 经 发 起 了 写 操作 , 已 经 不 能 保证 客户 端 1 的 缓存 中 都 是 最 新 的 
数据 了 ， 客 户 端 1 接 到 这 个 通知 后 的 IO 行为 会 转变 DIO 模式 ， 完 全 Bypass 掉 内 核 的 缓存 了 。 
同样 ， 客 户 端 2 从 一 开始 就 以 DIO 模式 行动 了 ， 因 为 此 时 已 经 有 两 个 客户 端 同时 读 写 同一 个 
文件 ， 任 何 一 方 也 不 能 保有 缓存 ， 双 方 均 以 DIO 模式 运行 ( 一 种 情况 除外 ， 就 是 如 果 某 客户 端 向 
Server 申请 了 Lockfile0 字 节 锁 ， 则 对 应 的 字 节 段 可 以 被 读 缓存 ， 但 依然 不 能 被 写 缓存 ) 。 以 上 这 种 
思想 就 是 Oplock 的 设计 思想 , 即 Oplock 充分 保证 在 只 有 一 台 客 户 端 打开 文件 的 时 候 能 够 给 其 充分 
的 缓存 自由 , 一 旦 有 其 他 客户 端 打开 文件 , 但 是 没有 做 写 入 操作 时 , 所 有 客户 端 都 有 保有 Read Hit 
缓存 也 就 是 读 缓存 的 自由 ， 一 旦 某 个 客户 端 尝试 写 入 文件 了 ， 那 么 所 有 人 的 读 缓存 自由 也 被 剥夺 ， 
全 部 以 DIO 模式 运行 。 所 以 称 其 为 撞 大 运 锁 ， 如 碰巧 你 是 第 一 个 来 的 ， 那 么 你 就 能 获得 缓存 ， 如 
果 再 有 人 来 ,对 不 起 ， 写 缓存 剥夺 ， 如 果 其 他 人 也 要 写 , 对不起， 所 有 人 都 别 缓存 了 。 
注意 :一 切 Write Back 缓存 在 没有 电池 保护 的 内 存 的 情况 下 均 会 导致 Down 机 之 后 的 数据 丢 
失 ，Network I0 的 缓存 也 不 例外 。Oplock 只 能 保证 数据 时 序 一 致 性 ， 不 能 保证 数据 不 丢失 。 
Oplock 在 Windows 7 之 前 的 操作 系统 有 4 种 ，Windows 7 开始 增加 了 4 种 。 这 里 只 介绍 前 
4 种 中 的 3 种 : Batch Oplock()、Exclusive/Levell Oplock( RW Lock ) 、Level2 Oplock( ReadOnly 
Lock ) ， 第 4 种 也 就 是 Filter Oplock 不 做 介绍 ( 因为 笔者 也 没 读 懂 它 的 具体 规范 ) 。 
注意 : Oplock 的 申请 是 由 Network Redirector 自行 向 CIFS Server 端 进行 的 ， 一 般 在 用 户 程 
序 调用 Open0 时 ，NIR 会 自动 在 发 向 CIFS Server 端的 Open 请 求 包 中 请 求 Batch+Exclusive 
的 Oplock, Server 在 应 答 包 中 给 出 审批 结果 , 客户 端的 NIR 根据 结果 来 判断 是 否 使 用 缓存 、 
读 写 还 是 只 读 缓 存 。 
然而 ， 用 户 程序 也 可 以 主动 发 起 Oplock 申请 ， 不 过 只 能 够 在 打开 本 地 文件 时 才 可 以 ,也 
就 是 说 Oplock 在 多 进程 共同 访问 同一 个 本 地 文件 时 也 可 用 。 但 是 要 注意 一 点 ， 申 请 本 地 
文件 Oplock 时 ,用 户 程序 必须 使 用 异步 10 方式 打开 文件 ， 因 为 锁 的 申请 和 批准 以 及 断 锁 
通知 过 程 必须 使 用 异步 通知 机 制 。 本 地 Oplock 的 申请 和 批准 过 程 都 是 在 本 地 内 存 中 进行 
的 。 网 络 Oplock 则 需要 将 信息 通过 网 络 发 送 到 Server 端 申请 。 
客户 端 程序 直接 申请 CIFS Server 上 文件 的 Oplock 是 不 被 允许 的 , NIR 会 自动 为 程序 申请 。 
(1 ) Exclusive/Levell Oplock 
申请 到 这 种 锁 的 客户 端 可 以 进行 Read Ahead/Hit 以 及 Write Back 模式 的 缓存 ， 读 和 写 都 可 
以 在 本 地 缓存 内 进行 ， 在 适当 的 触发 条 件 下 ，Dirty Page 才 会 被 批量 Flush 到 CIFS Server 端 ， 节 
约 了 不 必要 的 网 络 流量 。Exclusive Oplock 又 被 称 为 Levell Oplock。 
(2) Level2 Oplock 
相对 于 Levell Oplock， 这 种 Lock 在 效果 上 下 降 了 一 级 。 如 果 客 户 端 申 请 到 的 是 这 种 Lock， 
则 表示 目前 有 多 个 客户 端 同时 打开 了 目标 文件 , 但 是 并 没有 客户 端 尝试 修改 这 个 文件 , 所 以 所 有 
客户 端 都 可 以 保有 读 缓存 ， 缓 存 中 的 内 容 与 Server 上 目标 文件 的 内 容 一 致 。 
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(3 ) Batch Oplock 
申请 到 这 种 Lock 的 客户 端 是 最 幸运 的 ， 因 为 不 仅 读 和 写 等 操作 可 以 在 客户 端 本 地 缓存 中 执 


行 , 就 连 Open0、Close0 都 可 以 在 本 地 执行 。 一 些 批 处 理 脚 本 经 常会 在 执行 脚本 的 每 一 行 时 都 对 


目 


Ol 


而 


标 进 行 打 开 操作 ,执行 完 后 就 关闭 ,然后 在 执行 下 一 行 时 再 次 打开 关闭 ， 如 果 批 处 理 脚 本 有 太 
多 行 ， 每 次 打开 关闭 操作 就 会 耗费 太 多 不 必要 的 网 络 流量 。Netwrok Redirect 在 申请 到 Batch 
plock 之 后 , 用户 程 序 每 次 针对 目标 文件 的 打开 和 关闭 操作 不 会 再 被 发 送 到 CIFS Server 端 处 理 ， 
是 由 NIR 拦截 并 擅自 做 了 响应 。Batch Oplock 在 级 别 上 与 Levell Oplock 相同 ， 只 不 过 后 者 不 


能 缓存 Open0 和 Close0。 


(4 ) Oplock 申请 与 批准 过 程 示例 
这 里 只 举 出 Batch Oplock 申请 和 批准 交互 实例 ,对 于 Exclusive Oplock 的 交互 过 程 相 比 Batch 


Oplock 除了 在 客户 端 Open0 Close0 时 必须 发 送 到 Server 端 之 外 ,其 他 没有 任何 区 别 。 如 图 19-27 
所 示 为 几 轮 Oplock 申请 和 批复 的 动作 流程 。 


Client A Client B Server 
人 1 3 IE > 
5 <- Open OK. Batch oplock granted 
纺 RR 昌 8 二 二 一 一 一 一 一 二 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 一 = > 
4. <- Read data 
5. <close>、<open>、<seek>、<close> 
性 Open("test") Read ACCeOsse===—====> > 
和 <- Batch Oplock break to A and grant Level2 Ee 
8 /CIOSB=- = 
9 <- Close OK to A 
2 <- Open OK to B and grant Batch 人 
1: Onen( test Write Flagl sat = 
二 25 <- Batch Oplock break To B (now B has no re 
Se EL i ee 2 
14. <- Open OK to A with no Oplock 


图 19-27 0plock 申请 和 批准 过 程 
@ 客户 端 A 向 服务 端 发 起 Open0 请 求 打开 文件 “test”， 并 同时 申请 Batch Lock。 
@ 由 于 目前 客户 端 A 是 唯一 一 个 请 求 打 开 这 个 文件 的 客户 端 , 所 以 服务 端 把 Batch Lock 给 
客户 端 A。 
@ 客户 端 A 发 起 读 请 求 。 
@ 服务 端 返回 读 请 求 的 数据 ， 这 些 数 缓存 在 客户 端 A， 随 后 针对 同 地 址 的 读 请 求 可 以 不 必 
发 向 服务 端 。 同 样 ， 写 请 求 也 不 必 立 即 发 向 服务 端 。 
@ 客户 端 A 随后 对 这 个 文件 进行 的 Open0 、Close0 、Seek(0 等 操作 全 部 可 以 在 缓存 中 执行 ， 
由 Network IO Redirector 向 程序 返回 成 功 响应 ， 不 再 发 向 服务 端 。 
@ 客户 端 B 向 服务 端 发 起 Open0 请 求 打开 “test” 文 件 ， 在 Open0 请 求 的 Access Mask 中 并 
没有 指定 任何 写 Fag， 只 有 读 Flag， 同 时 也 在 请 求 中 申请 Batch Lock。 
@ 服务 端 暂 挂 对 B 的 响应 ,首先 发 送 一 个 Lock Break 请 求 数据 包 给 A， 并 在 这 个 数据 包 中 
通知 将 锁 降级 为 Level2 Oplock。( 如 果 步 又 @ 中 的 打开 操作 指定 了 任何 与 写 相关 的 Flag， 
则 本 步 中 只 会 Break Lock 而 不 会 同时 灌 以 Level2 Lock。 ) 
客户 端 A 接收 到 Lock Break 通知 后 ， 如 果 当 前 这 个 文件 处 于 打开 状态 ， 并 未 Close， 则 
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客户 端 A 会 将 Write Back 缓存 里 的 Dirty Page 写 入 Server， 然 后 向 服务 端 回应 一 个 Lock 
Break 响应 包 , 或 者 不 回复 响应 包 而 直接 向 服务 端 发 起 Close0 ,根据 程序 设计 决定 。Close0 
之 后 就 不 会 保有 目标 文件 的 任何 缓存 了 。 如 果 A 接收 到 Lock Break 通知 时 ， 目 标 文件 已 
经 处 于 Close 状态 ， 由 于 Batch Lock 模式 的 缓存 不 会 将 之 前 的 Close0 发 送 给 服务 端 ， 所 
以 接收 到 Lock Break 通知 后 需要 由 Network IO Redirector 向 服务 端 再 发 起 一 个 Close() 
操作 以 表示 接受 。 
@ 本 例 选 择 了 步骤 @) 里 的 第 二 种 情况 ，A 发 送 Close0， 服 务 端 返 回响 应 。 
四 服务 端 继续 处 理 步 又 @ 中 和 暂 挂 的 对 B 的 响应 ， 将 响应 发 送 给 B。 由 于 A 已 经 在 步骤 8) 
中 Close 了 目标 文件 ， 所 以 当前 只 有 B 一 个 人 预 打开 这 个 文件 ， 所 以 服务 端 在 响应 中 灌 
以 Batch Lock 给 B。 

@ 客户 端 A 再 次 发 起 Open0 请 求 打开 目标 文件 ,并 在 请 求 中 置 了 写 相 关 Flag, 同 时 请 求 Batch 
Oplock。 

@ 服务 端 暂 挂 A 的 请 求 ， 同 时 发 送 一 个 Lock Break 通知 给 B， 通 知 中 并 没有 将 锁 降 级 为 
Level2 Oplock， 因 为 当前 A 的 Open0 请 求 中 有 写 入 期 望 。 

@ B 接收 到 断 锁 通 知 后 执行 Dirty Page Flush 操作 ， 然 后 可 以 返回 一 个 Lock Ack 给 服务 端 
(Lock Ack 基本 上 是 Lock Break 数据 包 的 复制 ) ， 或 者 干脆 发 送 一 个 Close0 给 服务 端 表 
示 不 再 操作 这 个 文件 。 

@ 服务 端 继续 处 理 A 的 暂 挂 Open0 请 求 。 如 果 上 一 步 中 客户 端 B 以 Close0 回 应 , 则 响应 中 
会 灌 以 Batch Lock 给 A; 如 果 上 一 步 客 户 端 B 以 Lock Ack 回应 ， 则 表明 B 尚未 关闭 目 
标 文 件 ， 那 么 针对 A 的 响应 就 不 会 灌 以 任何 Oplock。 

如 图 19-28 所 示 为 另外 一 个 Oplock 交互 过 程 。 其 中 在 客户 端 C 发 出 Open0 之 前 ，A 和 B 
都 已 经 拥有 了 Level2 Oplock。 但 是 客户 端 C 的 带 有 写 Flag 标记 的 Open0 操 作 将 一 切 美梦 打 碎 ， 
服务 端 强行 收回 了 A 和 B 的 Oplock，C 自身 也 没有 得 到 任何 Oplock， 最 终 所 有 客户 端的 IO 请 
求 都 被 透 传 到 服务 端 执 行 。 


Client A Cli 


t B Client C 


-> 
Open OK. Batch oplock granted 

3. Read--------- 一 --- 一 --- 一 --- 一 --- 一 ------------------------------- > 
4. <- Read data 
5. <close>、 <open>、 <write> (Local Operation) 
6. Open("test") Read Rccess 一 --- 一 -一 -一 一 -一 -一 业 
和 <- Batch Oplock break to A and grant Level2 Oplock 
Ba Wellbs Dey Dee > 
9 <- Write OK to A 
10. Weite Drty DACA > 
1 <- Write OK to A 
人 > 
Wy <- Open OK to B and grant Level2 Oplock 
14. Open("test") Write Rccess--- 一 --- > 
15. <- Level2 Oplock break To A 
16. <- Level2 Oplock break To B 
Ey <- Open OK to C with no Oplock 


图 19-28 0plock 申请 和 批准 过 程 
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注意 : 针对 Level2 Oplock 的 断 锁 通 知 ， 服 务 端 都 不 会 要 求 Lock Ack。 而 针对 其 他 类 型 的 

Oplock 的 断 锁 通知 ， 服 务 端 都 要 求 一 个 Lock Ack 或 者 Close0。 因 为 Level2 Oplock 所 缓存 

的 都 是 源 文件 尚未 改变 的 信息 ， 通 知 发 过 去 之 后 可 以 不 再 理会 。 但 是 其 他 类 型 的 Oplock 

缓存 中 可 能 有 尚未 Flush 的 Dirty Page， 所 以 ,在 客户 端 Flush Dirty Page (一 个 或 者 多 个 

Write0 请 求 ) 之 后 ， 服 务 端 一 定 还 需要 一 个 Lock Ack 来 感知 客户 端 已 经 完成 了 所 有 Dirty 

Page 的 Flush 工作 ， 然 后 才 会 继续 处 理 其 他 客户 端的 Open0 请 求 。 

如 图 19-29 所 示 为 一 轮 Oplock Break 过 程 的 4 个 数据 包 。1.1.1.3 (A ) 这 台 客 户 端 已 经 打开 
了 服务 端 1.1.1.1 上 的 1.rar 这 个 文件 并 取得 了 Batch Oplock, 随后 ,1.1.1.2 (B ) 也 发 起 打开 请 求 ， 
我 们 的 数据 包 Trace 过 程 从 这 里 开始 。 


厅 寺 - 协 访 。 导电 福 m 日 的 


和 Locking Andx Requast, FID: Ox0008 TE 和 
180 Swe Locking andx Request, FID; 0x0005 人 全 伯 雪 全 全民 
181 Sp NT creare Andx Response, FID: 0x400a FR NN 件 俐 作 汪 什 


序号 , 协议 “信息 2 re 
178 SVB NT Create Andx Raquest, FID: Ox4003, path: \i.rar 1.2.2 1.1.1.2 


SMB Locking AndX Request, FID: 0xt 字 和 这 
181 SMB NT Creare Andx Response, F1D: Ox400a 二 关 共生 站 一 也 和 


Ee pe 
~ Large Files: Large file locking format not requested 
= Concel: Dont cancel outstanding Tock reqvest 
= henge: /Dons change ock yp 
Ki nti nopl oek break notificarion/response 
~ Shared: This 15 an rare Tock 


麻 号 , 协议 信息 I 

RE3 Andx ee FID: Ox400a, path: \1.rar FE 全 

179 SM8 Locki ID: Ox0008 .1 
1.111 


181 SMB NT Create AndX Response, FID: Ox400a 
ea Tr 
~ Large Files: Large Tile 1ocking formar fg 


S Elah ene Eee 
= change; pon't change lock typ 

> opTonk mreak: hls fs an opYDek break notification/response 
~ Shared; This is an exclusive lock 


序号 . 协 沈 信息 

了 SNe MT Greate Mme Request, Fi0; Oad00e, Paths VI.rar 
9 SMB Locking Andx Request, 

130 SME Locking Andx Request FE 80 


NT Create Andx Response COxa2) 
Word Count (wcT): 42 
Andxcommand: No further commands (OxfFF) 
Raserved: 00 
Andxoffset: 135 


图 19-29 0plock 申请 和 批准 过 程 实际 数据 包 交互 

在 178 号 数据 包 中 我 们 可 以 看 到 这 个 Open0 请 求 ( CIFS 协议 中 Create0 与 Open0 使 用 同一 类 
数据 包 ) 中 明确 请 求 Batch Oplock ( 包 中 没有 与 写 相关 的 Fag， 图 片 未 截 出 ) 。 但 是 由 于 A 已 经 
打开 这 个 文件 尚未 关闭 ， 所 以 服务 端 需要 首先 向 A 发 送 一 个 Lock Break 请 求 ， 反 映 在 179 号 包 
中 (注意 被 置 1 的 Fag 含 义 ) 。 

注意 : 请 注意 加 亮 的 字段 ，“Oplock Level Level 20plock currently held by client (1)”， 意 思 

也 就 是 原来 是 Batch Oplock， 服 务 端 要 求 A 降级 为 Level2 Oplock。 由 于 Break 的 是 Batch 

Oplock， 所 以 服务 端 需要 等 待 A 的 回应 。A 的 回应 反映 在 180 号 包 中 。 可 见 中 途 并 没有 发 

生 A 向 服务 端的 Write0, 证 明 A 自从 打开 文件 之 后 并 未 对 其 进行 任何 修改 。180 号 包 是 一 

个 Lock Ack 包 ( 内 容 基 本 都 是 Lock Break 包 的 复制 ) 而 不 是 Close 包 , 证 明 A 此 时 还 不 想 
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Close0， 所 以 服务 端 只 能 对 B 也 灌 以 Level2 Oplock。181 号 包 为 服务 端 对 B 的 响应 ， 注 意 
加 亮 的 字段 : “Level IOplock Granted (3) ”。 


(1 ) 或 者 (3 ) 不 表示 数量 ， 而 是 字段 值 ， 根 据 协议 规定 ， 每 个 值 代 表 一 种 Oplock Level。 


Lock Break 通知 /应 答 信息 与 Lockfile0 字 节 锁 信息 被 封装 的 数据 包 使 用 的 是 同一 种 数据 包 

即 SMB_COM_LOCKING_ANDX,， 在 图 19-23 中 所 示 的 是 这 个 数据 包 中 最 后 的 部 分 字段 ， 

这 个 字段 包含 了 字 节 锁 的 偏 移 量 和 长 度 。 在 图 19-25 中 所 截取 的 则 是 这 个 数据 包 另 外 的 字 

段 ， 这 个 字段 给 出 了 当前 Oplock 的 操作 信息 。 

5 ) 关于 Oplock Break 过 程 的 一 些 细节 

在 确定 是 否 Break 掉 Level2 lock 之 前 , Server 需要 谨慎 判断 , 尽 可 能 地 不 Break。 比如 , Server 
首先 检查 目标 文件 的 Share Mode， 如 果 第 一 个 客户 端 Open0 时 不 允许 其 他 客户 端 写 入 而 只 允许 
读 ， 那 么 等 于 给 文件 加 了 全 局 锁 ， 此 时 如 果 有 其 他 进程 尝试 打开 这 个 文件 而 Open0 时 在 Access 
Mask 中 指定 了 某 项 写 操作 Flag， 那 么 Server 就 不 会 允许 这 个 Open0 操 作 ( 返回 一 个 共享 冲突 错 

， 从 而 也 不 会 去 Break 第 一 个 客户 端的 Exclusive Lock 或 者 Level2 Oplock ( 虽然 协议 是 这 样 
RN 但 是 另外 的 根据 实验 结果 判断 ， 实 际 至 少 在 WinXP 系统 并 未 这 么 做 ， 而 是 掠 过 检查 
ShareMode 直接 Break 其 他 客户 端的 Levell 或 者 Batch 锁 ) 。 

如 图 19-30 所 示 ， 图 中 显示 了 Open0 数 据 包 中 包含 的 Access Mask 的 一 系列 Flag; 而 如 果菜 
个 客户 端 在 Open0 时 只 附带 了 只 读 Flag, 那 么 Server 不 但 不 会 Break 其 他 客户 端的 Level2 Oplock， 
同时 也 会 给 这 个 客户 端 灌 以 Level2 Oplock， 但 是 如 果 已 用 拥有 Level2 Oplock 的 任何 客户 端 发 起 
了 写 请 求 ， 那 么 Server 会 立即 剥夺 所 有 客户 端的 任何 形式 的 Oplock。 


掺 导 . 协议 信息 [Ld 


日 share Access: 0x00000001 SHARE_READ 


= oelete: object can wor be shared for delere 
— write: object can NOT be shared for wri 
ss os ooon ens so 1 = Read: Object can be shared for ee 


图 19-30 Share Mode 对 Lock Break 过 程 的 影响 
另外 , 在 赋予 某 个 客户 端 Level2 的 时 候 , Server 端 不 会 检查 当前 其 他 已 经 Open0 目 标 文件 之 
后 的 客户 端 之 前 在 Open0 时 是 否 指定 了 Write 相关 的 Flag。 一 般 情 况 下 Server 端 在 Break Levell 
Oplock 之 后 都 会 在 Break 的 同时 赋予 Level2 Oplock， 而 且 对 于 新 执行 Open0 操 作 的 客户 端 也 会 
赋予 Level2 Oplock ( 有 其 他 客户 端 已 经 打开 目标 的 时 候 ， 否 则 会 直接 赋予 其 Levell Oplock ) ， 
但 是 一 旦 服务 端 发 现 随后 有 任何 客户 端 ( 包括 当前 拥有 Level2 锁 的 客户 端 自身 ) 发 起 写 请 求 时 ， 
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Server 会 将 之 前 赋予 的 Level2 Oplock 也 剥夺 掉 。 

如 图 19-31 所 示 ，1.1.1.3 (A ) 客户 端 某 个 程序 正在 对 服务 端的 文件 “1” 进 行 持续 的 写 入 ， 
此 时 我 们 在 客户 端 1.1.1.2 (B ) 上 打开 这 个 文件 进行 读 操 作 ， 服 务 端 与 B 之 间 的 数据 包 Trace 从 
这 里 开始 。 


xtended Response: Extended responses required 
eare Directory: Target of open can be a file 


上 NT Create Andx Response (0xa2) 
word Count (wcT): 42 
Andxcommand: No further commands (Oxff) 
Reserved: 00 
Andxoffset; 135 
Oplock Tevel: Level II 


序号. 协议 信息 2 目的 IP 


日 Lock Dp: 0x02 
= Large Files: Large file locking format nor requested 
0... = Cance]: pon'r cancel ourstanding lock request 
= change: pon'r change lock type 


= oplock Break: This is an oplock break norification/response 
= shared: This is an exclusive lock 
Client is not holding oplock on th 


号 . 协议 “信息 


目的 r? 
MB NT Create Andx Request, FID: Ox5000, Path: \I F 
SB 人 
SnB 四 i 
SMB Trans? Response, F: 上 
SB Read Andx Bequest FID: Ox! 要 硬 二 寺 

8 SMB_ Read FID: 0x8000,| 409 人 了 

下 下 和 

Re: 上 放下 

R es ar offset 1536 人 

16 snB Read Andx Response, FID: Ox8000, es 和 
19 WB Read And Reqbente" FED oxs000 |s12? by es’at offset 2048 Wr 
18 SnB Read Andx Response, FID: 0x8000,| 512 bytes 共计 
19 SMB Read Andx Request, "FID: Ox8000, es at offser 2560 人 
$8 Me Read Anax Redponse, Fed: jx8005 | 本 六 三 


图 19-31 0plock 申请 和 批准 过 程 实际 数据 包 交 互 (1) 

1 号 数据 包 表 示 B 明确 要 求 Batch Oplock。2 号 数据 包 表示 服 务 端 并 没有 因为 A 在 对 目标 文 
件 持续 地 写 入 而 拒绝 给 B 任何 Oplock， 相 反 ， 服 务 端 给 了 B 一 个 Level2 Oplock， 很 够 意思 了 。 

但 是 在 瞬 眼 间 ， 由 于 A 持续 地 向 服务 端 发 起 目标 文件 的 写 入 请 求 ， 在 把 Level2 Oplock 给 B 
之 后 ， 服 务 端 接 收 到 的 第 一 个 A 的 写 请 求 ， 将 导致 服务 器 收回 刚才 给 B 的 Level2 Oplock。 所 以 
我 们 看 见 11 号 包 ， 是 服务 端 发 给 B 的 Lock Break， 其 中 标明 了 剥夺 B 的 一 切 锁 。 

前 文中 我 们 说 过 ， 当 一 切 锁 被 剥夺 之 后 ,客户 端 读 写 缓存 被 完全 屏蔽 ，IO 行为 与 DIO 模式 
无 异 。 我 们 看 一 下 图 19-31 最 下 部 ,两 个 方 框 中 ， 上 面 方 框 表示 Lock 尚未 被 剥夺 之 前 的 系统 IO 
Size 显然 为 Page Size， 而 之 后 ， 却 完全 透 传 上 层 的 IO Size， 这 里 是 512B 的 连续 读 IO。 前 文中 也 
说 过 ， 读 缓存 只 对 小 块 连续 IO 效果 最 大 ， 这 里 由 于 读 缓存 的 失败 ， 造 成 了 网 络 流量 升 高 ， 而 客 
户 端的 实际 吞吐 量 却 并 未 增加 ， 网 络 流量 所 升 高 的 部 分 都 由 底层 网 络 传输 协议 的 消耗 贡献 。 

我 们 再 来 看 一 下 当 客 户 端 B 掺 和 进来 之 后 ， 客 户 端 A 上 的 行为 变化 。 如 图 19-32 所 示 ， 原 
本 客户 端 A 上 的 程序 是 在 以 IO Size=2048B 针对 目标 文件 做 连续 并 且 持续 写 入 动作 的 。 当 了 B 发 起 
Open0 之 后 ,我 们 看 11062 号 包 , 服 务 端 当然 要 剥夺 A 上 原本 的 Batch Oplock, 并 且 同 时 灌 以 Level2 
Oplock。11068 号 包 表 示 A 接受 了 断 锁 请 求 ， 现 在 A 只 有 读 缓存 ， 写 缓存 被 失效 。 
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11067 sws 
11068 sw 
11071 sg Write Andx Request, FID: 
11073 Sa Locking Andx Request, FI 


Dxcobo 


tack Types O00 
.0 ~ Large Files: Large file locking format not requested 

Cance1: pon't cancel outstanding lock request 

Change: Don't change lock type 

Dplock Break: This 1s an oplock break norificarior/response 

Shared; Th 


an exclusive 1ock 


序 导 。 协议 信息 E93 
11062 Sms Locking Andx Request, FID; Oxc009 Fen 
11066 Sn6 Wite Andx Request, FID; Oxc003, 4036 bytes at offset 8704000 1 
5 5 Write Andx ee 4 yen 


009， 2048 bytes at offset 8706048 
0xc009 


EE 
11073 sm Locking Andx Request, 


ck Types pte 
Large Files; Large File locking format requested 


Cancel: Don'r cancel outstanding lock request 
Change: Don't change lock type 
oplock Break: This is an oplock break norificarion/response 


人 
Locking Andx Request, FID; Oxcol 
fe Rn Reqdas EF1D1D dxe dd 4096 byres ar orfset 8704000 
Write Andx Response, 4096 bytes 

Locking Andx Request, FID; OxcO09 
Write Andx Request, FID: 0: 


Cock Type Ox07 
Large Files: Large file locking fornat not reauested 
cance1; pon't cancel outstanding 1ock request 

Change: Don't change lock type 
= oplock Break: This is an oplock break notification/response 
Shared: This 15 an exclusive 1ock 


图 19-32 0plock 申请 和 批准 过 程 实际 数据 包 交 互 (2) 

但 是 好 景 不 长 ， 肯 眼 间 ， 在 11073 号 包 中 ， 服 务 端 无 情 地 剥夺 了 A 的 Level2 Oplock， 为何 
呢 ? 正如 前 文 所 述 , 拥有 Level2 锁 的 客户 端 对 写 是 很 敏感 的 , 一 旦 有 任何 一 个 客户 端 尝试 对 目标 
进行 写 入 操作 ， 那 么 整个 范围 内 所 有 客户 端 上 的 Oplock 将 发 生 二 塌 ， 全 部 被 剥夺 。11073 号 包 
与 图 19-31 中 的 11 号 包 是 由 服务 端 在 雨 塌 过 程 中 同时 向 所 有 客户 端 发 出 的 。 
如 图 19-33 所 示 ，11068 号 包 之 后 ，Batch Oplock 被 剥夺 ， 只 剩 读 缓存 ，A 上 程序 的 写 IO 

请 求 被 完全 透 传 到 服务 端 ; 而 之 前 却 不 是 。 很 显然 , 之 前 有 严重 的 写 惩罚 存在 ( 见 上 部 方 框 内 ) ， 
而 之 后 ， 写 惩罚 消失 了 。 


有 HR 


ocking Andx Reauest, FI 
rite Andx Aespanse, 2048 bytes 
11077 MB lurite Andx Request，FID: OxC009, 2048 bytes at offset 8708096| 
11079 SMB write Andx Response, 2048 bytes 

T1081 SMB hurite Andx Request，FID: Ox€009, 2048 bytes at offser B710144| 
H1083 sw6 larite Andx Response，2048 bytes 

Ho85 se hrite Andx Reovest, FEO; OFC0OS, 2048 bytes at offser 6712393 
11087 ME urite Andx Response, 2048 

11080 xe lrite Andx cabest "FID: Oxedd3, 2048 bytes ar offset s714240| 
11091 SM lurite Andx Response, 2048 bytes 


图 19-33 0plock 中 请 和 批准 过 程 实际 数据 包 交 互 (3) 
6 ) NIR 的 字 节 锁 缓 释 行为 以 及 对 Oplock Break 的 影响 
在 下 面 的 疯狂 实验 中 ,我 们 将 调查 NIR 的 另 一 个 怪诞 行为 ， 即 笔者 乱 起 的 一 个 名 字 “ 字 节 
锁 缓 释 ”。NIR 的 这 种 行为 ， 其 流程 如 下 ( 有 客户 端 A 和 B 以 及 服务 端 ) 。 
A 首先 打开 目标 文件 并 取得 Batch Olock。 
随后 A 对 目标 文件 的 某 些 部 分 使 用 Lockfile0 加 入 字 节 锁 , 按理 说 NIR 应 该 将 这 些 加 锁 请 求 
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发 送 给 服务 端的 ， 但 是 由 于 此 时 是 A 独占 这 个 文件 ， 所 以 NIR 认为 没有 必要 将 这 些 锁 请 求 发 到 
服务 端 ， 而 是 擅自 暂 存 了 这 些 锁 请 求 。 如 果 随 后 A 解锁 了 其 中 某 些 或 者 全 部 的 锁 ， 那 么 NIR 也 
会 将 这 些 解 锁 操作 与 当前 暂 存 的 加 锁 操作 做 抵消 。 

随后 ，B 也 申请 打开 这 个 文件 ， 服 务 端 首先 向 A 发 送 锁 降 级 通知 ， 降 级 为 Level2 只 读 锁 ， 
那么 此 时 因为 Lockfile0 操 作 被 内 核 视 为 一 种 对 文件 的 独占 操作 , 现在 有 其 他 客户 端 要 来 读 这 个 文 
件 ， 那 么 A 上 的 NIR 必须 将 这 些 暂 存 的 锁 发 送 到 服务 端 执行 。 服 务 端 接受 了 这 些 锁 请 求 之 后 ， 
A 才 会 发 送 Oplock Break Ack， 之 后 服务 端 才 可 以 响应 B 的 打开 请 求 。 这 就 是 字 节 锁 缓 释 行为 。 

这 个 实验 使 用 分 别处 于 两 台 客户 端 上 的 MS Office Word 程序 先后 打开 同一 个 位 于 服务 端的 
文件 ， 分 析 整 个 过 程 中 的 关键 CIFS 数据 包 以 调查 NIR 以 及 Oplock 行为 。 
在 客户 端 1.1.1.3( A ) 首先 打开 目标 文件 ， 并 使 用 Filemon 过 滤 驱 动工 具 监 测 底层 行为 ， 发 
现 Word 程序 每 次 都 会 对 文件 的 固定 处 进行 一 系列 加 锁 和 解锁 过 程 ,如 图 19-34 所 示 ( 图 中 去 除 
了 一 些 非 关键 记录 ) ， 可 以 算出 经 过 加 解锁 过 程 之 后 ， 程 序 最 终 保留 的 锁 只 有 3 个 ， 即 偏 移 量 
2147483539、2147483559 和 2147483599 三 处 的 长 度 为 1B 的 锁 。 但 是 在 本 时 间 段 的 CIFS 数据 包 
中 却 并 没有 出 现任 何 发 向 服务 端的 加 解锁 请 求 ， 证 明 NIR 驱动 擅自 暂 存 了 这 些 请 求 。 我 们 在 接 
下 来 的 分 析 中 可 以 发 现 NIR 对 最 终 的 三 个 有 效 锁 的 缓 释 行为 。 
随后 ， 客 户 端 1.1.1.2 (B ) 也 申请 打开 这 个 文件 并 申请 Batch Oplock， 同 时 B 的 Word 程序 
在 打开 时 指定 了 Access Mask 里 面 的 与 写 相 关 的 Fag， 以 及 在 Share Mode 里 面 也 指定 了 排他 性 访 
问 ， 只 人 允许 其 他 进程 读 取 。 如 图 19-35 所 示 , 在 B 的 这 个 Open0 请 求 中 ,充满 了 B 上 的 Word 
程序 想 要 以 独占 形式 打开 这 个 文件 的 欲望 。 因 为 B 此 时 并 不 知道 A 已 经 打开 了 这 个 文件 , 所 以 B 
的 目的 注定 不 能 得 全, 因为 此 时 A 已 经 以 排他 性 模式 打开 了 这 个 文件 , 所 以 服务 端 一 定 会 返回 
享 模式 冲突 的 通知 。 


序号 协 汉 信息 尖 IF | 目的 TP 
1 


mr SB Locking Andx EE a ee rs} FID: 0x4008 E 了 三 到 


En 
217 swB Locking Andx Request, FID: Ox4008 ET 
ie orion ee enon Pn 到 
219 SB Locking Andx Reql FID: Ox4 7? 
S Create Flags: 0X0000001 


. = Extended Response: Extended responses requir， 
~ creare Directory: Target of open can be a file 
+ = Batch Oplock: Requesting BATCH OPLOCK 

. ~ Exclusive oplock: Requesting OpLOCK 


3 Access Mask: 0x0002019f 
0. . = Generic Read: Generic read is NOT set 
. = Generic write: Generic write is NOT set 


全 4409 Long 
也 K et 2147490553 Longr 3 Share Access: 0x00000001 SHARE_READ 

站 ze 0.. = Delete: Object can NoT be shared for delere 
日 地 .~ write: object can NOT be shared for write 
vp 1 = Read: Obiect can be shared for READ 


图 19-34 程序 加 字 节 锁 的 过 程 图 19-35 B 预 使 用 独占 方式 访问 目标 文件 
如 图 19-36 所 示 ，216 号 包 。 很 遗憾 ， 服 务 端 并 没有 按照 Oplock 的 本 来 设计 思想 而 首先 去 
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判断 是 否 B 的 这 个 打开 请 求 与 其 他 已 经 打开 这 个 文件 的 客户 端 存 在 共享 冲突 ,而 略 过 了 这 一 步 直 
接 打算 通知 A 断 开 它 的 Batch Oplock， 降 级 为 Level2 Oplock。 


= Es FIles; Large file locking Format not requested 


Hng Yock nees 


时 | 铁 议 “信息 一 -一 一 一 本 

ER ar 

216 SnB Locking AncX Request, FID: Ox400B 1 
sh 
Et 


218 SME Loc Response, FID: Ox4008 
EEESEEIRECEE 


Rss oooo| 
offsec: 2147483599 


Lengch: 1 
序号 。 协议 “信息 丽 P rr 
[sl MB Lockinq AndX Reauest FID: OX4DO8, el TI] 
Lock Type: Ox12 
hi = Large Files: Large file locking formar requested 


= cance1: Don't cancel me Tock request 

= change: pon't change lock ff 

= Oplock Break: This 15 an i break notification/response 
= Shared: This 15 an exclusive lock 

1: Leve1 2 oplock currently held by client (1) 


图 19-36 A 将 隐瞒 的 字 节 锁 发 向 服务 端 

而 217 号 包 为 A 对 服务 端的 回应 , 我 们 看 到 这 个 Lock 数据 包 中 表示 的 东西 并 不 是 一 个 Lock 
Break Ack, 其 中 所 包含 的 是 A 向 服务 端 申请 的 三 个 字 节 锁 , 也 就 是 说 服务 端 向 A 通知 断 开 Btach 
锁 ，A 却 先 不 应 答 反 而 向 服务 端 申 请 字 节 锁 。 这 里 与 上 文 遗 留 的 那 三 个 锁 对 应 ，A 上 的 程序 早 在 
打开 文件 之 初 就 做 了 一 系列 加 解锁 过 程 而 最 终 保 留 了 这 三 个 锁 ， 由 于 NIR 的 擅自 暂 存 而 一 直 没 
被 发 送 到 服务 端 。 

现在 ，A 知道 服务 端 要 剥夺 它 的 Batch 锁 了 ， 所 以 NIR 不 能 再 隐瞒 了 ， 只 能 禾 稍 地 将 暂 存 
的 三 个 锁 发 向 服务 端 执行 ， 对 应 217 号 包 。218 号 包 为 服务 端 对 字 节 锁 请 求 的 回应 ， 我 们 不 去 看 
它 。 我们 来 看 219 号 包 ， 这 个 包 就 是 一 个 Lock Break Ack 包 了 ， 其 接受 了 Batch 锁 降级 为 Level2 
锁 的 通知 。 

在 服务 端 剥夺 A 的 锁 之 后 ， 可 以 对 B 的 打开 请 求 做 应 答 了 。 如 图 19-37 所 示 ， 果 然 以 
STATUS_SHARING_VIOLATION 告终 。 但 是 我 们 的 B 依然 穷 妃 不 舍 ， 在 230 号 包 中 再 次 发 送 
了 Open0 请 求 ， 这 次 ，B 吃 一 暂 长 一 智 ， 不 在 Access Mask 中 设置 任何 写 相 关 的 Hag， 但 是 Share 
Mode 中 依然 设置 了 排他 性 的 只 读 模 式 ， 即 不 允许 其 他 进程 写 ，B 依然 抱 有 幻想 它 可 以 独占 打开 
这 个 文件 ， 所 以 它 的 幻想 依然 还 要 破灭 ，230 号 包 显 示 服 务 端 再 次 拒绝 。 


ba 


EE 


: 1.006114000 = 
are ANdx (Oxa2 


ds] 
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: Systen security 15 NOT ser 
3 Can NOT wair on handle ro synchroniz 
an NOT write owner (cake ownership) 
rire DAC: Owner may NOT wrire ro he DAC 

Read Control: READ ACCESS ro owner, group and AcL 
Delere: No delere access 

Write Attributes: NO wrire attributes access 
Read Attributes: READ ATTRIBUTES access 

Delete Child: NO delere chi1d access 

Execure: NO execute access 

Write Ea: ND write extended attributes access 
Read EA: READ EXTENDED ATTRIBUTES access 

Append: NO append access 

write: No wire access 

~ Read: READ access 


= Delete: object can NoT be shared for delete 
— write: object can NOT be shared for write 
= Read: Object can be shared for READ 


序号 。 协议 信息 尖 
i Pathy \1, 0€ TT = 
SMB Header 四 


Server comporent: SMB 


[Tine from request: 1.000583000 seconds] 
SMB Comnand: NT Create Andx (Oxa2) 
NT Status: STATUS_SHARING_VIOLATION (Oxc0000043) 


write onner: can NoT wire owner Crake ownership) 
Wr ite DaC; Owner may NoT write to the Dac 

ead Control: READ ACCESS To Owner, group and acL 
Delere: ND delere access 

Wr ite Attr ibutes: NO write attributes access 


o 
Ox00000080 


序 妨 协议 信息 bd AAtre 
避 全 人 卫生 


NT creare Andx Response COxa2) 
word Count (WCT): 42 
Andxconmand: No further commands (DxfFf) 


图 19-37 B 先后 三 次 尝试 打开 目标 文件 


但 是 B 上 的 程序 是 很 有 毅力 的 ， 它 感知 到 只 在 Access Mask 里 妥协 是 不 行 的 ， 只 有 全 部 妥协 
才 可 能 有 机 会 , 所 以 B 又 一 次 发 起 Open0。 这 次 它 在 Share Mode 里 多 许 其 他 进程 读 和 写 ， 见 235 
号 包 相 比 230 号 包 的 变化 部 分 。236 号 包 中 服务 端 返回 了 成 功 响应 这 一 次 ，B 终于 如 愿 以 偿 获 


得 了 服务 端 给 的 File Handle。 


但 是 遗憾 的 是 ， 服 务 端 并 没有 给 B 任何 Oplock， 见 236 号 包 。 这 似乎 有 点 不 可 思议 ， 


因为 


前 文中 曾经 提 到 过 ,服务 端 给 出 Level2 锁 时 并 不 判断 之 前 其 他 客户 端的 打开 请 求 中 是 否 带 有 写 相 
关 的 Flag， 但 是 这 次 为 何 服务 端 没有 给 B 呢 ? 原因 就 在 于 A 上 被 释放 的 字 节 锁 。 任 何 字 节 锁 均 
会 导致 除 加 锁 客户 端 之 外 其 他 所 有 客户 端的 Oplock 锁 雪 塌 ， 有 锁 的 交 出 来 ， 没 锁 的 不 再 给 。 接 


下 来 我 们 就 会 看 到 ， 客 户 端 A 的 Level2 锁 随 后 也 因为 此 被 剥夺 了 。 
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打开 了 文件 之 后 ,B 上 的 Word 程序 也 需要 对 文件 进行 字 节 区 段 加 解锁 过 程 ( 至 于 为 何 加 锁 
锁 哪些 区 域 我 们 在 此 不 管 它 ， 程 序 设计 决定 ) ， 如 图 19-38 所 示 。 


ep 
be 
rex Nes 
Me ee 
re Nes 
sp 
eet 
nk ne 
AR 
Mn Kes 
de nee 
na Kes 
x nee, 
nex Nes 
x nee 
nk ne 
ee 
Re 
ee 
nx Kes 
x nee, 
rex Re 
ds Ree 
nx mest 
x ee, 
rex Re 
x Ree 
ek ae 
3 


| 得。 er HE 

WWDND P-LRRERTE 2\ do SUCCESS Optors Deen Axe 

所 习 WNwWDRD IAP-MLAI Edoc SUCCESS Ollsot OL ST 

44 忆 wNwDRD LO En doc SUCCESS 。。 DBet 2147409538 Longl 1 
后妃 WNWDRD LDEK BV des SUCCESS Osct 2147499579 Lengthy 20 
相 忆 WNWDRD UNLDCK Bh das SUCCESS Ohisot 2147493579 Leona 20 
47 习 whwoRD .LOcK EN1.dos。 NOT GRANTED Diset 2147493539Length 1 
相 习 whwoRD LOEK Bdos SUCCESS ~ Diset 2147493540 Lenatk 1 
妈 习 WNWORD LDEK BVlidos SUCEES5 Ohiset 2147493560 Lenath 1 
50 习 wnwonp Lock Bdge SUCCESS 。。 Diset 2147483560 Lengt 1 
引 _ 习 wwwopo 7 LocK ldos SUCCES5 Otis 2147493500 Len 

2 习 whwoRp LOER Zidoo SUCCESS ~ Oleet 2147493451 Longt 1 
3 习 WNwoRD. unLock ZN1.dos SUCCESS Onset 2147493560 Lengtht 1 
54 习 wwwoRp UNLOCK Bdoo SUCCESS Ofeot 2147483580 Leng 1 
更 习 wwwoRp 7 UNLOGR ldos SUCCESS so Longthe 1 
5 NWORD. UNLOCK Bdoo SUCCESS ~ Ofsec 2147483538 Longh 1 
7 习 wwwon NT.dos SUCCESS eet 21474 1 
5 避 WNwoRD. LOcK 和 SUCCESS Oewe 214749321 Leong 1 
3 习 WNWORD UNLSox Zidos SUCCESS Offenc 2147 


图 19-38 B 对 文件 加 字 节 锁 引 起 A 上 的 Leve12 锁 吉 塌 


图 19-38 中 上 半 部 分 是 在 B 上 检测 的 Word 程序 实际 所 做 的 操作 ， 下 半 部 分 为 这 些 操作 被 发 
送 到 服务 端 时 的 监测 数据 ， 可 以 看 到 二 者 一 一 对 应 ， 除 了 一 个 包 ，247 号 包 。 服 务 端 发 给 了 客户 端 
A 一 个 Lock 相关 的 包 , 可 以 看 到 图 中 最 底部 对 应 这 个 包 的 内 容 , 是 
一 个 Level2 锁 断 开通 知 。 所 以 ，B 对 文件 的 字 节 锁 操作 ， 会 导致 A 
上 Level2 锁 的 替 塌 ， 至 此 所 有 客户 端 都 没有 Oplock 锁 了 。 

当 B 对 文件 进行 了 字 节 锁 操 作 之 后 ，B 上 的 Word 程序 会 提 
示 一 个 窗口 让 用 户 选择 ， 如 图 19-39 所 示 。 图 19-39 B 上 提示 打开 冲突 

这 里 可 能 有 些 需 要 解释 的 地 方 ， 按 理 说 程序 应 该 在 收 到 STATUS_SHARING_VIOLATION 
之 后 立即 提示 这 个 窗口 , 但 是 在 此 笔者 也 不 知 为 何 程序 会 在 底层 尝试 最 终 打开 文件 并 且 做 了 字 节 
锁 操作 之 后 才 提 示 。 在 此 猪 测 可 能 因为 程序 需要 保证 用 户 选 择 了 只 读 打 开 后 ,程序 必须 可 以 打开 ， 
所 以 程序 会 预先 打开 测试 ， 如 果 能 打开 才 提 示 。 这 当然 只 是 猜测 。 

注意 : 如 果 一 个 客户 端 打开 了 文件 ， 获 取 了 Oplock， 如 果 在 CIFS Server 上 某 个 程序 通过 

本 地 文件 系统 也 打开 这 个 文件 ,那么 Server 会 按照 同样 的 策略 来 Break Lock。 另 外 ， 如 果 

同一 台 客 户 端 上 的 同一 个 程序 先后 两 次 打开 一 个 文件 , 那么 第 一 次 获得 的 Batch Oplock 将 

被 降级 为 Level2 Oplock, 第 二 次 打开 时 获得 Level2 Oplock。 也 就 是 说 服务 端 并 不 管 打开 目 

标 文件 的 进程 是 不 是 同一 个 ， 或 者 进程 是 服务 端 本 地 进程 还 是 客户 端 进程 ， 统 一 对 待 。 

已 经 被 剥夺 的 锁 不 可 能 自动 再 获得 , 比如 当 所 有 客户 端 都 关闭 目标 文件 , 只 剩 下 一 个 客户 

端 时 ， 服 务 端 不 会 再 将 锁 重 新 灌 给 这 个 客户 端 , 协议 中 没有 这 样 的 设计 。 要 想 申请 锁 ， 必 

须 重 新 Open0 一 遍 才 有 可 能 获得 。 

客户 端 可 以 在 使 用 Oplock 的 基础 上 使 用 Lockfile0 字 节 锁 。 前 者 是 靠 运气 而 且 是 全 局 的 ， 

后 者 是 注定 的 、 局 部 的 。 

总 的 来 讲 ， 对 于 CIFS 方式 的 Network IO 模式 下 ， 系 统 内 核 缓存 的 效率 很 低 ， 多 数 情况 下 
都 是 因为 惩罚 值 太 高 而 帮 了 倒 忙 ， 所 以 我 们 还 是 不 用 为 好 。Oplock 只 在 特定 情况 下 能 够 发 挥 一 
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点 作用 , 程序 设计 人 员 需 要 注意 , 要 时 刻 知道 底层 都 在 做 什么 。 本 书 的 目的 就 是 让 读者 对 整个 存 
储 系统 架构 有 一 个 深刻 理解 ， 以 方便 今后 的 管理 维护 和 开发 工作 。 

7) NFS 下 的 缓存 和 IO 机制 

同 为 NAS 网 络 文件 访问 协议 ，NEFS 不 管 在 数据 包 结构 上 还 是 在 交互 逻辑 上 相 比 CIFS 要 简 
化 许多 ,但 是 简化 的 结果 就 是 并 不 如 CIFS 强大 ，CIFS 之 所 以 复杂 是 因为 CIFS 协议 中 几乎 可 以 
透 传 本 地 文件 系统 的 所 有 参数 和 属性 ， 而 NFS 携带 的 信息 很 有 限 。 简 化 同样 也 带 来 了 高 效 ， 执 
行 类 似 的 操作 ,NEFS 交互 的 数据 包 在 单个 包 的 大 小 上 和 整体 发 包 数量 都 相对 CIFS 有 很 大 的 降低 。 

与 CIFS 不 同 的 是 ，NFS 提供 诸多 更 改 的 参数 来 控制 操作 系统 内 核 底层 IO 行为 。Windows 
系统 可 以 安装 SFU 软件 来 实现 NFS 的 客户 端 或 者 服务 端 功能 ,同样 也 提供 了 少量 可 更 改 的 参数 。 
在 了 解 NFS 底层 行为 之 前 ,我 们 先 看 一 看 NFS 方面 的 4 个 比较 典型 的 参数 设置 。 这 4 个 参 
数 中 , 前 三 个 都 是 在 mount 的 时 候 可 以 指定 的 , 包括 sync、rsize、wsize, 第 四 个 参数 O_DIRECT 
是 需要 在 程序 对 文件 打开 调用 时 指定 的 。 下 面 我 们 分 别 来 调查 这 4 个 参数 对 系统 底层 IO 行为 的 
影响 ， 但 是 首先 要 来 看 一 下 默认 mount 参数 下 NFS 底层 行为 。 测 试 基于 RHEL5 系统 ， 内 核 版 
本 2.6.18。 

(1) 默认 mount 参数 下 的 IO 行为 

NFS 默认 的 mount 参数 为 async 、rsize=Wsize=65536。 async 参数 表示 系统 内 核 不 会 透 传 程序 
的 IO 请 求 给 NFS Server， 对 于 写 IO 会 延缓 执行 ， 积 累 一 定 的 时 间 以 便 合 并 上 层 的 IO 请 求 以 提 
高 效率 ,不 管 是 读 还 是 写 请 求 ，async 都 会 具有 一 定 效果 ， 尤 其 是 连续 地 址 的 IO。 

如 图 19-40 所 示 , 上 半 部 分 为 使 用 dd 讨 /Amnt/3 o 全 /dev/null bs=1500 count=100 来 读 取 NFS 
文件 , 使 用 底层 抓 包 工具 抓 取 的 底层 IO 结果 , 下 半 部 分 为 使 用 dd 人造 /mnt/3 o 全 /dev/null bs=150 
count=100 时 的 结果 。Linux 下 的 dd 是 一 个 使 用 同步 调用 +Buffered IO 模式 的 程序 ， 但 是 在 图 中 
上 半 部 分 却 显示 出 明显 的 底层 异步 IO 行为 , 即 IO 批量 发 送 , 数据 批量 返回 。 这 种 IO 行为 是 由 
于 文件 系统 的 预 读 造成 的 ( 这 里 并 不 是 读 IO 被 合并 的 结果 , 见 下 文 ) 。 可 以 看 到 , 由 于 dd 进行 
的 是 连续 读 操作 ,所 以 导致 了 文件 系统 最 大 力度 的 预 读 ,每 次 发 向 存储 设备 的 IO 字 节 数 为 65536， 
也 是 Linux 下 rsize 的 最 大 值 。 可 以 算出 系统 共 读 入 了 409600+65536=475136B 的 内 容 ， 但 是 dd 
所 读 取 的 一 共 是 1500 x 100=150000B, 所 以 ,系统 预 读 造成 了 475136 - 150000=325136B 的 浪费 。 
再 来 看 下 半 部 分 ， 系 统 共 读 入 了 81920B ，dd 请 求 了 150 x 100=15000B ， 浪 费 掉 81920 -- 
15000=66920B。 


图 19-40 dd 试 结果 
还 记得 CIFS 么 ? 相 比 NFS 来 讲 ， 在 连续 读 的 情况 下 ，CIFS 低 效 得 多 ，CIFS 根本 没有 做 主 
动 预 读 的 意思 ， 只 有 被 动 预 读 。 
我 们 再 来 看 图 19-41， 使 用 测试 软件 对 NFS 文件 做 随机 读 操 作 , 每 次 请 求 200B 的 数据 ,可 
以 看 到 ， 读 惩罚 产生 了 。 随 机 读 情 况 下 ， 内 核 底层 读 入 了 1 个 Page 的 内 容 。 这 里 需要 提 一 下 ， 
对 于 本 地 文件 系统 ，Linux 同样 使 用 Page Cache 映射 方式 。 在 Windows 下 ，CIFS 在 随机 读 情况 
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下 也 产生 类 似 的 读 惩罚 ， 但 是 二 者 有 本 质 不 同 : Windows 下 的 CIFS 的 读 惩罚 是 因为 Page Fault 
过 程 , 底层 必须 以 Page 为 单位 ; 而 Linux 下 NFS 的 读 惩罚 只 是 因为 文件 系统 预 读 的 单位 为 Page。 


二 者 虽然 表象 相同 ， 但 是 其 出 发 点 却 不 同 。 


{cal 
33 NFS V3 READ cal] (Repl 
36 NFS V3 READ Rep]y (Cal 
39 NFS V3 READ Call CRep1 
42 NES V3 READ Reply CCal 
4 MES V3 READ Gall CReply 
49 NFS V3 READ Reply (Cal 
51 NFS V3 READ Call (Repl: 
54 NFS V3 READ Rep]y (Cal 


56 NFS V3 READ cal] (Reply In 59), Fi 
59 NFS V3 READ Reply (Cal] In 56) Le 
G2 NFS V3 READ Call CReply In 65), Fi 


$0 Ms V3 REAB Reply ce 


图 19-41 


我 们 | 


xOae7 oFbs Offser:1545597 Len:4095 


In 67)' Len:4096 


产生 乱 罚 现象 
j 来 看 看 写 行为 。. 写 有 两 种 方式 :追加 写 和 有 覆盖 写 。 如 图 19-42 所 示 , 使 用 dd if=/dev/zero 


o 人 /mnt/3 bs=1 count=100 来 对 /mnt/3 这 个 文件 进行 追加 写 操作 ， 可 以 看 到 17 号 包 对 应 的 
SETATTR 请 求 ，dd 程序 将 已 经 存在 的 文件 的 size 设置 为 0， 然后 从 头 开 始 追 加 写 入 这 个 文件 ， 
每 次 写 1B， 写 100 次 。 但 是 内 核 在 底层 可 并 没有 向 NFS 服务 端 发 起 100 次 写 ， 实 际 上 只 发 送 了 
一 个 写 请 求 , 对 应 19 号 包 。offet=0,， length=100， 也 就 是 从 头 开 始 写 100B, 证 明 内 核 将 dd 发 送 
的 写 请 求 数 据 全 部 缓存 并 且 合 并 了 起 来 发 送 给 NFS 服务 端 。 


号 动 以 。 信息 


RE Reply Ceall In 
19 NFs V3 WRITE Cal] (Reply In 20) 
30 Ns v3 wRITE Reply (call zn 19; 


00 FILE_SYNC 


Ox97e792b5 offser:0 Len:100 FILE_SYNC 


ew Attr Tbutes 
mmode: no Value 
Ww ud: no value 
WW qld: no value 
目 5izet Value follows 
Set_it; value follons (1) 


ls A Ee 
17 NFS V3 SETATTR Caij CReply In FE FH:0x07e792b8 


18 NFS V3 SETATTR Reply (Calj In 17: 
pi NES V3 WRITE Rep Sper | 


S360 Len: 655385 UNSTABLE 


图 19-42 写 合并 的 发 生 

图 中 最 底部 的 部 分 是 在 使 用 dd f=/dev/zero o 会 /mnt/3 bs=1500 count=1000 时 抓 取 的 底层 IO 
结果 ， 可 以 看 到 dd 为 同步 调用 ， 到 了 底层 ， 内 核 将 dd 的 写 IO 数据 合并 ， 并 且 以 异步 的 方式 高 
效 发 向 NES 服务 端 。 


注意 : 仔细 的 人 可 以 注意 到 ，590 号 包 的 Length 并 不 是 65536， 这 是 因为 合并 之 后 的 数据 
本 身 就 并 不 对 齐 ， 所 以 最 后 系统 将 余 量 完 全 透 传 到 NFS 服务 器 ， 而 并 不 会 发 生 读 和 一 个 
对 齐 的 单位 ， 修 改 之 ， 然 后 再 写 人 惩罚 现象 。 


再 来 看 一 下 覆盖 写 。 履 盖 写 又 可 以 分 为 两 种 : 连续 履 盖 写 ， 随 机 覆盖 写 。 这 里 要 理解 ,追加 


好 一 定 是 连续 写 ， 而 随机 写 一 定 是 覆盖 写 。 


如 图 19-43 所 示 ， 使 用 测试 工具 对 一 个 NFS 文件 进行 以 1B 为 单位 的 覆盖 写 入 操作 ， 上 半 
部 分 为 连续 写 情况 下 的 底层 IO 监测 结果 ， 而 下 半 部 分 则 为 随机 写 的 监测 结果 。 
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图 19-43 覆盖 写 测试 结果 


可 以 看 到 , 连续 覆盖 写 情况 下 ,内 核 同样 是 对 写 操作 进行 了 合并 操作 。 而 随机 写 情况 下 , 内 
核 根本 无 法 合并 写 IO, 所 以 内 核 的 做 法 是 完全 透 传 用 户 程序 发 起 的 IO, 而 且 , 没有 任何 写 惩罚 。 

还 记得 Windows 下 的 CIFS 么 ? 在 Windows 下 使 用 CIFS， 串 有 严重 的 惩罚 综合 证 ， 不 但 读 
有 ， 写 更 严重 。Linux 下 使 用 NFS， 对 于 写 操作 ， 不 管 offset 是 否 为 Page 或 者 512B 对 齐 ， 都 没 
有 任何 写 惩罚 的 存在 ， 而 对 于 读 操 作 ,， 也 只 有 在 随机 读 的 情况 下 出 现 了 读 惩罚 ,其 他 任何 情况 下 
都 没有 惩罚 。 

(2 ) 指定 sync 参数 后 的 IO 行为 

默认 mount 使 用 的 是 async 模式 ， 内 核 可 以 对 IO 进行 合并 以 提高 效率 。 这 里 有 一 点 需要 理 
解 , 即 内 核 处 理 的 async 或 者 sync 与 上 层 程序 调用 时 的 sync 与 async 紧密 相关 。 如 果 上 层 使 用 sync 
调用 ， 则 其 产生 的 读 IO 一 定 在 内 核 处 也 是 同步 执行 的 ， 因 为 只 有 在 前 一 个 读 请 求 数据 成 功 地 被 
返回 给 程序 , 程序 才 会 发 起 下 一 个 读 请 求 ; 对 于 异步 读 调用 , 内核 可 以 在 短 时 间 内 接收 到 多 个 读 
请 求 ， 此 时 内 核 可 以 将 这 些 读 请 求 合 并 处 理 ， 这 就 是 异步 过 程 了 。 对 于 同步 写 调用 ,程序 只 有 在 
前 一 个 写 操作 完成 之 后 才 会 发 起 下 一 个 写 ， 而 如 果 程 序 使 用 了 Buffered IO 模式 ， 那 么 一 个 写 操 
作 会 迅速 瞬时 完成 。 因为 内 核 只 要 将 待 写 数据 复制 到 系统 内 核 缓存 即 可 通知 程序 完成 , 继而 接着 
发 起 下 一 个 写 操作 , 那么 内 核 在 短 时 间 内 即 可 积累 若干 待 写 数据 , 这 些 数 据 并 不 是 没 接收 到 一 次 
就 必须 向 底层 存储 介质 写 一 次 的 ,此 时 内 核 可 以 合并 这 些 写 , 这 也 是 一 个 异步 过 程 。 而 对 于 上 层 
的 异步 写 调用 ， 内 核 处 理 过 程 就 更 是 异步 了 。 所 以 ， 内 核 的 异步 过 程 ， 只 对 Buffered IO 模式 下 
的 同步 写 、 异 步 写 、 异 步 读 有 意义 。 

我 们 这 就 来 将 内 核 的 这 种 行为 改 一 下 , 不 让 它 缓存 IO, 要 求 它 立即 执行 每 一 个 IO。 在 mount 
的 时 候 我 们 使 用 mount -o sync 来 挂 载 一 个 NFS Export。 然 后 分 别 使 用 dd 程序 对 目标 文件 进行 
1500B 为 单位 的 读 操 作 和 以 1B 为 单位 的 写 操作 。 如 图 19-44 所 示 ， 上 半 部 分 为 读 操 作 的 监测 结 
果 ， 下 半 部 分 为 写 操作 的 监测 结果 


站 RE ea 
5 Y3 REAI 《Reply 1 
V3 REAI Py 1 27 Fe: 


19-44 sync 参数 的 影响 

我 们 可 以 看 到 ， 对 于 读 操 作 ， 底 层 是 不 是 似乎 将 程序 发 起 的 读 IO 合并 了 呢 ? 根本 不 是 ， 上 
文 曾 经 分 析 过 ， 除 非 程序 自己 使 用 异步 读 IO 调用 ， 否 则 内 核 底层 不 可 能 在 单位 时 间 内 接收 到 多 
个 由 同一 个 进程 发 起 的 读 请 求 , 所 以 也 就 无 从 合并 。 出 现 这 种 现象 的 根本 原因 是 文件 系统 预 读 行 
为 导致 的 。sync 参数 表示 IO 需要 被 立即 执行 而 不 得 延迟 ， 但 是 对 于 读 立 即 执行 和 写 立 即 执行 ， 
内 核 却 有 不 同 的 处 理 方式 。 读 立即 执行 ， 不 一 定 表示 不 可 以 进行 Prefetch 和 Cache Hit 操作 ， 但 
是 对 于 写 立 即 执行 , 却 绝对 不 可 以 将 待 写 的 数据 缓存 起 来 延迟 处 理 。 正 因 如 此 , 图 中 下 半 部 分 说 
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明 内 核对 写 IO 不 缓存 、 不 延迟 ， 再 接收 到 之 后 

8 ) 指定 rsize/wsize 参数 后 的 IO 行为 

NFS 客户 端 在 mount 服务 端的 exports 时 ， 服 务 端 会 向 客户 端 通告 服务 端 自身 所 能 接受 的 最 
大 IO Length。 客 户 端 根 据 这 个 Length 来 决定 ， 如 果 用 户 程序 发 起 的 IO Length 大 于 这 个 值 ， 那 
么 NFS 客户 端 有 责任 将 程序 的 IO 分 
割 为 小 于 等 于 这 个 值 ;， 如 果 小 于 这 个 
值 ， 可 以 直接 透 传 ， 也 可 以 合并 成 这 
个 值 来 发 送 。 

使 用 mount -o rize=1024， 我 们 
将 rsize 从 默认 的 64KB 改 为 1KB, 看 
看 底层 会 发 生 什么 事情 。 首 先 使 用 dd 
产生 连续 读 IO 来 触发 内 核 的 预 读 操 
作 ， 如 图 19-45 所 示 ， 内 核 预 读 依然 
发 生 , 但 是 向 底层 存储 系统 发 起 的 IO 
Length 降 为 1KB， 效 率 大 大 降低 。 

如 图 19-46 所 示 , 使 用 测试 程序 


， 立 即 透 传 给 了 NEFS 服务 端 处 理 。 


序号. 协议 信息 

23 NFS™— V3 READ CalT (Reply 
24 nrs 

25 NFS 

26 NFS 


In ZJ FROXUae7ITOY OFT5ECIU TESTU2 


28 NFS ply 《calj In 27 
和 9AE5 READ Rebly (call In 279 Len:1024 
I 
® Ethernet II, src: Vmware_cf 9 《( 

B Internet protocol, src: 1.1. I 3 
» Transmission Concrol Prorocol, Src 700 Cet), Dst Port: nfs C2049), 
Renote Procedure call, Type:Cal] XID:0x48d14d11 

四 Nerwork File Systen, READ Ca11 FH:0x0ae79fbS offset:2048 Len:1024 

四 Remore procedure Call, Type:Call XID:0x49¢14d11 

® Nerwork File Systen, READ Cal1 FH:0x0ae79fb8 Offset:3072 Len:1024 

Renote Procedure Call, Type:Call XID:0x4ad14d11 

® Nerwork File Systen, READ Cal1 FH:0x0ae79fb8 offser:4096 Len:1024 

出 Renote Procedure Call, Type:Call XID:0x4bol4dll 

Network File Systen, READ Cal1 FH:0xOae79fb8 offset;5120 Len:1024 

Renote procedure call, Type:Call XID:0x4cdl4d11 

Nerwork File Systen, READ Cal] FH:0x0ae79fb8 offser:6144 Len:1024 

Renote Procedure Call, Type:Call XID:0x4dd14d11 

Nerwork File Systen, READ Cal] FH:0x0ae79fb8 offset:7168 Len:1024 


图 19-45 rsize 参数 的 影响 


Seq: 54 


序 导 协议 


: 让 交会 V3 READ Rel 024 
产生 小 块 随机 读 操 作 ， 此 时 内 核 会 产 V3 READ Hn 723, FH: x0ae79fbs offser 下 70732 Len:1024 
AR \ A 37 NFS V3 READ Reply (call In 36) Len:1024 
: 读 惩 -对 每 个 读 操 作 都 会 读 38 NFS V3 READ C3211 (Reply In 39), FH:Ox0ae79fb8 offset:4708352| Len:1024 
生 读 惩罚 ， 针 对 每 个 读 操作 都 会 读 入 38 ws wee re or 
- > A 40 NFS V3 READ Cal] (Reply In 41), FH:0x0ae79fb8 offser 灿 709376| Len:1024 
一 个 Pageo。 但 是 由 于 rsize 的 改变 , 本 1 NES V3 READ Reply CCal! In 40)'Len:1024 ‘E709370 
2 本 如 NFS | 让 Ca 1 Ce In 多， Re offsetr :|5226496| Len:1024 
言 凡 测 NFS Vi AD Rel Call In Len:- 
来 一 个 IO 就 可 以 读 入 的 Page， 现在 45 NFS V3 READ Caf1y(Reply In 46), FH:0x0ae79fb8 offset:s227520| Len:1024 
V, . 46 NFS V3 READ Rel cca In 4 Len:1024 os 
人 前 3 再 i 47 NFS V3 READ Cal] (Reply In 48), FH:0x0ae79fb8 offser :|5228544| Len:1024 
必须 被 分 割 为 4 个 IO 才 可 以 读 入 。 4 3 EA0 feply (Ree 多， 
49 NFS V3 READ Cal] (Reply In 50), FH:0x0ae79fb8 offser ,|5229568| Len:1024 
注意 方 框 中 的 offset 50 NFS V3 READ Reply (Cal| In 49) Len:1024 
A a 58 NFS V3 READ Ca Ce In 泡 ， FH:0x0ae79fb8 offsetr 站 90528 lLen:1024 
59 NFS V3 READ Reply (Cal1 In 58) Len:1024 
使 用 mount -o wsize=1024 将 Os nD teat m Ee Offset:791552 |Len:1024 
: 了 、\ 一 62 NFS V3 READ Call (Reply In 63), FH:0x0ae79fb8 offsetr :|792576 |Len:1024 
wsize 改 为 1KB dd 程序 进行 连 63 NFS V3 READ Reply (Ca1Y In 62)'Len:1024 
, = :e3600 | 
64 NFS V3 READ Cal] (Reply In 65), FH:0x0ae79fb8s offset:793600 | en;1024 
65 NFS V3 READ Reply (Call In 64) Len:1024 


续 写 入 操作 , 内 核 虽然 合并 了 这 些 写 
IO ， 但 是 无 奈 ， 合并 的 IO 最 终 还 会 
被 分 割 成 1KB 的 IO 发 送 到 NFS 服务 端 ， 


图 19-46 读 惩罚 产生 


如 图 19-47 所 示 。 


V3 WRITE Rel 


ly Cea 
V3 WRITE Call (Rep] 
V3 WRITE Reply (Cal 
V3 WRITE Call (Rep1 
V3 WRITE Reply (Cal 
V3 WRITE Call (Reply In 
V3 WRITE Reply (Ca 证 

V3 WRITE Call (Reply In 
V3 WRITE Reply (Call In 
V3 WRITE Call (Rep1 
V3 WRITE Reply (Cal 
V3 WRITE Call (Reply In 
V3 WRITE Reply (Ca 


Len SYNC 
In 28), FH:0x0ae79fb8 offset 
In 27) Len:1024 FILE_SYNC 
n 30), FH:0x0ae79fb8 offset 
In 29) Len:1024 FILE_SYNC 


32), FH:0x0ae79fb8 Offset 


n 31) Len:1024 FILE_SYNC 


34), FH:0x0ae79fb8 offset 
33) Len:1024 FILE_SYNC 


In 36), FH:0x0ae79fb8 Offset 
Nn 35) Len:1024 FILE_SYNC 


38), FH:0x0ae79fb8 Offset 


Nn 37) Len:1024 FILE_SYNC 


V3 WRITE Call (Reply In 40), FH:0x0ae79fb8 offser 


图 19-47 wsize 参数 的 影响 


可 以 看 到 ， 


:1024 Len:1024 UNSTABLE 
:2048 Len:1024 UNSTABLE 
:3072 Len:1024 UNSTABLE 
:4096 Len:1024 UNSTABLE 
:5120 Len:1024 UNSTABLE 
:6144 Len:1024 UNSTABLE 


:7168 Len:1024 UNSTABLE 


改变 rsize/wsize， 对 NFS 的 IO 逻辑 没有 任何 影响 ， 受到 影响 的 只 是 底层 传输 的 


数据 包 数 量 和 大 小 。 任 何 情况 下 均 不 要 降低 rsize 或 者 wsize， 百 害 而 无 一 利 。 
是 为 了 使 用 NFS 服务 端的 要 求 而 已 。 


这 个 参数 的 调节 只 
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注意 : 在 RHELS 以 及 其 他 一 些 Linux 系统 上 ， 如 果 使 用 mount -o rsize=32KB 这 种 命令 格 
式 来 更 改 rsize 或 者 wsize 的 话 , 那么 系统 虽然 在 执行 命令 之 后 没有 任何 错误 信息 报 出 , 但 
是 系统 内 核 在 底层 却 并 没有 按照 给 出 的 这 个 值 来 分 割 IO 请 求 ， 而 是 统统 使 用 了 4KB 为 单 


位 ， 如 图 19-48 所 示 。 
序 叶 协议 信息 


， 0ae79fb8 offser:4096 Len:4096 
12 NFS V3 READ Reply (Cal Len:. 

Ms V3 READ Call Reply In 22), FH:0x02279fb8 offser:8192 Len:4096 
15 NFS V3 READ Call (Reply In 3259 FH:0x0ae79fb8 Offser: :12288 Len:4096 


28 NES V3 READ Reply Ccall In 16) Len:4095 
29 NFS V3 READ Call (Reply In 33), FH:0x0ae79fb8 offset:20480 Len:4096 
33 NFS V3 READ Reply (Call In 29) Len:4096 


图 19-48 底层 使 用 4KB 为 分 割 单位 
而 如 果 使 用 mount -o rsize=32768 这 种 命令 格式 ， 此 时 就 没有 任何 问题 了 ， 如 图 19-49 所 


示 。 虽然 32KB=32768B, 但 是 内 核 似 乎 并 不 认同 前 者 , 使 用 时 一 定 要 倍加 注意 。 分割 单位 
在 不 知情 的 情况 下 变 小 ， 会 增加 存储 系统 负担 。 
序号 . 协议 。 信息 


BNFS V3 READ Call Dt In 21), FH: eer Offser:0 Len:16384 
21 NFS V3 READ Reply (Call In 8) Len 

27 NFS V3 READ Call (Reply In 55), FH 0x04e79fbs offset:16384 Len:32768 
44 NFS V3 READ Call (Reply In 86)，FH:Ox0ae79fb8 Offset:49152 ed Te 


图 19-49 底层 使 用 命令 给 出 的 值 为 分 割 单位 

9 ) 程序 使 用 O_DIRECT 参数 后 的 IO 行为 

Linux We NFS 比 Windows 下 的 CIFS 优异 ,表现 在 ,前 者 有 明显 预 读 力 度 ， 只 在 特定 条 件 
下 有 读 惩罚 ， 写 惩罚 一 点 没有 。 正 因 NFS ee 高 效 ， 所 以 在 Linux 2.6 内 核 中 ,在 mount 
时 并 没有 Direct IO 的 选项 ( 内 核 编 译 时 被 禁止 ) ， 但 是 单个 程序 在 Open0 的 时 候 依然 可 以 
指定 O_DIRECT 参数 来 对 单个 文件 使 用 DIO Fr 与 Windows 下 CIFS 实现 方式 相同 , 如 果 选 
择 使 用 了 DIO 模式 ,那么 NFS 层 就 会 完全 透 传 程序 层 的 IO 请 求 。 如 图 19-50 所 示 , 以 DIO 方 
式 读 取 文件 ， 每 次 1B， 底 层 完 全 透 传 了 上 层 的 IO 请 求 。 


序号 .协议 


TO-RF3 一 YI ACCESS RepYy UCarr rr sy 


29 NFS V3 READ Reply (Call In 28) Len:1 

31 NFS V3 READ Call (Rep epYy In 32), En A offset:1 Len:1 
32 NFS V3 READ maply, (Call In 31) L 

34 NFS V3 READ Call (Reply In 35), ee :bxoae7efbs offser:2 Len:1 


Ns V3 READ rep 
39 NFS V3 READ Call (Reply In 40), en: joaerorbs offset:4 Len:1 
40 NES V3 READ Re 
41 NFS V3 READ Call CReply In 42)， LE :pxoaererbs Offset:5 Len:1 
3 READ 1 In 41) Li 

43 NFS V3 READ Call CReply In pe Eh: :pxoaererbs offset:6 Len:1 
In 4 

45 NFS V3 READ C Caeply In 46), Pn: Exoaersrbs offser:7 Len:1 
46 NFS V3 READ a Call In 45) Len:1 


图 19-50 DI0 模式 测试 结果 
10 ) 多 进程 访问 下 的 缓存 一 致 性 解决 办 法 
在 缓存 一 致 性 的 保证 方面 ，NFS 相 比 CIFS 来 讲 要 差 一 些 。CIFS 使 用 Oplock 机 制 来 充分 保 
证 文件 的 时 序 一 致 性 ;而 对 于 NES， 除 了 使 用 字 节 锁 或 者 干脆 使 用 DIO 模式 之 外 ， 没 有 其 他 方 
法 能 够 在 使 用 缓存 的 情况 下 严格 保证 时 序 一 致 性 , NEFS 只 提供 “尽力 而 为 ”的 一 致 性 保证 ， 而 且 
这 种 保证 全 部 由 客户 端 自行 实现 ，NEFS 服务 端 在 这 个 过 程 中 不 作为 。 下 面 我 们 就 来 看 一 下 NEFS 
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提供 的 尽力 而 为 的 一 致 性 保证 机 制 。 

比如 ， 有 两 个 客户 端 共同 访问 同一 个 NFS 服务 端 上 的 文件 ， 而 且 这 两 个 客户 端 都 使 用 本 地 
NFS 缓存 ， 那 么 客户 端 A 首先 打开 了 文件 并 且 做 了 预 读 ， 而 且 A 本 地 缓存 内 还 有 被 缓存 的 写 数 
据 。 此 时 客户 端 B 也 打开 了 这 个 文件 ， 并 上 且 做 了 预 读 ， 如 果 被 读 入 的 数据 部 分 恰好 是 A 被 缓存 
的 尚未 写 入 的 部 分 ， 那 么 此 时 就 发 生 了 时 序 不 一 致 。 而 这 种 情况 在 CIFS 下 是 不 会 发 生 的 ， 因 为 
B 打开 时 ， 服 务 端 会 强制 让 A 来 将 自己 的 写 缓存 Fush， 然 后 才 允 许 B 打开 ， 此 时 B 读 入 的 就 是 
最 新 的 数据 。 

再 回 到 NFS 来 ，B 上 某 进 程 打开 了 这 个 文件 之 后 ， 内 核 会 将 文件 的 属性 缓存 在 本 地 ， 包 括 
访问 时 间 、 创 建 时 间 、 修 改 时 间 、 文 件 长 度 等 信息 , 任何 需要 读 取 文 件 属性 的 操作 , 都 会 Cace Hit， 
直到 这 个 Attribute Cache (ac ) 达到 失效 时 间 为 止 ， 如 果 ac 达到 了 失效 时 间 , 那么 内 核 NFS 层 会 
向 服务 端 发 起 一 个 GETATTR 请 求 来 重新 取 回 文件 最 新 的 属性 信息 并 缓存 在 本 地 ，ac 失效 计时 
器 被 置 0, 重新 开始 计时 ,往复 执行 这 个 过 程 。 在 ac 缓存 未 超时 之 前 ， 客 户 端 不 会 向 服务 端 发 起 
GETATTR 请 求 ,除非 收 到 了 某 个 进程 的 Open0 请 求 。 其 他 诸如 stat 命令 等 读 取 文件 属性 的 操作 ， 
不 会 触发 GETATTR。 

在 任何 时 刻 , 任何 针对 NFS 文件 的 Open0 操 作 , 内核 均 会 强制 触发 一 个 GETATTR 请 求 被 
发 送 至 服务 端 以 便 取 回 最 新 的 属性 数据 。 这 样 做 是 合理 的 , 因为 对 于 Open0 操 作 来 说 , 内 核 必须 
提供 给 这 个 进程 最 新 的 文件 数据 ， 所 以 必须 查看 最 新 属性 以 与 ac 缓存 中 的 副本 对 比 。 如 果 新 取 
回 的 属性 信息 中 mtime 相对 于 本 地 缓存 的 信息 没有 变化 ， 则 内 核 会 擅自 替代 NEFS 服务 端 来 响应 
程序 的 Open0, 并 且 随 后 程序 发 起 的 读 操作 也 都 首先 去 碰 缓 存 命中 , 不 命中 的 话 再 将 请 求 发 给 服 
务 端 ， 这 一 点 类 似 CIFS 下 的 Batch Oplock; 但 是 如 果 新 取 回 的 文件 属性 中 对 应 的 mtime 比 缓存 
副本 晚 , 那么 就 证 明 有 其 他 客户 端的 进程 修改 了 这 个 文件 , 也 就 意味 着 本 地 的 缓存 不 能 体现 当前 
最 新 的 文件 数据 ， 全 部 作废 。 所 以 此 时 ， 内 核 NFS 会 将 这 个 Open0 请 求 透 传 到 服务 端 ， 随 后 发 
生 的 读 写 数据 的 过 程 依旧 先 Cache Hit( 由 于 之 前 缓存 作废 , 所 以 第 一 次 读 请 求 一 定 是 不 命中 的 )， 
未 命中 则 从 服务 端 读 取 。 随 着 缓存 不 断 被 填充 以 最 新 读 入 的 数据 , 命中 率 会 越 来 越 高 ， 而 且 直到 
下 次 出 现 同样 的 过 程 之 前 这 些 缓存 的 文件 属性 副本 和 数据 副本 不 会 作废 。 

ac 的 超时 值 是 可 控 的 ， 在 mount 的 时 候 可 以 指定 “actimeo= 秒 数 ” 这 个 参数 来 设 定 。 当 然 ， 
这 个 值 设 定 的 越 低 ， 客 户 端 发 送 GETATTR 到 服务 端的 频率 也 就 越 高 ， 就 能 更 快 地 感知 到 目标 
文件 的 变化 。 如 果 将 其 设置 为 0， 意味 着 不 缓存 文件 属性 信息 ， 那 么 客户 端 上 的 进程 每 次 查询 文 
件 属性 的 操作 (比如 stat 命令 ) 均 会 触发 一 个 GETATTR 被 发 送 到 服务 端 。 

Mount NFS 时 还 有 一 个 选项 叫做 “noac”, 即 No Attribute Cache 缩写 , 这 个 选项 与 actimeo=0 
的 区 别 是 ，noac 等 价 于 “actimeo=0”+“sync”。 

对 于 读 操 作 ， 使 用 noac 或 者 actimeo=0 选项 的 情况 下 ， 如 果 程 序 没有 使 用 DIO， 那么 内 核 
依然 有 预 读 行为 。 但 是 ， 为 了 确保 程序 读 入 的 数据 是 最 新 的 ， 每 次 程序 发 起 read0 ， 如 果 内 核 判 
断 这 个 read0 命 中 了 当前 的 缓存 , 则 会 同时 触发 getattr 发 向 服务 端 。 如 果 取 回 的 属性 mtime 未 变 ， 
则 从 缓存 中 将 数据 返回 给 程序 ;如果 mtime 有 变 ， 则 向 服务 端 发 起 read0 取 回 最 新 数据 。 如 果 程 
序 发 起 的 read0 未 命中 , 则 无 须 触发 GETATTR, 直接 向 服务 端 发 起 read0 取 回 数据 。 这 种 做 法 的 
好 处 是 极 大 地 利用 了 预 读 缓存 , 每 个 read0 用 一 个 GETATTR 为 代价 来 探寻 缓存 的 文件 属性 是 否 
为 最 新 ， 一 旦 走运 为 最 新 ， 那 么 即 可 不 需要 向 服务 端 发 起 read0。 

如 果 使 用 DIO 模式 ， 每 个 程序 发 起 的 read0 就 均 会 被 映射 为 内 核 向 服务 端 发 起 的 read0， 享 
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受 不 到 预 读 缓存 的 效果 。 使 用 上 面 这 种 方法 ， 虽 然 每 个 read0 均 会 导致 发 送 一 次 GETATTR, 但 
是 GETATTR 消耗 的 资源 相 比 read0 来 讲 是 很 少 的 。 但 是 这 样 做 依然 对 性 能 有 很 大 的 影响 , 如果 
整个 环境 中 只 有 一 台 客 户 端 ， 那 么 使 用 noac 是 严重 浪费 网 络 和 系统 资源 的 ， 一 个 进程 可 能 在 单 
位 时 间 内 发 起 大 量 的 read0 操 作 , 就 算是 这 些 read0 均 命中 了 缓存 , 那么 依然 不 能 避免 内 核 在 底层 
会 发 向 与 read0 调 用 等 同 数量 的 GETATTR 请 求 数据 包 给 NFS 服务 端 , 网 络 上 可 以 看 见 成 干 上 万 
的 GETATTR, 这 是 多 此 一 举 的 行为 , 缓存 的 提速 作用 都 被 外 部 网 络 的 速度 给 制约 了 , 根本 没有 
体现 出 来 ， 所 避免 的 仅仅 是 被 假设 的 可 能 需要 从 服务 端 读 数据 的 过 程 。 

CIFS 的 Oplock 模式 一 旦 某 个 客户 端 锁 被 剥夺 ， 那 么 除非 进程 再 次 Open0 ， 否 则 不 可 能 再 使 用 
本 地 缓存 。 但 是 NFS 下 可 以 随时 使 用 缓存 ， 只 要 GETATTR 取 回 的 信息 中 mtime 未 变 。 就 算 mtime 
变 了 ， 本 地 缓存 作废 ， 之 后 还 会 积累 新 的 缓存 数据 可 供 Read Cache Hit， 直 到 下 一 次 作废 为 止 。 

总 结 : Linux 下 的 NFS 缓存 一 致 性 解决 办 法 ， 从 严格 到 不 严格 依次 为 程序 使 用 DIO 模式 、 
使 用 noac 选项 来 mount、 降 低 actimeo 阔 值 到 尽量 低 的 值 、 默 认 mount 参数 。 按 照 这 个 顺序 , 客 
户 端 获 得 的 性 能 是 递减 的 ，DIO 模式 根本 无 法 使 用 缓存 ，noac 模式 只 能 靠 发 送 GETATTR 来 磁 
运气 使 用 预 读 缓存 ，actimeo 超时 周期 内 则 可 以 肆 无 尽 蛋 地 使 用 本 地 缓存 而 不 需要 向 服务 端 发 起 
GETATTR 来 探 询 。 默 认 mount 参数 的 actimeo=60， 也 就 是 1 分 钟 ， 所 以 缓存 发 挥 的 作用 更 大 。 
GETATTR 是 多 客户 端 访问 环境 下 NFS 实现 缓存 一 致 性 的 法 宝 。 

11 ) Linux 上 使 用 CIFS 与 Windows 上 使 用 NFS 

我 们 知道 ，Linux 上 现在 已 经 可 以 直接 以 CIFS 协议 来 mount 一 个 CIFS 服务 端的 共享 目录 ， 
同时 Windows 上 也 可 以 通过 安装 Microsoft 提供 的 Windows Services for UNIX (SFU ) 开发 包 来 
实现 对 NFS 服务 端的 mount。 现 在 我 们 来 调查 一 下 这 两 者 的 一 些 行为 与 原配 情况 下 有 什么 异同 。 
Linux 使 用 RHEL5， 自 带 了 对 CIFS 的 支持 ; Windows 使 用 WinXP SP3， 安 装 SFU 3.5 开发 包 。 

我 们 首先 调查 Linux 上 使 用 CIFS 的 情况 。 使 用 默认 参数 mount -t cif 命令 来 mount 服务 端 
的 一 个 共享 目录 。 如 图 19-51 所 示 ， 图 中 第 一 项 结果 对 应 用 dd 进行 同步 +Buffered IO 模式 从 日 
录 某 文件 中 读 出 lbyte 的 内 容 的 过 程 ; 第 二 项 结果 对 应 用 dd 进行 同步 +Buffered IO 模式 每 次 1B 
读 入 10000 次 的 过 程 ; 第 三 项 结果 对 应 使 用 测试 程序 进行 Buffered IO+ 同 步调 用 模式 以 1B 为 单 
位 持续 随机 读 取 文件 的 过 程 ; 第 四 项 结果 对 应 使 用 测试 程序 进行 Buffered IO+ 同 步调 用 
+WriteThrough 模式 以 1B 为 单位 持续 随即 覆盖 写 入 文件 的 过 程 。 


郭 号. 协议 信息 
10 SB NT Create AndX ReqUest, FID: x0002, PatF: 


11 shB NT Create Andx Response, FID: DxD00: 

新 避 | 协议 “| 村 间 12 SNB Read AndxX Reouest, FID: 0x0002, 11 18384 bytes at offset 0 

| a 25 SNB Read Andx Response, FID: Ox0002, 16384 es 

WNT 。 35 SMe Read Andx Reouest, FID: 0x0002, 16384 bytes at offset 16384 
30 SMB ”Read Andx Response, FID: 0x0002， 16384 bytes 47 SNB 。 Read Andx Response, FID: Ox0002, 163: 


B es 
36 SMB Close Request，FID: 0x000: 本 本本 入村 和 RE 区 faby bye sat offset 32768 
3 ME ose Redponse, "FRD: OX0002 


at offset $222400 
offset 5222400 


offset 


88 byYes’ at offser sa02304 
41 SB : 0x0004，4096 bytes 
Rd Mn Er ORG00d! "ado8 byYES ar offser 8232960 


ar offser 7159808 


图 19-51 Linux 呈正 全 有 CIFS 
从 上 图 的 各 项 测试 结果 来 看 ，Linux 下 的 CIFS 访问 方式 同样 存在 读 写 惩罚 ， 究 其 原因 还 是 
由 于 Page Cache 导致。 看 来 Linux 下 除了 使 用 NFS 可 以 避免 惩罚 之 外 , 本 地 文件 系统 和 CIFS 文 
件 系统 均 无 法 避免 读 写 惩罚 。Linux 下 还 是 使 用 原配 的 NFS 最 好 。 
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我 们 再 来 看 一 看 Windows 上 使 用 NFS 访问 的 情况 。 如 图 19-52 所 示 , 第 一 项 结果 对 应 使 用 
测试 工具 进行 Buffered IO+ 同 步调 用 模式 下 以 1B 为 单位 对 文件 进行 随机 读 的 过 程 ; 第 二 项 结果 
对 应 使 用 测试 工具 进行 Buffered IO+ 同 步调 用 +WriteThrough 模式 下 以 1B 为 单位 对 文件 进行 随机 
写 的 过 程 ;第 三 项 结果 对 应 用 测试 工具 进行 Buffered IO+ 同 步调 用 模式 下 以 1B 为 单位 对 文件 进 
行 连续 地 址 写 的 过 程 。 


协议 Wi 
a 信息 于 NS Ud Wre Call, ReiO arrb Off ser:d208787 6 RE 


29 NFS V3 READ Cal], FH:0x0ae79fb8 offset:8411595 Len:1 55 NFS VS 
: NF 


a 外 5 ns FILE_swe 

58 MRETE ey ve 3 5 ey 时 

32 NFS V3 READ Reply (Call In 31) Len:1 [ea RONOaa lensl FLEA 

a T4220 Eni NE Ee A Se oe a ret Hs Lenil FILE_swe 
READ NMS VB MTE Reply aN IN en) LensT HLE 

35 NFS V3 READ Call, FH:0x0ae79fb8 offset:4198359 Len:1 62 NFS V3 WRITE Cal 3 FH:0x0ae79fb8 offset: 775 Len:1 FILE_SYNC 


31 NFS V3 READ Reply (Call In 30) Len:1 
32 NFS V3 READ Call, FH:0x0ae79fb8 offset:6 Len:1 
33 NFS V3 READ Reply (Call In 32) Len:1 
34 NFS V3 READ Call, FH:0x0ae79fb8 ak 7 Len:1 
35 NFS V3 READ Reply (Call In 34) Len:1 
36 MES V3 READ Caf1Y FH:Oxoae79fbs offset:s Len:1 


图 19-52 Windows 下 使 用 NFS 

是 否 产生 读 写 惩罚 与 操作 系统 的 具体 实现 有 关系 , 不 能 将 这 种 惩罚 归于 某 个 协议 的 缺陷 , 协 
议 自身 是 没有 这 种 惩罚 缺陷 的 。 每 个 协议 作为 一 个 模块 嵌入 操作 系统 的 驱动 链 , 产生 惩罚 的 原因 
在 于 OS 与 模块 之 间 的 接口 设计 。 

Windows 与 Linux 对 待 本 地 文件 都 使 用 Page Cache 映射 方式 ，Linux 对 块 设备 也 使 用 Pcache 
映射 。 两 个 操作 系统 均 有 读 写 惩罚 现象 。Windows 对 待 NTFS 与 CIFS 文件 系统 是 一 视 同仁 ， 而 
Linux 下 则 进行 有 区 别 的 对 待 ， 充 分 考虑 了 NFS 网 络 IO 的 效率 等 因素 。 但 是 遗憾 的 是 Linux 与 
CIFS 之 间 的 接口 尚 待 完 善 。 而 Windows 与 NFS 模块 之 间 则 为 彻底 的 DIO 模式 ， 完 全 透 传 ， 这 
也 不 失 为 一 种 快刀 斩 乱 麻 的 实现 方式 。 


19.1.2 ”文件 系统 层 


文件 系统 是 系统 IO 路 径 中 首当其冲 的 一 个 比较 大 的 模块 。IO 离开 应 用 层 之 后 ， 便 经 由 OS 
相关 操作 被 下 到 了 文件 系统 层 进行 处 理 。 文 件 系统 一 个 最 大 的 任务 就 是 负责 在 逻辑 文件 与 底层 卷 
或 者 磁盘 之 间 做 映射 ， gr 文件 系统 还 需要 负责 向 上 层 提 供 文 件 IO 
访问 API 接口， 比如 打开 、 读 、 写 、 属 性 修改 、 裁 剪 、 扩 充 、 锁 等 文件 操作 。 另 外 ,还 需要 维护 
缓存 , 包括 预 读 、Wirite Back 、Write Through、Flush 等 操作 ; 还 需要 维护 数据 一 致 性 , 比如 Log、 
FSCK 等 机 制 ; 还 需要 维护 文件 权限 、Quota 等 。 

可 以 把 一 个 文件 系统 逻辑 地 分 为 上 部 、 中 部 和 下 部 。 访 问 接口 属于 上 部 ; 缓存 管理 、 文 件 管 
理 等 属于 中 部 ; 文件 映射、 一 致 性 保护 、 底 层 存 储 卷 适 配 等 属于 下 部 。 


1. 文件 系统 上 部 


文件 系统 对 用 户 的 表示 层 处 于 最 上 部 , 比如 Linux 下 的 表示 法 “/root/a.txt”、“/dev/sdal”、 
“/mnt/nfi” 或 者 Windows 下 的 表示 法 “D:\a.txt+”、“Z 在 192.168.1.1 上 的 Share\1.txt”。 文件 
系统 表示 层 给 用 户 提供 了 一 种 简洁 直观 的 文件 目录 , 用 户 无 须 关心 路 径 对 应 的 具体 实体 处 于 底层 
的 哪个 位 置 , 处 于 网 络 另 一 端 , 还 是 磁盘 上 某 个 磁道 扇 区 。 这 种 FS 最 顶层 的 抽象 称 为 Virtual File 
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System (VFS)。 

文件 系统 访问 接口 层 也 位 于 上 部 。 由 于 接口 层 直 接 接受 上 层 IO, 而 IO 又 有 14 种 ( 见 表 
19-1 ), 文 件 系统 会 受到 这 14 种 IO 的 摧残 . 面 对 这 种 摧残 ,文件 系统 还 是 有 点 对 策 的 .在 Windows 
系统 下 ，NTEFS 提供 了 两 种 适 配 IO 类 型 的 API: FILE_FLAG_SEQUENTIAL_ SCAN 和 
FILE_FLAG_RANDOM_ACCESS。 在 应 用 程序 打开 一 个 文件 时 可 以 在 调用 相关 函数 的 时 候 给 出 
对 应 的 Flag。 前 者 表示 应 用 准备 对 这 个 文件 进行 连续 读 写 ( LBA 地 址 连续 ) 访问 ， 如 果 使 用 这 个 
参数 而 且 使 用 系统 内 核 缓存 , 那么 文件 系统 会 加 大 默认 的 预 读 力 度 和 频率 , 这 个 参数 在 不 使 用 系 
统 内 核 缓存 时 是 无 效 的 ; 后 者 则 表示 应 用 准备 对 这 个 文件 进行 随机 读 写 访问 , 那么 文件 系统 就 会 
降低 默认 的 预 读 力度 和 频率 以 避免 不 必要 的 浪费 。 

我 们 在 此 做 一 个 “疯狂 实验 ”来 折磨 一 下 文件 系统 ， 笔 者 用 Asynchronous Explore 进行 使 用 系 
统 内 核 缓存 的 随机 IO ， 但 同时 又 指定 了 连续 IO 参数 ， 通 告 FS 程序 要 进行 连续 IO 但 实际 却 给 出 
随机 IO。 这 显然 是 矛盾 的 。 我 们 利用 这 个 矛盾 来 调查 文件 系统 是 否 也 跟着 我 们 矛盾 。 如 图 19-53 
所 示 , 在 抓 取 的 iSCSI 包 结果 中 我 们 可 以 看 到 , 在 一 开始 瞬间 的 21 号 包 表 示 FS 向 底层 存储 发 起 了 
一 个 长 度 为 128B 的 读 IO， 这 显然 受到 了 那个 参数 的 影响 ， 随 后 的 几 个 长 度 为 128B 的 IO 表明 FS 
接连 预 读 了 几 次 。 随 后 ， 再 也 没有 发 生 超 长 度 IO, 表明 FS 从 此 不 再 进行 预 读 了 ( 后 续 还 有 数 百 个 
IO， 图 中 没有 截 出 ) 。 这 说 明 FS 是 很 有 智能 的 ， 它 一 开始 参考 给 出 的 参数 ， 但 是 随后 它 发 现 上 层 
给 出 的 IO 并 不 是 连续 的 ， 受 骗 了 ， 所 以 愤然 不 再 预 读 。 


mm Proteeod neo 


Read(10) LUN: 
: Read(10) LUN: Ox00 (LI 
: Read(10) LUN: Ox00 (LI 
: Read(10) LUN: Ox00 (LI 
139 iScsI 。 SCSI: Read(10) LUN: Ox00 《Li 
201 iScsI 。 SCSI: Read(10) LUN: Ox00 《Li 
268 iSCSIT 。 SCSI: Read(10) LUN: Ox00 《Li 
273 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
277 iScSI 。 SCSI: Read(10) LUN: Ox00 《Li 
323 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
341 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
351 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (LI 
418 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
423 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
432 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
437 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
446 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
456 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
461 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
471 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
480 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
485 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
494 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
499 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
504 1SCS1 。 SCSL: ReadC10) LUN: Ox00 (CL! 
509 isCST 。 SCSI: Read(10) LUN: Ox00 (Li 
514 isCST ~ SCSI: Read(10) LUN: Ox00 (Li 
519 iscsI ScsI: Read(10) LUN: Ox00 (Li 
524 iscsI 。 SCSI: Read(10) LUN: Ox00 (Li 
529 iscsI ScsI: Read(10) LUN: Ox00 (Li 
534 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
539 iscsI ScsI: Read(10) LUN: Ox00 (Li 
544 iSCSIT 。 SCSI: Read(10) LUN: Ox00 (Li 
549 iscsI ScsI: Read(10) LUN: Ox00 (Li 
554 iSCSI 。 SCSI: Read(10) LUN: Ox00 (Li 
564 iSCSIT ScsI: Read(10) LUN: Ox00 (Li 
569 iscsI ScsI: Read(10) LUN: Ox00 (Li 
574 isCST ScsI: Read(10) LUN: Ox00 (Li 
579 isCST ScsI: Read(10) LUN: Ox00 (Li 
584 isCST ScsI: Read(10) LUN: Ox00 (Li 
589 isCST ScsI: Read(10) LUN: Ox00 (Li 
594 iscsI ScsI: Read(10) LUN: Ox00 (Li 
604 iSCSI SCSI: Read(10) LUN: Ox00 (Li 
609 iSCsI SCsI: Read(10) LUN: Ox00 (Li 站 
613 isCsIT 。 SCSI: Read(10) LUN: Ox00 (LBA: 0x008d8ce9, 
619 iscsIT SCsI: Read(10) LUN: Ox00 (LBA: 0x008cb3c9, 


图 19-53 验证 FS 预 读 行为 
2. 文件 系统 中 部 


缓存 位 于 文件 系统 中 部 。 预 读 和 Write Back 是 文件 系统 的 最 基本 功能 , 可 以 参考 上 文中 的 示 
例 来 理解 文件 系统 预 读 机 制 。 缓 存 预 读 对 不 同 IO 类 型 的 优化 效果 也 是 不 同 的 ， 参 考 表 19-2。 
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表 19-2 不 同 IO 类 型 的 缓存 效果 


类 别 优化 效果 缓存 行为 和 加 速效 果 
小 块 连 最 好 每 个 IO 几乎 都 会 命中 , 命中 率 越 高 , 持续 时 间 越 长 , FS 预 读 力度 就 会 保持 ， 
续 读 IO | 一 预 读 的 保持 又 反 过 来 保持 了 后 续 IO 的 命中 。 相 互 促 进 ， 为 最 优 的 方式 


WB 模式 下 很 | 在 数据 量 不 大 时 ，WB 模式 下 甚至 比 读 效果 还 要 好 ， 因 为 每 个 写 IO 只 要 进 


A 好 ，wT 模式 | 入 系统 内 核 缓存 即 完成 。 但 是 数据 量 比较 大 的 时 候 ， 系 统 内 核 缓存 会 很 快 被 
续 写 IO | 下 缓存 无 效 “ | 塞 满 ， 会 触发 持续 的 Flush 操作 写 盘 动作 ， 此 时 缓存 趋 于 失效 

人 让 | 好 高 各 | 类 所 比较 大 时 ， 册 于 系统 内 核 朋 存 容量 有 限 ， 记 会 良 不 上 前 出 的 TO 请 
大 过 | 量 情况 下 组 | 求 ,造成 IO 刚 开始 时 命中 率 很 高 响应 时 间 很 低 。 随 后 ， 命 中 率 迅 束 降 低 ， 

续 读 1O | 存 趋 于 失效 | 响应 时 间 升 高 。 整 体 性 能 表现 为 后 端 存储 所 提供 的 读 性 能 ， 缓 丰 趋 于 失效 

大 决 连 系统 内 核 组 在 很 快 被 守 满 ， 持 续 Fush 动作 开始 ， 整 体 性 能 表现 为 后 并 存储 


续 写 IO | -- 般 所 提供 


写 性 能 ， 类 似 Write Through。 缓 存 趋 于 失效 
命中 率 是 所 有 情况 下 最 低 的 。FS 预 读 力度 降 至 最 低 , 缓存 趋 于 无 效 。 整 体 性 
能 表现 为 后 端 存储 所 提供 的 性 能 
WB 模式 下 很 | 在 数据 量 不 大 时 ，WB 模式 下 甚至 比 读 效果 还 要 好 ， 因 为 每 个 写 IO 只 要 进 
好 ，WT 模式 | 入 系统 内 核 缓存 即 完成 , 不 管 是 随机 还 是 连续 IO, 对 于 RAM 来 说 随机 和 连 
下 缓存 无 效 而 | 续 基本 上 没有 意义 ，RAM 不 需要 机 械 寻 道 。 但 是 数据 量 比较 大 的 时 候 ， 系 
且 对 于 底层 也 | 统 内 核 缓存 会 很 快 被 塞 满 ， 会 触发 持续 的 Flush 操作 写 盘 动作 ， 此 时 缓存 趋 
是 最 差 的 于 失效 
命中 率 是 所 有 情况 下 最 低 的 。FS 预 读 力度 降 至 最 低 , 缓存 趋 于 无 效 。 整 体 性 
能 表现 为 后 端 存储 所 提供 的 性 能 


WB 模式 下 较 
大 块 随 | 差 .WT 模式 | 大 块 写 IO 会 比较 迅速 地 塞 满 缓存 ， 所 以 这 种 情况 下 FS 会 持续 Flush。 整 体 
机 写 IO | 下 无 效 量 对 底 | 性 能 表现 为 后 端 存储 所 提供 的 性 能 ， 由 于 是 随机 IO 而 且 是 写 ， 慢 上 加 慢 
层 来 讲 很 差 
总 体 来 讲 比 | 纯 异 步 IO 会 在 单位 时 间 内 发 送 大 批 IO 请 求 , 如 果 是 连续 IO 则 会 有 较 高 的 
并 发 IO | 顺序 IO 强 很 | 命中 率 从 而 保持 较 高 的 吞吐 量 ;如果 是 随机 IO， 多 个 随机 IO 有 可 能 被 FS 
多 的 IO Combination 机 制 组 合 从 而 比 顺 序 IO 模式 下 获得 更 高 的 效率 


最 差 的 IO 方式 ， 不 仅 耗费 更 多 资源 而 且 动作 缓慢 ， 效 率 低下 
相 比 虚 IO 来 | 实 IO 指 文件 实体 数据 的 读 写 ， 由 于 实体 数据 比 Metadata 数据 要 大 ， 所 以 一 


到 | 讲 绞 差 般 情况 下 命中 率 不 高 ， 多 数 情 况 需 要 访问 底层 存储 磁盘 
指 读 或 者 更 改 文 件 属性 或 SCSVATA 协议 中 其 他 非 实体 数据 操作 的 IO 请 求 。 
| 呈 前 者 数据 为 Meuadata， 大 部 分 时 间 都 将 被 缓存 ， 所 以 能 够 保持 持续 的 高 命中 


率 ，IO 很 快 完成 ; 后 者 则 是 协议 层 的 原子 操作 ， 由 于 不 涉及 磁盘 机 械 寻 道 ， 
所 以 也 将 很 快 完成 

文件 系统 都 会 保存 有 空余 的 缓存 空间 来 随时 应 付 突 发 IO。 突 发 IO 也 就 意味 
着 缓存 将 被 迅速 塞 满 而 趋 于 失效 。 所 以 整体 性 能 表现 为 后 端 存储 所 提供 的 性 能 
在 间断 期 间 , 文件 系统 可 以 有 较 多 的 时 间 来 对 Queue 中 的 IO 进行 优化 操作 
间断 IO | 较 好 ( 见 下 文 ) ， 而 后 Flush 写 盘 , 产生 更 多 的 空余 缓存 空间 用 于 接受 下 一 次 批量 
IO。 所 以 整体 性 能 保持 良好 


突 发 IO | 一 般 


持续 IO 不 会 有 间断 ， 所 以 FS 需要 持续 地 联动 起 来 ， 持 续 地 Flush 动作 ,组 
存 趋 于 失效 ， 整 体 性 能 趋 于 后 端 存储 所 表现 的 性 能 


持续 IO | 一 般 
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Os 可 以 提供 一 些 可 供用 户 自行 设置 的 参数 来 控制 文件 系统 预 读 力度 , 比如 AIX 系统 便 提供 
了 j2_maxpagereadahead 参数 来 控制 JFS2 文件 系统 的 预 读 力度 , 这 个 参数 的 值 表示 FS 做 预 读 操作 
时 向 底层 发 起 的 IO Size。 比 如 , 将 其 设置 为 4 则 表示 每 个 预 读 IO Size 为 4 个 缓存 Page， 也 就 是 
4x4KB=16KB。 下 面 我 们 用 数据 来 说 明 FS 预 读 的 效果 。 首先 看 一 下 将 j2_maxpagereadahead 改 为 
4 之 后 , cp 一 个 文件 所 耗费 的 时 间 以 及 底层 向 存储 系统 发 起 的 IO 情况 。 其 中 Read Ops 表示 每 秒 
读 操 作 数 ，Read KB 表示 每 秒 读 带 宽 吞 吐 量 。 


aix-cn22:/#ioo -o j2 maxPageReadAhead=4 
Setting j2 maxPageReadAhead to 4 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om17.07s 

user 0m0 .28s 

sys Omll.00s 


Read Write Other QFull Read Write Average Queue Lun 


Ops Ops 
3994 0 
3116 0 


Ops kB kB Latency Length 
0 0 63888 0 0.00 0.08 /vol/Lun/Lunaix 
0 0 49872 0 0.00 0.07 /vol/Lun/Lunaix 


我 们 看 到 cp 耗费 了 17 秒 ， 底 层 预 读 发 起 的 IOPS 为 3000 ~ 4000 之 间 。 再 来 看 一 看 将 
j2_maxpagereadahead 改 为 64 之 后 的 结果 。 可 以 看 到 cp 耗费 了 11 秒 ， 大 大 加 快 了 ， 而 且 底 层 预 
读 耗 费 的 IOPS 仅 为 400 左右 ， 差 不 多 是 前 者 的 十 分 之 一 ， 同 时 带宽 也 达到 了 测试 用 的 1GbA 的 
iSCSI 以 大 网 链 路 的 极限 。 

aix-cn22:/#ioo -o j2 maxPageReadAhead=64 
Setting j2 maxPageReadAhead to 64 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Omll.67s 

user 0m0 .22s 

Sys 0m9.34s 


Read Write Other QFull Read Write Average Queue Lun 


Oops Ops 
383 0 
437 0 


我 们 


Ops kB kB Latency Length 
0 0 97856 0 1.04 0.03 /vol/Lun/Lunaix 
0 0 95936 0 0.90 0.03 /vol/Lun/Lunaix 


j 来 看 一 看 图 19-54， 这 个 实验 中 , 在 Windows 系统 中 使 用 测试 工具 对 某 个 文件 使 用 


以 200B 为 单位 的 连续 读 操作 ，NTEFS 文件 系统 此 时 的 预 读 力度 达到 了 最 大 ， 左 侧 显示 了 系统 底 
层 发 向 存储 设备 的 IO， 每 个 IO 的 长 度 几 乎 都 是 128， 即 64KB。 


序号 协 党。 信息 


IsCST sesi: 

5 iscs1 scsi; 

6 iscsI SCSI: 
77 1sCSIT scsI: 
79 iscs! scsI: 
143 isCSI SCsI: 
145 isCSI scsI: 
213 1SCSI SCSI: 
215 iscs! scsI: 
283 iscsIT scC5I: 
285 isCSIT SCSI: 
353 iscs1 scsI: 
355 iscs! scsI: 
423 iscst scsI: 
425 isCSI scsI: 
493 isCSI SCSI: 
495 iSCSI scsI: 
563 iscsI ScsI: 
565 iSCSI 5C5I: 
633 isCSIT SCSI: 


Read(10) LuN: 0x00 (LEA: 0x00003af3，Len: 8)》 
Data In LUN: 0x00 (Read(10) Response Data) SCSI: # 请 求 路 。 其 好 
Read(10) LUN; a (LBA: Ox00003afb, Len: 128) 


(RP MI-CREATE FA5 Opione Open WooThrough Access 001000 
FA5 Offset OLengh 200 

”FA\5 Offset O Lengh 4096 

FA5 Offset 200 Lengt 200 
Read(10) LUN: Len: 
Data In LUN: Ox00 (Read(10) Response Dara) SCSI: 和 区 RE 上 条 0 

5 13 FASTIO-READ 。 F\5 Offset 600 Length 200 

Read(10) LUN: 0x00 (LBA; Ox00003c73, Len: 128) 
Data In LUN: 0x00 (Read(10) Response Data) SCSI 3 FASTOAEAD “FANS ie Songir209 
Read(10) LUN: 0x00 (LBA: Ox00003cf3, Len: 128) ST ED ENS et VON engie 200 
Data In LUN: Ox00 (Read(10) Response Dara》 SCSI: 19 FASTIO_READ  F:\5 Offset 1200Length: 200 
Read(10) LUN: Ox00 (LBA: Ox00003d73, Lan: 128) FASTIO-READ 。 Fi\5 Offset 1400 Lengl 200 
Data In LuN: 0x00 (Read(10) Response Dara) SCsT: FASTIO-READ 。 FA5 Offset 1600 Lengh 200 
Read(10) LUN: 0x00 (LBA: Ox00003dF3, Len: 128) FASTIO-READ = F\5 Otfset 1800 Lenglh 200 
Data In LUN: 0x00 (Read(10) Response Dara) SCSI: FASTIO-READ «Fi\5 Offset 2000 Length 200 
Read(10) LUN: Ox00 (LBA; Ox00003e73, Lan: 123) 
Data In LUN: 0x00 (Read(10) Response Dara) SCSI: 
Read(10) LUN: Ox00 (LBA: Ox00003ef3, Len: 128) 
Data In LUN: 0x00 (Read(10) Response Dara) SCSI: 


vso- 


Offset 2200 Length 200 
FASTIO-READ 。 F:\5 Offset 2400 Lenglr 200 
FASTIO-READ 。 F\5 Offset 2600 Length: 200 
FASTIO READ 。 Fi\5 Offset 3000 Lenath 200 


图 19-54 FS Aggressive Prefetch 


EEFEEEEE 
加 
5 
名 
如 
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右 侧 显示 了 测试 程序 所 在 的 操作 系统 底层 的 行为 , 可 以 看 到 7 号 记录 是 一 个 由 于 读 惩罚 而 产 
生 的 惩罚 读 ( 带 星 号 记录 ， 凡 是 由 于 Page Fault 导致 的 Page In 操作 ,都 带 星 号 ) ， 但 是 后 续 再 也 
没有 出 现 惩罚 读 ， 因 为 需要 读 入 的 数据 早已 被 预 读 ， 不 再 产生 Page Fault。 

对 于 应 用 程序 的 写 IO 操作 ， 文 件 系统 使 用 Write Back 模式 提高 写 IO 的 响应 速度 。 这 种 模 
式 下 , 应 用 程序 的 写 IO 数据 会 在 被 复制 到 系统 内 核 缓存 中 之 后 而 被 通告 为 完成 , 而 此 时 FS 可 能 
尚未 将 数据 写 入 磁盘 , 所 以 ， 如 果 此 时 系统 发 生 Down 机 , 那么 这 块 数据 将 丢失 ， 而 应 用 程序 可 
能 并 不 知道 数据 已 经 丢失 从 而 造成 错乱 的 逻辑 , 可 能 造成 严重 的 后 果 。 这 种 担忧 在 关键 业务 应 用 
中 是 绝对 要 杜绝 的 。NTEFS 文件 系统 提供 了 另 一 个 参数 : FILE_FLAG_WRITE_THROUGH， 只 
要 程序 在 打开 某 个 文件 时 给 出 这 个 参数 ,那么 程序 的 写 IO 数据 依然 会 先 被 复制 到 系统 内 核 缓存 ， 
文件 系统 随即 立即 将 这 份 数 据 写 入 磁盘 ， 然 后 向 程序 返回 完成 的 信号 。 这 个 参数 与 
FILE_FLAG_NO_BUFFERING 不 同 , 后 者 表示 读 和 写 IO 均 不 使 用 缓存 , 而 前 者 读 IO 依然 使 用 
缓存 。 所 以 ,数据 库 类 程序 启动 时 在 打开 Log 文件 时 都 会 给 出 这 个 参数 。Write Back 又 可 以 称 为 
Delay Write 或 者 Lazy Write， 即 数据 并 不 是 立即 就 被 写 入 底层 存储 的 。Write Back 模式 除了 会 丢 
失 数据 这 个 致命 缺点 之 外 ， 番 下 的 全 是 优点 ， 比 如 ， 大 大 降低 IO 响应 时 间 ， 还 有 大 大 增加 写 命 
中 率 。 

提示 : 何谓 “ 写 命中 ”? 读 命中 率 大 家 都 理解 ， 即 待 读 取 的 数据 已 经 存在 于 缓存 中 而 无 须 

从 磁盘 读 入 缓存 。 而 对 于 写 I0， 每 个 写 I0 数据 都 将 首先 被 放 入 缓存 ， 然 后 才 会 被 写 信 磁 

盘 ， 岂 不 是 每 个 写 I0 都 会 命中 缓存 么 ”哪里 来 的 “命中 率 ” 呢 ?试想 这 样 一 种 情况 ，T1 

时 刻 有 针对 地 址 LBA1 的 B1 数据 待 写 人 ，B1 进入 缓存 后 , 由 于 Write Back 机 制 ，B1 尚未 

被 写 人 硬盘 之 前 ，T2 时 刻 应 用 又 发 起 了 针对 同 地 址 的 写 I0 操作 B2， 那 么 此 时 FS 是 否 有 

必要 让 B2 来 占用 新 的 缓存 空间 呢 ? 随后 当 FS 需要 将 数据 写 入 硬盘 时 ， 先 写 入 B1， 然 后 

又 写 人 了 B2， 这 是 没 问题 的 。 但 是 如 果 先 写 人 了 B2， 后 写 人 了 B1 呢 ? 这 时 候 就 是 大 问 

题 了 。 实 际 上 ，FS 在 接收 到 B2 数据 后 ， 会 将 B2 覆盖 B1， 因 为 从 时 间 历 史 角 度 看 ，B1 

已 经 不 复 存 在 ， 在 随后 的 写 盘 动作 时 ， 只 需要 一 次 而 不 是 两 次 写 人 动作， 节约 了 后 端 IO 

资源 。 这 便 是 写 命 中 , 即 待 写 入 的 数据 对 应 的 地 址 在 缓存 中 恰好 存在 之 前 的 尚未 被 写 盘 的 

IO 数据 。 


文件 系统 还 使 用 另外 一 种 IO 优化 机 制 , 叫做 IO Combination。 假设 T1 时 刻 有 某 个 IO 目标 
地 址 段 为 LBA0~1023, 被 FS 收 到 后 暂 存 于 IO Queue 中 ; T2 时 刻 ，FS 尚未 处 理 前 一 个 IO, 此 
对 又 有 一 个 与 第 一 个 IO 同类 型 ( 读 / 写 ) 的 IO 被 收 到 ， 目 标 地 址 段 为 LBA1024~ 2047。FS 将 这 
个 IO 追加 到 IO Queue 末尾 。T3 时 刻 , FS 准备 处 理 Queue 中 的 IO ，FS 会 扫描 Queue 中 一 定数 
量 的 IO 地 址 ， 此 时 FS 发 现 这 两 个 IO 的 目标 地 址 是 相 邻 的 ， 并 且 都 是 读 或 者 写 类 型 ， 则 Fs 会 
将 这 两 个 IO 合并 为 一 个 目标 地 址 为 LBA0~2047 的 IO， 并 且 向 底层 存储 系统 发 起 这 个 IO， 待 
数据 返回 之 后 ，FS 再 将 这 个 大 IO 数据 按照 地 址 段 拆 分 成 两 个 IO 结果 并 且 分 别 返 回 给 请 求 者 。 
这 样 做 的 目的 是 节约 后 端 IO 资源 , 增加 IOPS 和 带宽 吞吐 量 。 每 发 起 一 个 IO,SCSI 协议 层 以 及 
底层 传输 协议 层 都 会 有 相应 的 开销 , 如 果 能 够 将 本 来 需要 多 次 发 送 的 IO 合并 为 一 次 IO, 那么 对 
应 的 协议 开销 就 会 避免 。 


3. 文件 系统 下 部 
文件 系统 下 部 包括 文件 一 块 映射 、Flush 机 制 、 日 志 记 录 、FSCK 以 及 与 底层 卷 接口 等 相关 操作 。 
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位 于 FS 下 部 的 一 个 重要 的 机 制 是 文件 系统 的 Flush 机 制 。 在 WB 模式 下 ，Fs 会 暂 存 写 IO 
实体 数据 与 文件 的 Metadata。FS 当然 不 会 永久 地 暂 存 下 去 而 不 写 入 磁盘 。 文件 系统 会 在 适当 的 条 
件 下 将 暂 存 的 写 IO 数据 写 入 磁盘 , 这 个 过 程 叫做 Flush。 有 多 种 条 件 可 以 触发 Flush: 距 上 次 Flush 
时 间 、 某 个 缓存 Page 在 缓存 中 待 的 最 长 时 间 、 应 用 强制 触发 的 Flush、FS 自身 为 了 实现 某 功能 ( 比 
如 快照 ) 而 自行 Flush 以 及 其 他 各 种 原因 。 

同样 , 位 于 文件 系统 的 下 部 还 有 文件 映射 处 理 模块 。 在 NTFS 文件 系统 中 ,一 种 被 称 为 Sparse 
File 的 处 理 机 制 可 以 大 大 节约 文件 实际 占用 磁盘 的 空间 ， 而 且 还 可 以 加 快 读 写 速度 。 某 些 文件 本 
身 非 常 大 ， 但 是 文件 中 包含 的 数据 大 部 分 都 是 二 进 制 0， 如 果 考 虑 压缩 这 些 0 从 而 降低 实际 物理 
占用 空间 ，NTEFS 自身 的 压缩 机 制 是 可 以 做 到 的 ， 但 是 压缩 带 来 的 一 个 坏处 就 是 在 读 写 被 压缩 数 
据 的 时 候 需 要 耗费 太 多 的 系统 资源 ， 影 响 速度 。 取 而 代 之 ，FS 提供 另 一 种 机 制 : Sparse File。 如 
果 某 个 应 用 程序 认为 自己 生成 的 文件 符合 Sparse 的 特性 ， 那 么 程序 可 以 将 这 个 文件 设置 为 Sparse 
模式 ， 对 已 有 文件 和 新 建文 件 都 可 以 这 样 操作 。 已 有 的 文件 设置 为 Sparse 模式 之 后 ,程序 需要 显 
式 地 将 其 中 全 0 的 部 分 使 用 相关 函数 通告 FS ，FS 会 将 这 些 部 分 存放 在 一 个 特殊 的 列表 中 备查 。 
当 某 个 程序 向 Sparse 文件 中 写 入 大 片 连续 0 的 时 候 ，FS 会 感知 到 并 且 将 对 应 的 地 址 追加 到 列表 
中 而 无 须 真正 写 入 磁盘 ， 只 有 当 待 写 入 的 数据 为 非 0 时 才 会 被 真正 写 入 磁盘 。 当 读 取 Sparse File 
的 时 候 ，FS 会 首先 查询 列表 ， 如 果 发 现 匹 配 的 地 址 则 直接 返回 0 给 应 用 程序 而 无 须 从 磁盘 中 读 。 

在 很 多 情况 下 , 某 些 应 用 程序 需要 创建 一 个 文件 但 是 暂时 不 向 其 中 写 入 数据 , 一 般 这 种 情况 
下 所 创建 的 文件 大 小 为 0B， 占 用 磁盘 空间 仅 为 元 数据 所 占用 的 空间 ， 一 般 初始 时 为 一 个 文件 系 
统 块 比如 4KB 大 小 ， 此 时 文件 并 没有 实际 内 容 ， 所 以 文件 本 体 被 保存 于 元 数据 中 存放 。 随 着 程 
序 对 文件 的 写 入 , 文件 会 逐渐 增 大 。 但 是 , 在 其 他 一 些 情况 下 , 程序 希望 预先 让 这 个 文件 占用 一 
定 的 空间 以 防止 随后 一 旦 出 现 磁盘 空间 不 够 时 的 尴 众 ， 为 了 实现 这 一 点 ， 程 序 可 以 用 Writefile0 
逐渐 向 文件 中 写 入 0 一 直到 期 望 的 大 小 为 止 , 或 者 使 用 SetEndOfFile0 ( NTES ) 和 Setfilevaliddata() 
之 类 的 函数 来 扩充 文件 的 长 度 。 

调用 不 同 的 方法 , 会 得 到 不 同 的 结果 , 拿 NTFS 举例 , 每 个 文件 有 三 种 长 度 属性 ,也 就 是 标 
称 长 度 、 分 配 长 度 和 逻辑 占用 长 度 。 标 称 长 度 没 什么 可 说 的 ,分配 长 度 就 是 文件 在 磁盘 上 实际 分 
配 的 占 空 大 小 ， 而 逻辑 占用 长 度 则 是 指 文件 自 创 建 之 后 被 实际 写 入 到 哪个 长 度 ( 注意, 不 是 被 实 
际 写 入 了 的 总 长 度 ， 而 是 实际 写 入 地 址 的 高 水 位 线 ) 。 

如 果 调 用 Setendofile0,， 比 如 用 这 个 函数 把 文件 大 小 从 0 字 节 设置 为 1GB 字 节 , 那么 OS 会 为 
这 个 文件 在 磁盘 上 分 配 实际 的 1GB 空间 ， 也 就 是 在 文件 分 配 表 记 录 中 分 配 实际 的 空间 指针 ， 并 且 
同时 会 更 新 文件 所 在 的 卷 的 biunap 文件 , 但 是 却 不 会 向 每 个 被 占用 的 扇 区 写 0, 所 以 这 个 动作 会 瞬 
间 就 完成 ， 此 时 这 个 文件 的 标 称 长 度 和 实际 分 配 长 度 都 是 1GB, 但 是 逻辑 占用 长 度 是 0， 因 为 还 没 
有 任何 数据 被 写 入 , 此 时 如 果 发 起 针对 这 个 文件 任意 地 址 的 读 操作 , OS 会 在 内 存 里 生成 0x00 返回 
给 应 用 程序 , 不 需要 读 盘 。 但 是 随后 如 果 发 生 任何 针对 这 个 文件 任意 偏 移 地 址 的 写 操作 , 比如 向 其 
位 于 500MB 处 的 地 址 写 入 1MB 的 数据 , 那么 OS 会 在 后 台 同 时 将 这 个 文件 的 0 字 节 开始 一 直到 第 
500MB 之 前 的 所 有 空间 写 0 ( 写 到 该 地 址 所 占用 的 磁盘 扇 区 里 ) ,但 是 501MB 到 文件 尾部 的 那 
499MB 空间 不 会 写 0, 同时 设 定 该 文件 的 逻辑 占用 长 度 为 501MB， 如果 发 生 任意 针对 501MB 之 前 
偏 移 地 址 的 读 写 操作 ，OS 均 会 读 写 磁 盘 , 如 果 发 生 501MB 到 1GB 之 间 地 址 的 读 操 作 ，OS 不 会 读 
盘 ， 会 在 内 存 中 生成 0x00， 写 操作 ， 则 重复 刚才 的 动作 ， 在 高 水 位 线 之 前 的 未 被 填 0 的 所 有 地 址 
上 填 0。 所 以 ， 如 果 某 个 应 用 预先 创建 了 一 个 大 文件 占 位 之 后 ,后 续 如 果 发 生 针 对 这 个 文件 的 随机 
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写 操作 ， 那 么 OS 势必 会 在 后 台 发 生 很 多 填 0 操作 ,会 非常 影响 性 能 。 
提示 : 诸如 迅雷 等 下 载 工具 , 一 般 都 会 预先 占用 文件 空间 , 但 是 由 于 迅雷 针对 文件 的 下 载 
并 不 是 顺序 的 , 会 有 多 个 线程 从 文件 的 多 个 部 分 开始 并 行 写 人 , 此 时 如 果 使 用 Setendoffile0 
来 占 位 ， 性 能 就 会 很 差 。 但 是 可 以 使 用 另 一 个 函数 也 就 是 Setfilevaliddata0， 这 个 函数 与 
Setendoffile0 的 区 别 就 是 0S 任何 情况 下 都 不 会 在 后 台 向 文件 中 填 0， 这 样 做 的 好 处 是 明显 
的 , 但 是 也 会 带 来 安全 性 问题 , 为 文件 分 配 了 对 应 大 小 的 扇 区 但 是 不 向 这 些 扇 区 中 写 和 人 0， 
那么 这 些 扇 区 之 前 的 内 容 就 会 变 为 这 个 文件 当前 的 内 容 。 所 以 , 除非 程序 明确 知道 自己 在 
做 什么 , 否则 稀里糊涂 地 使 用 这 个 函数 可 能 造成 驴 唇 不 对 马 嘴 的 后 果 。 通常 使 用 这 种 方法 
的 典型 例子 就 是 下 载 工具 。 
大 家 可 以 做 一 个 试验 , 使 用 迅雷 下 载 一 个 大 文件 ,将 其 保存 在 一 个 曾经 被 塞 满 过 的 分 区 上 。 
迅雷 在 获取 到 这 个 文件 的 大 小 之 后 会 立即 创建 相应 大 小 的 文件 , 而 创建 文件 的 过 程 是 瞬时 
完成 的 ， 并 没有 长 时 间 磁 盘 IO 操作 。 此 时 我 们 立即 退出 迅雷 。 查 看 这 个 文件 的 属性 ， 发 
现 其 大 小 和 磁盘 占用 空间 相同 。 然后 用 十 六 进 制 编辑 器 打开 这 个 文件 , 可 以 发 现 其 中 并 非 
全 0， 而 是 被 塞 满 了 凌乱 的 数据 。 这 充分 证 明 迅 雷 使 用 的 就 是 SetFileValidData0 函 数 来 扩 
展 文件 大 小 的 。 随 着 文件 不 断 地 被 下 载 ， 新 的 数据 将 会 覆盖 这 些 扇 区 原 有 的 内 容 。 
笔者 曾经 遇 到 过 更 有 趣 的 现象 。 某 个 分 区 中 曾经 存 有 多 部 电影 ， 随 后 删除 掉 一 些 。 某 次 笔 
者 使 用 迅雷 下 载 一 部 新 电影 存放 到 这 个 分 区 , 但 是 下 到 70% 左 右 没 有 速度 了 , 于 是 强行 播 
放下 载 的 文件 , 奇迹 发 生 了 : 在 电影 播放 到 某 个 时 间 点 处 , 突然 出 现 了 另 一 部 电影 的 画面 ， 
这 部 电影 恰好 就 是 笔者 之 前 删除 的 那些 的 其 中 一 部 。 这 个 马 遇 绝对 属实 ， 但 是 由 于 懒惰 ， 
没有 做 重 现 试验 。 


1 ) 文件 分 布 映射 

由 于 底层 存储 卷 也 是 由 物理 磁盘 经 过 层 层 虚拟 化 操作 而 生成 的 , 最终 影响 IO 性 能 的 根本 因 
素 和 最 大 因素 还 是 物理 磁盘 的 机 械 寻 道 。 RAID 的 做 法 可 以 利用 起 所 有 RAID 组 成 员 磁 盘 的 寻 道 
时 阶 来 提高 总 体 性 能 (附录 1 的 问题 8 ) ,但 是 这 种 做 法 具有 很 高 的 盲 操作 性 ( 参考 本 书 4.2.6 
一 节 ) 。 想 要 让 一 个 RAID Group 发 挥 出 最 大 的 并 发 IO 性能， 就 首先 需要 保证 RAID 控制 器 接 
收 到 的 针对 这 个 RAID 组 的 一 个 IO 或 者 一 批 IO 可 以 一 次 性 发 送 给 组 内 的 所 有 磁盘 进行 操作 。 
将 一 个 IO 发 散 给 多 个 磁盘 操作 贡献 为 系统 带宽 吞吐 量 增加 ， 而 将 多 个 IO 同时 发 送 给 组 内 磁盘 
操作 ( 每 个 磁盘 操作 一 个 IO ) 则 贡献 为 系统 IOPS 增加 。 


提示 : 为 了 实现 增加 系统 带宽 吞吐 量 的 目的 ，RAID 3 将 Stripe Size 调 到 最 低 ， 比 如 一 个 
FS 的 I0 单位 大 小 , 这 样 就 可 以 盲 性 地 保证 每 个 FS 层面 的 I0 都 一 定 会 被 分 散在 组 内 所 有 
磁盘 上 .如 果 FS 发 起 的 是 连续 I0 类 型 ,那么 这 种 情况 整个 系统 的 带宽 吞吐 量 将 会 非常 高 ， 
这 也 是 RAID 3 唯一 表现 优秀 的 情况 。 而 如 果 FS 层面 发 起 的 是 随机 小 块 的 10， 这 时 系统 
性 能 将 会 非常 差 。 因 为 RAID 3 注定 一 个 组 一 次 只 能 处 理 一 个 I0 操作 ( 因为 每 个 IO 都 要 
占用 所 有 物理 磁盘 ) ， 大 量 随机 的 IO 不 但 得 不 到 并 发 ， 而 且 加 上 磁盘 寻 道 的 影响 ， 造 成 
所 有 物理 磁盘 在 处 理 下 一 个 I0 时 总 要 全 体 寻 道 , 加 之 现代 缩水 版 RAID 3 并 不 保证 组 内 磁 
盘 转 速 同步 ,造成 磁盘 旋转 延迟 都 不 同 ， 先 达到 目标 扇 区 的 磁盘 会 处 于 等 待 状态 , 这 又 浪 
费 了 系统 性 能 。 

RAID 3 是 一 个 古老 的 RAID 类 型 。 那 时 的 应 用 程序 和 业务 要 求 并 没有 现代 这 么 苛刻 。 而 现 
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代 的 业务 系统 对 存储 的 要 求 越 来 越 苛刻 , 既 要 求 高 IOPS 即 IO 并 发 度 , 又 要 求 差 不 多 的 带 
宽 知 吐 量 。 为 了 增加 系统 IOPS， 顺 便 解决 RAID 3 不 能 并 发 I0 的 问题 ，RAID 5 出 现 了 。 
RAID 5 相对 RAID 3 的 最 大 改进 其 实 是 增加 了 条 带宽 度 而 不 是 引入 分 布 式 校 验 , 这 里 很 多 
人 的 理解 都 有 误区 ， 总 以 为 分 布 式 校 验 才 是 RAID 5 性 能 提高 的 最 大 因素 。 为 了 说 明 这 一 
点 ,我们 假设 只 在 RAID 3 基础 上 将 单 Parity 盘 变 为 分 布 式 Parity， 而 Stripe 宽度 不 变 , 仍 
为 一 个 FS 层面 的 10 大 小 (一 个 FS Block, 一 般 为 4KB ) 。 试问 , 这 种 情况 下 , 管 它 Parity 
是 不 是 分 布 式 , 对 系统 性 能 有 提升 么 ? 每 次 整个 RAID 组 依然 只 可 以 处 理 一 个 10, 同样 都 
是 整 条 读 或 者 写 ，Parity 放 到 条 带 的 哪个 位 置 有 关系 么 ? 根本 没有 ， 性 能 没有 一 点 提升 ， 
反而 还 会 由 于 分 布 式 Parity 运算 复杂 度 升 高 而 导致 的 计算 延迟 增加 。 所 以 ，RAID 5 相对 
RAID 3 的 根本 进化 在 于 提高 了 Stripe Size, 可 以 设置 为 很 大 , 比如 1MB 或 者 更 大 。 在 这 个 
基础 上 ， 对 于 小 块 随机 IO 的 并 发 度 就 会 大 大 增加 ， 因 为 条 带 增加 使 得 每 个 磁盘 对 应 的 
Segment ( 条 带 深度 ) 也 增加 ， 使 得 一 个 I0 仅 落 在 一 个 磁盘 上 的 几率 也 增加 ， 多 个 I0 同 
时 分 别 落 在 一 块 磁盘 的 几率 也 增加 , 也 就 是 I0 可 以 并 发 执行 了 。 这 一 步 改 进 对 应 RAID 4。 
然而 ，RAID 4 的 读 IO 可 以 并 发 了 , 但 是 写 I0 却 依然 不 可 以 并 发 ， 因 为 每 次 写 I0 过程 中 
都 需要 修改 Parity 盘 上 的 校 验 值 ， 所 以 Parity 盘 就 会 被 这 个 I0 占用 ， 此 时 其 他 的 写 IO 只 
能 等 待 ， 因 为 所 有 写 IO 都 要 更 改 Parity。 为 了 解决 这 个 问题 ，RAID 5 出 现 了 ， 分 布 式 校 
验 就 这 样 诞生 了 ， 其 诞生 在 逻辑 顺序 上 是 处 于 增加 条 带宽 度 之 后 的 。 改 为 分 布 式 校 验 后 ， 
写 I0 也 可 以 并 发 了 ， 只 不 过 并 发 几率 远 低 于 读 IO。 

RAID 5 的 并 发 几率 属于 守株待兔 型 而 不 是 主动 型 ， 合 理 地 布 好 网 ， 猿 物 是 否 成 群 结 队 地 
进来 就 靠 运气 了 。 所 以 这 种 设计 是 言 性 的 。 但 是 RAID 3 的 做 法 并 不 是 育 性 的 而 是 釜 底 抽 
薪 型 , 不管 任何 情况 下 , 每 个 I0 必定 由 组 内 所 有 盘 同 时 操作 , 但 是 这 样 做 也 注定 了 RAID 
3 的 局 限 性 。RAID 5 的 写 I0 并 发 几率 远 低 于 读 ， 三 块 盘 的 RAID 5 根本 不 能 并 发 写 I0， 
小 块 写 I0 性 能 非常 低下 。 就 算 增 加 磁盘 ， 盲 并 发 几率 提高 也 很 缓慢 ， 再 加 上 碰 运 气 ， 实 
际 获得 的 并 发 几率 低 之 又 低 。 此 时 ,需要 一 种 机 制 来 增加 写 IO 并 发 几率 。FS 下 层 已 经 乓 
黔 驴 技 穷 了 ， 唯 一 能 折腾 折腾 的 地 方 只 有 在 FS 层面 了 。 如 果 猫 物 能 够 自 投 罗网 ， 那 就 是 
再 好 不 过 的 事情 了 。 


作者 一 直 认 为 ,文件 系统 是 系统 1O 路 径 中 的 一 个 很 重要 的 角色 ， 而 文件 在 底层 存储 卷 或 者 
磁盘 上 的 分 布 算法 是 重 中 之 重 , 成 败 在 此 一 举 。 传统 的 文件 系统 只 是 将 底层 的 卷 当做 一 个 连续 扇 


区 空间 , 并 不 感知 这 个 连续 空间 的 物理 承载 设备 的 类 型 或 者 数量 等 , 所 以 也 就 不 知道 自己 的 不 同 
类 型 的 IO 行为 会 给 性 能 带 来 多 大 的 影响 。 

将 IO 比 作 昆虫 , 底层 的 RAID 比 作 不 同类 型 的 蜘蛛 网 。 我 们 都 见 过 那 种 藏 区 于 灌木 从 中 的 
密度 很 大 几乎 是 一 块 白布 样 的 蜂 蛛 网 , 也 见 过 稀 稀 疲 朴 孔 状 的 八卦 样 蜘蛛 网 , 走路 时 也 偶尔 会 碰 
到 一 根 几 蛛 丝 绕 在 你 脸 上 的 情况 。 当 然 , 昆虫 永远 也 不 会 自己 投向 蜘蛛 网 。 而 文件 系统 要 想 获得 
最 优 的 IO 性 能 ， 就 必须 在 感知 底层 RAID 类 型 的 情况 下 按照 对 应 的 策略 自 投 罗网 。 比 如 ， 如 果 


野 蛛 网 是 


白布 状 ， 那 么 任何 一 个 小 昆虫 都 逃 不 过 ;如果 是 稀 朴 孔 状 ， 那 么 过 小 的 昆虫 可 能 漏网 


只 有 一 根 蜂 蛛 丝 的 情况 往往 用 于 探测 某 个 信号 , 比如 一 个 庞大 的 东西 走 过 。 同样 , 现行 的 做 法 就 
是 底层 存储 设备 布 网 等 待 上 层 的 IO 到 来 。 如 果 我 们 在 FS 层 对 底层 的 RAID 类 型 和 磁盘 类 型 等 
各 种 因素 做 出 分 析 和 判断 ， 然 后 制定 对 应 的 策略 ， 让 文件 能 够 按照 预期 的 效果 有 针对 性 地 在 
RAID 组 内 进行 分 布 ， 这 样 就 会 和 谐 。 比 如 , 在 格式 化 文件 系统 时 ， 或 者 在 程序 调用 时 ， 给 出 显 
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式 参数 : 尽量 保持 每 个 文件 只 存放 在 一 个 物理 硬盘 中 , 那么 当 创建 一 个 文件 的 时 候 , 文件 系统 便 
会 根据 底层 RAID 的 Stripe 边界 来 计算 将 哪些 扇 区 地 址 段 分 配给 这 个 文件 , 从 而 让 其 物理 地 只 分 
布 到 一 个 磁盘 中 。 这 种 文件 分 布 方式 在 需要 并 行 访问 大 量 文件 时 是 非常 有 意义 的 ， 因 为 底层 
RAID 的 盲 并 发 度 很 低 ， 如 果 在 FS 层面 手动 地 将 每 个 文件 只 分 布 在 一 个 磁盘 上 ， 那 么 N 个 磁盘 
组 成 的 RAID 组 理论 上 就 可 以 并 发 N 个 针对 文件 的 读 操 作 ， 写 操作 并 发 度 仍 相对 很 低 但 是 至 少 
可 以 保证 为 理论 最 大 值 。 

总 之 , 文件 系统 必须 与 底层 完美 配合 才能 够 获取 最 大 的 性 能 。 这 方面 WAFL 的 做 法 为 文件 
系统 与 底层 配合 的 典范 ， 不 过 WAFL 也 存在 着 自身 不 可 避免 的 问题 。 关 于 WAFL 机 制 的 简要 论 
述 见 本 书 第 4 章 。 将 来 的 文件 系统 设计 可 能 会 考虑 更 多 的 底层 适 配 因 素 ， 让 我 们 拭目以待 。 

2) 卷 IO 

卷 IO 策略 处 于 文件 系统 的 最 底层 ， 负 责 将 数据 从 卷 中 读 出 或 者 向 卷 中 写 入 。 这 个 层次 需要 
用 最 少 的 IO 做 最 多 的 事情 。 数 据 库 类 程序 的 Log 机 制 是 耗费 IO 最 多 的 情况 之 一 ,每 次 Checkpoint 
都 会 将 日 志 以 Write Through 模式 写 盘 ， 由 于 Bypass 了 FS 的 缓存 ，FS 来 不 及 做 过 多 优化 ， 所 以 
造成 对 底层 的 IO 过 频 ， 影 响 性 能 。 另 外 ， 保 证 卷 IO Queue 随时 充满 、 异 步 操作 等 ， 都 是 榨取 
底层 存储 系统 性 能 的 有 效 方式 。 


19.1.3 ” 卷 管理 层 


卷 管理 层 在 某 种 程度 上 来 讲 是 为 了 弥补 底层 存储 系统 的 一 些 不 足 之 处 的 , 比如 LUN 空间 的 
动态 管理 等 。 卷 管理 层 最 大 的 任务 是 做 Block 级 的 映射 ， 对 于 IO 的 处 理 ， 卷 层 只 是 做 了 一 个 将 
映射 翻译 之 后 的 IO 向 下 转发 的 动作 以 及 反 向 过 程 。 另外， 应 用 程序 可 以 直接 对 某 个 卷 进 行 IO 
操作 而 不 经 过 文件 系统 。 

注意 : 这 里 的 不 经 过 文件 系统 并 不 是 说 Bypass 系统 内 核 缓存 的 Direct IO ， 而 是 完全 不 需要 

FS 处 理 任何 块 映射 关系 。 这 时 就 需要 由 应 用 程序 自行 管理 底层 存储 空间 ， 而 且 此 时 不 能 对 

这 个 卷 进行 FS 格式 化 或 者 其 他 未 经 应 用 程序 允许 的 更 改 操作 ,一 旦 发 生 将 导致 数据 被 破坏 。 

卷 管理 层 将 底层 磁盘 空间 虚拟 化 为 灵活 管理 的 一 块 块 的 卷 , 然后 又 将 卷 同时 抽象 为 两 种 操作 
系统 设备 : 块 设备 和 字符 设备 。 比 如 在 AIX 系统 下 ，/dev/lv、/dev/flv、/dev/hdisk 等 字样 表示 
块 设备 ,而 /dev/rlv、/dev/rfslv、/dev/rhdisk 等 带 有 上 字样 的 设备 一 般 就 是 字符 设备 。 同 一 个 物理 
设备 会 同时 被 抽象 为 字符 和 块 两 种 逻辑 设备 。 用 户 程序 可 以 直接 对 块 设备 和 字符 设备 进行 IO 操 
作 。 这 两 个 设备 也 是 用 于 上 层 程序 直接 对 卷 进行 访问 的 唯一 接口 , 有 各 自 的 驱动 一 一 块 设备 驱动 
和 字符 设备 驱动 , 在 IO 路 径 的 层 层 调用 过 程 中 ，IO Manager 访问 卷 的 时 候 其 实 就 是 访问 对 应 的 
设备 驱动 (这 一 点 在 系统 IO 模块 架构 图 中 并 没有 体现 ) ， 向 它们 发 起 SystemCal 的 。 


1. 块 设备 


在 UNIX 类 操作 系统 下 ， 块 设备 表现 为 一 个 文件 ， 而 且 应 用 程序 可 以 向 块 设备 发 起 任何 长 
度 的 IO， 就 像 对 文件 进行 IO 时 一 样 ， 比 如 512B 、1500B 、5000B 等 ，IO 长 度 可 以 为 任何 字 节 ， 
而 不 需 为 磁盘 扇 区 的 整数 倍 。 然 而 , 块 设备 也 是 由 底层 物理 设备 抽象 而 来 的 ， 而 底层 物理 设备 所 
能 接受 的 IO 长 度 必 须 为 肩 区 的 整数 倍 。 所 以 块 设备 具有 一 个 比较 小 的 缓存 来 专门 处 理 这 个 映射 
转换 关系 。 
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块 设备 一 般 使 用 Meomory Mappin 的 方式 被 映射 到 内 存 地 址 空间 , 这 段 空 间 以 Page ( 一 般 为 
4KB ) 为 单位 ， 所 以 访问 块 设备 就 需要 牵扯 到 OS 缺 页 处 理 ( Page Fault ) 方式 来 读 写 数据 。 比 如 
应 用 程序 向 某 个 块 设备 卷发 起 一 个 长 度 为 1500B 的 IO 读 ， 卷 管理 层 接收 到 这 个 IO 之 后 将 计算 
这 个 1500B 的 IO 所 占用 的 扇 区 总 数 以 及 所 落 入 的 Page 地 址 , 并且 进入 缺 页 处 理 流程 从 底层 物理 
设备 将 这 个 Page 对 应 的 扇 区 读 入 ， 这 里 的 IO 请 求 为 1500B， 所 以 OS 会 从 底层 物理 设备 读 取 对 
应 的 1 个 Page 大 小 的 数据 进入 缓存 ， 然 后 从 缓存 中 再 将 对 应 的 1500B 返回 给 应 用 程序 。 

应 用 程序 对 块 设备 发 起 读 IO, 块 设备 就 得 同时 向 底层 物理 设备 发 起 对 应 的 转换 后 的 IO, 不 
管 应 用 程序 向 块 设备 发 起 多 少 长 度 的 IO , 块 设备 向 底层 物理 设备 所 发 起 的 IO 长度 总 是 恒定 的 ( 一 
般 为 4KB， 即 缓存 Page 大 小 ) 。 所 以 块 设备 向 底层 物理 设备 发 起 的 读 IO 属性 永远 为 小 块 IO， 
而 且 对 同一 个 线程 发 起 的 IO 不 会 并 发 只 能 顺序 ， 对 多 个 线程 共同 发 起 的 IO 才 会 并 行 ， 也 就 是 
说 每 个 线程 在 底层 的 IO 都 为 顺序 执行 (限于 读 IO ) 。 这 一 点 是 块 设备 非常 致命 的 缺点 ， 比 如 一 
个 应 用 程序 256KB 的 读 IO 操作 ， 会 被 块 设备 切 开 成 为 64 个 4KB 的 读 IO 操作 ， 这 无 疑 是 非常 
浪费 的 ， 会 更 快 地 耗 尽 底层 存储 的 标 称 IOPS。 但 是 对 于 写 IO 来 讲 ， 块 设备 底层 会 有 一 定 的 
merge_request 操作 ,， 即 可 以 对 写 IO 进行 合并 、 覆盖 、 重 排 等 操作 ,这 方面 内 容 详 见 下 面 的 章节 。 

我 们 来 举例 说 明 一 下 。 下 列 数 据 为 在 AIX 系统 上 使 用 IO 测试 工具 对 一 个 块 设备 ( /dev/flv01 ) 
进行 IO Size 为 0.5KB、1KB、2KB、4KB、8KB、16KB、513B 的 单线 程 顺序 连续 IO 读 操作 时 ， 
在 存储 系统 端 统计 的 结果 。 其 中 Read Ops 表示 每 秒 读 操作 数 , Read KB 表示 每 秒 读 带宽 吞吐 量 ， 
Queue Length 表示 当前 LUN ( /vol/LUN/LUNaix ) 的 IO Queue 中 的 IO 数 。 我 们 可 以 发 现 , 不 
管 哪 一 组 的 测试 数据 ， 用 带宽 除 以 IOPS 得 出 的 IO Size 恒定 为 4KB， 也 就 表示 主机 向 存储 系统 
( 块 设备 向 底层 物理 设备 ) 发 起 的 读 IO Size 恒定 为 4KB。 

Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
0 0 0 10448 0 0.00 1.06 /vol/Lun/Lunaix 0.5KB 测试 结果 
2716 0 0 0 10868 0 0.00 0.06 /vol/Lun/Lunaix 
0 0 0 11288 0 0.00 0.06 /vol/Lun/Lunaix 


Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
0 0 0 14476 0 0.00 0.05 /vol/Lun/Lunaix ”1KB 测试 结果 
3614 0 0 0 14460 0 0.00 0.05 /vol/Lun/Lunaix 
0 0 0 14480 0 0.00 0.05 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
4231 0 0 0 16920 0 0.00 ”0.04 /vol/Lun/Lunaix 2KB 测试 结果 
4213 0 0 0 16856 0 0.00 0.04 /vol/Lun/Lunaix 
4220 0 0 0 16880 0 0.00 0.04 /vol/Lun/Lunaix 


Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
7086 0 0 0 28344 0 0.00 1.00 /Vol/Lun/Lunaix ”4KB 测试 结果 
7338 0 0 0 29352 0 0.00 1.00 /vol/Lun/Lunaix 
了 397 0 0 0 29588 0 0.00 1.00 /VoOl1/LUN/LUNaix 
Read Write Other QFull Read Write Average Queue Lun 
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Ops Ops Ops kB kB Latency Length 
7215 0 0 0 28860 0 0.00 0.09 /Vol/Lun/Lunaix ”8KB 测试 结果 
7147 0 0 0 28588 0 0.00 1.00 /vol/Lun/Lunaix 
7144 0 0 0 28576 0 0.00 1.00 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 


0 0 0 29776 0 0.00 0.09 /vol/Lun/Lunaix ”16KB 测试 结果 
7473 0 0 0 29892 0 0.00 1.00 /vol/Lun/Lunaix 
0 0 0 29728 0 0.00 1.00 /vol/Lun/Lunaix 


Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
0 0 0 10700 0 0.00 0.06 /vol/Lun/Lunaix 513B 测试 结果 
2657 0 0 0 10628 0 0.00 0.06 /vol/Lun/Lunaix 
0 0 0 10676 0 0.00 0.06 /vol/Lun/Lunaix 


其 实 UNIX 类 系统 下 的 块 设备 与 文件 系统 管理 下 的 一 个 文件 无 异 ， 唯 一 区 别 就 是 直接 对 块 
设备 进行 IO 操作 的 话 ， 无 须 执行 文件 一 块 映射 查询 而 已 。 

读 操 作对 于 块 设备 来 讲 还 不 至 于 产生 太 过 恶劣 的 性 能 影响 ， 而 写 IO 则 会 更 加 严重 地 挫 残 存 
储 设备 的 性 能 。 由 于 块 设备 向 底层 发 起 的 所 有 IO 均 以 缓存 Page 大 小 为 单位 ， 现 代 操 作 系 统 的 
Page 一 般 为 4KB 大 小 ， 如 果 某 应 用 程序 需要 写 入 0.5KB 数据 ， 或 者 4.5KB 数据 ， 那 么 很 可 怕 ， 
块 设备 不 能 直接 把 对 应 长 度 的 数据 直接 写 入 底层 设备 ， 而 必须 先 读 入 这 个 IO 占用 的 4KB 单位 
Block， 然 后 修改 之 ， 然 后 再 将 数据 写 回 到 底层 设备 。 其 浪费 可 谓 是 惊人 而 且 无 法 容忍 的 ! 我 们 
来 看 一 个 例子 。 下 列 数据 显示 了 AIX 系统 上 使 用 IO 测试 工具 对 一 个 块 设备 进行 4096B 、2000B、 
2048B、5000B 写 IO 时 系统 底层 发 向 物理 磁盘 的 IO 统计 情况 如 图 19-55 所 示 ， 程 序 发 起 写 IO 
时 , 不 对 齐 4KB 的 IO Size 会 导致 OS 首先 读 入 对 应 的 Page 数据 , 修改 , 然后 再 写 入 对 应 的 Page 
数据 。 所 以 可 以 看 到 写 动作 伴随 了 一 定 程度 的 读 动 作 ， 也 就 是 写 惩罚 。 


Busy 光 TPS KB-Read KB-Writ Bus: TPS KB-Read KB-Writ 

56 6 村 鸭 6 0.0 660.0 3636 160 "558 “539515 

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
Bi TPS KB-Read KB-Writ Bi TPS KB-Read KB-Writ 
8 6 03 "539330 “5aY6 6 2 7 ds “1gd “sy 
0:0 0:0 0.0 0-0 0-0 0:0 0:0 0:0 0-0 0.0 


图 19-55 块 设备 写 I0 测试 
如 图 19-56 所 示 ， 当 程序 向 块 设备 发 起 从 0 地 址 开始 的 2000B 单位 的 连续 写 IO 时 , 在 接收 
到 第 一 个 IO 请 求 之 后 ，OS 内 核 必须 首先 从 磁盘 


读 出 Pagel 到 缓存 , 然后 将 前 2000B 内 容 在 缓存 中 。 [Bage1 Page3 | Page4 
覆盖 为 程序 所 IO 的 内 容 , 然 后 再 将 修改 后 的 Psget | | | | | | 
写 入 磁盘 ; 图 19-56 Page 边界 对 齐 


" OSs 接收 到 第 二 个 IO 之 后 ， 由 于 第 二 个 
IO 是 请 求 从 1999 ~ 3999 这 段 地 址 ， 依 然 落 入 Page1， 所 以 OS 还 需要 再 次 读 入 Page1， 
但 是 此 时 需要 考虑 以 下 两 种 情况 。 

" ”Pagel 当前 最 新 的 数据 应 为 第 一 次 IO 所 修改 的 数据 , 如 果 第 一 次 IO 的 Pagel 尚未 被 写 
入 磁盘 而 依然 在 缓存 中 ,那么 此 时 OS 必须 在 缓存 中 将 最 新 的 Pagel 数据 保留 为 第 二 次 
IO 使 用 ,同时 又 不 影响 第 一 次 IO 的 Pagel 的 写 盘 动作 。 这 样 ， 这 个 读 请 求 就 算 Cache 
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Hit 了 ， 就 不 需要 从 物理 磁盘 读数 据 。 

如 果 在 第 二 次 IO 发 起 之 前 第 一 次 IO 的 Pagel 已 经 被 写 入 磁盘 , 那么 第 二 次 IO 必须 从 磁盘 
读 入 Pagel 然后 执行 与 第 一 次 IO 相同 的 过 程 。 第 三 次 IO 情况 就 更 复杂 了 ， 由 于 第 三 次 IO 的 地 
址 为 4000 ~ 5999 这 段 地 址 ， 跨 越 了 两 个 Page，4000 ~ 4095 地 址 落 入 了 Page1，4096 ~ 5999 地 址 
段落 入 了 Page2， 那 么 此 时 OS 内 核 必须 同时 读 入 Pagel 和 Page2， 同 时 修改 然后 同时 写 入 磁盘 。 
同 理 ， 如 果 IO Size 选择 为 5000B 等 ， 还 有 可 能 发 生 同 时 跨越 3 个 Page 的 ， 那 写 惩罚 会 更 大 。 

细心 的 读者 可 能 会 发 现 ， 即 使 上 层 IO 不 是 4KB 对 齐 的 情况 下 ， 底 层 的 IO 应 该 也 都 是 4KB 
对 齐 的 ， 因 为 不 管 读 还 是 写 都 是 以 Page 为 单位 ， 但 是 为 何在 图 19-55 的 结果 中 用 KBPS 一 栏 的 
值 除 以 4 却 除 不 尽 呢 ? 这 个 问题 很 好 , 底层 的 IO 并 不 是 4KB 对 齐 的 原因 , 是 因为 在 块 设备 驱动 
处 ，OS 做 了 Merge_request， 对 此 下 面 的 章节 会 有 详细 描述 。 

系统 IO 路 径 中 的 读 惩罚 和 写 惩 罚 : 在 系统 I0 路 径 中 ， 有 多 处 可 以 发 生 读 惩 罚 和 写 惩罚 ， 

其 中 包括 文件 系统 层 、 卷 管理 层 、 块 设备 层 和 底层 RAID 管理 层 等 位 置 。 所 谓 “ 惩 罚 ” 就 

是 说 要 完成 某 件 事 ， 必 须 付出 一 些 额 外 的 牺牲 和 浪费 。 到 底 什么 情况 下 会 出 现 惩罚 呢 ? 


读 惩罚 : 当 某 个 读 I0 请 求 的 IO Size 不 可 被 0S Page Size 或 者 Disk SectorSize 任何 一 个 除 尽 
为 整数 时 ,这 个 读 请 求 就 会 产生 读 惩 罚 , 但 是 可 被 除 尽 并 不 代表 一 定 就 不 产生 惩罚 。 比 如 
某 个 I0 的 IO Size 为 从 Offset 0 开始 读 后 续 的 512B， 则 怎么 都 好 说 ， 退 一 万 步 讲 ， 如 果 这 
个 IO 是 针对 某 个 文件 的 , 而 所 请 求 的 这 段 数据 恰好 就 在 磁盘 一 整个 扇 区 上 , 那么 OS 只 要 
将 对 应 磁盘 上 的 这 个 扇 区 的 内 容 读 出 来 即 可 ， 上 下 一 一 对 应 ， 没 有 浪费 ;而 如 果 这 个 IO 
的 起 始 Offset 不 为 0, 比如 为 5, 那么 就 很 邪门 了 , FS 在 分 配 文件 占用 空间 的 时 候 是 以 512B 
对 齐 的 , 从 0 开始 往 后 的 512B ( 包括 0 ) 就 一 定 会 对 应 到 底层 磁盘 的 1 个 扇 区 上 , 但 是 如 
果 从 5 开始 往 后 的 512B， 就 一 定 不 会 只 落 在 一 个 扇 区 上 ， 肯 定 是 跨 两 个 扇 区 ， 那 么 此 时 
OS 就 不 得 不 读 出 这 两 个 扇 区 来 ,从 其 中 各 自 取 出 对 应 这 个 I0 的 部 分 , 然后 合 起 来 回 传 给 
程序 。 并 且 ，0S 内 核 往往 都 是 以 Page 为 单位 ， 也 就 是 读 出 IO 地 址 段 所 落 入 的 整个 或 者 
多 个 Page。 

具体 惩罚 的 细节 与 不 同 操作 系统 有 关 ， 按 照 系统 内 核对 IO 请 求 的 计算 处 理 过 程 不 同 ,一 
定 条 件 下 是 否 产生 、 产 生 多 少 程度 的 读 惩罚 随 0S 不 同 而 不 同 ， 随 着 调用 的 方式 不 同 而 不 
同 。 比 如 同样 为 1KB 的 读 IO ， 如 果 针 对 FS Block=1KB 的 文件 系统 进行 越过 缓存 的 DIO， 
那么 就 不 会 产生 读 惩罚 ; 同样 的 1KB 的 IO Size， 如 果 针 对 某 个 块 设备 进行 IJ0， 那 么 就 会 
产生 额外 3KB 的 浪费 的 读 ( 内 核 会 读 出 底层 的 1 个 Page 也 就 是 4KB 大 小 的 数据 来 对 应 这 
个 I0) 。 

写 惩罚 : 当 某 个 写 I0 请 求 的 IO Size 不 可 被 FS Block 、0S Page Size 或 者 Disk Sector Size 任 
何 一 个 除 尽 为 整数 时 ， 必 定 会 产生 写 惩罚 。 写 惩罚 程度 同样 随 0S 的 不 同 而 不 同 ， 也 随 调 
用 方式 的 不 同 而 不 同 。 写 惩罚 的 表现 是 既 有 额外 读 操作 ， 又 有 额外 写 操作 ， 比 读 惩罚 浪费 
更 多 的 资源 。 比 如 某 个 程序 发 起 一 个 Offset 0 开始 的 513B 的 读 IO， 恰 好 比 一 整个 扇 区 多 
了 1B, 但 是 底层 又 不 可 能 只 写 1B 给 磁盘 ， 磁 盘 接 受 的 必须 是 扇 区 整数 倍 的 IO Size, 那么 
此 时 唯一 办 法 就 是 写 两 个 扇 区 ,第 一 个 是 0~ 511 这 512B ,然后 再 写 人 512~1023 这 后 512B， 
剩余 的 那 1B 就 是 这 后 512B 的 第 1 个 字 节 ,那么 对 于 后 512B 中 减 掉 这 1 字 节 剩余 的 511B 
的 数据 , 我 们 只 能 先 从 磁盘 将 后 512 字 节 对 应 的 扇 区 读 出 来 , 将 第 1 个 字 节 内 容 蔡 换 成 程 
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序 I0 所 给 的 内 容 , 然后 再 将 这 个 扇 区 写 回去 。 这 就 是 写 惩罚 , 既 多 了 511B 的 读 ， 又 多 了 


511B 的 写 。 
读 惩罚 和 写 惩罚 的 例子 在 本 章 下 面 的 章节 随处 可 见 。 


2. 字符 设备 


传统 的 字符 设备 本 来 是 专 指 一 类 接受 字符 流 的 设备 比如 物理 终端 、 键 盘 等 , 这 种 设备 的 特点 
是 可 以 直接 对 设备 进行 最 底层 的 操作 而 不 使 用 缓存 ( 但 是 必须 有 Queue ) ， 而 且 每 次 IO 必须 以 
一 个 字符 为 单位 ( 卷 所 抽象 出 来 的 字符 设备 以 一 段 连续 扇 区 为 一 个 单位 ) 。 所 以 具有 这 种 特点 的 
实际 设备 或 者 抽象 设备 都 被 称 为 字符 设备 。 而 将 卷 抽象 为 字符 设备 并 不 是 说 将 IO 从 扇 区 改 为 字 


符 ， 而 只 是 抽象 出 字符 设备 所 具有 的 特点 。 


在 任何 操作 系统 下 ,对 字符 设备 进行 IO 操作 必须 遵循 底层 的 最 小 单位 对 齐 规则 ， 比 如 对 于 


卷 字符 设备 来 讲 ， 每 个 IO 长 度 只 能 是 扇 区 的 整数 倍 ， 如 果 IO 长 度 没 有 以 扇 区 为 单位 对 齐 〈 比 
如 513、1500 ) ， 那 么 将 会 收 到 错误 通知 而 失败 。 虽 然 UNIX 类 操作 系统 下 的 字符 设备 也 表现 为 
一 个 文件 ， 但 是 这 个 文件 却 不 像 块 设备 一 样 可 以 以 任意 字 节 进行 IO， 因 为 OS 没有 为 字符 设备 


设置 任何 缓存 (但 是 存在 Queue ) 。 


字符 设备 的 一 个 最 大 好 处 是 可 以 发 起 底层 协议 允许 的 (SCSI/ATA，256KB ) 任意 扇 区 倍数 


长 度 的 IO 而 且 可 以 完全 透 传 上 层 应 用 程序 的 IO。 所 以 字符 设备 可 以 对 底层 对 应 的 物理 设备 发 起 


数据 说 明了 上 述 结论 。 
Read Write Other QFull Read Write Average 
Ops Ops Ops kB kB Latency 
4534 0 0 0 2267 0 0.00 0.05 
4536 0 0 0 2268 0 0.00 0.04 
浊 523 。 枚 0 0 2261 0 0.00 0.04 
Read Write Other QFull Read Write Average 
Ops Ops Ops kB kB Latency 
4498 0 0 0 4498 0 0.00 0.04 
4458 0 0 0 4458 0 0.00 0.05 
4462 0 0 0 4462 0 0.00 0.05 
Read Write Other QFull Read Write Average 
Ops Ops Ops kB kB Latency 
4232 0 0 0 8464 0 0.00 0.05 
4346 0 0 0 8692 0 0.00 0.04 
4338 0 0 0 8676 0 0.00 0.04 
Read Write Other QFull Read Write Average 
Ops Ops Ops kB kB Latency 
4182 0 0 0 16728 0 0.00 0.04 
4173 0 0 0 16692 0 0.00 0.04 
4163 0 0 0 16652 0 0.00 0.04 


任何 属性 的 IO， 比 如 大 块 连续 并 发 IO， 这 样 就 非常 好 地 适 配 了 上 层 应 用 程序 对 IO 的 要 求 ， 可 
以 获得 很 高 的 性 能 。 字 符 设备 是 一 个 设备 最 底层 的 抽象 ， 


其 本 质 等 于 物理 设备 本 身 。 下 面 的 测试 


Queue Lun 
Length 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 


0.5KB 测试 结果 


Queue 
Length 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 

Queue 
Length 

/vol/Lun/Lunaix 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 

Queue 

Length 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 
/vol/Lun/Lunaix 
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Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
3827 0 0 0 30616 0 0.00 0.04 /vol/Lun/Lunaix 8KB 测试 结果 
3798 0 0 0 30384 0 0.00 0.04 /vol/Lun/Lunaix 
3798 0 0 0 30384 0 0.00 0.04 /vol/Lun/Lunaix 


从 上 面 的 结果 可 以 看 到 ， 底 层 发 出 的 IO 长 度 与 应 用 层 发 起 的 IO 长 度 一 一 对 应 。 
3. 裸 设 备 与 文件 系统 之 争 


字符 设备 又 被 称 为 裸 设备 。 应 用 程序 可 以 选择 使 用 文件 系统 提供 的 各 项 功能 进行 对 文件 的 
IO 操作 , 当然 也 可 以 选择 直接 对 裸 设备 进行 1O 操作 ,只 不 过 直接 对 裸 设备 操作 需要 应 用 程序 自 
行 维护 数据 一 房 区 映射 以 及 预 读 缓存 、 写 缓存 、 读 写 优化 等 。 比 如 数据 库 类 程序 自身 都 具有 这 些 
功能 ， 所 以 没有 必要 再 使 用 文件 系统 来 读 写 数据 。 而 由 于 块 设备 的 诸多 不 便 和 恶劣 性 能 影响 , 不 
推荐 直接 使 用 。 那 基于 文件 系统 的 IO 和 基于 裸 设备 的 IO 方式 到 底 庚 优 熟 劣 呢 ? 我 们 就 此 讨论 
一 下 。 

文件 系统 拥有 诸多 优点 是 组 良 置 疑 的 ， 但 是 对 于 某 一 类 程序 ，FS 提供 的 这 些 “ 方 便 ”的 功能 
似乎 就 显得 很 有 局 限 性 了 ,比如 缓存 的 管理 等 , 由 于 文件 系统 是 一 个 公用 平台 , 同时 为 多 个 应 用 程 
序 提供 服务 ， 所 以 它 不 可 能 只 为 一 个 应 用 程序 而 调 尽 全 力 服务 ;况且 最 重要 的 是 ，FS 不 会 感知 应 
用 程序 实际 想 要 什么 ， 而 且 FS 自身 的 缓存 在 系统 异常 Down 机 后 还 容易 造成 数据 不 一 致 情况 的 发 
生 。 其 次 ， 使 用 缓存 的 1O 方式 下 ， 对 于 读 请 求 ， 系 统 IO 路 径 中 的 各 个 模块 需要 将 数据 层 层 向 上 
层 模块 的 缓存 中 复制 ， 最 后 才 会 被 OS 复制 到 用 户 程序 缓存 ， 对 于 写 请 求 ， 虽 然 缓存 IO 方式 下 ， 
写 数据 被 OS 接受 后 即 宣告 完成 ,但 这 也 是 造成 Down 机 后 数据 丢失 的 主要 原因 之 一 。 所 以 ,对 于 
大 数据 知 吐 量 IO 请 求 ， 避 免 内 存 中 多 余 的 数据 复制 步 又 是 有 必要 的 〔 此 外 还 有 另外 一 个 原因 在 下 
面 章节 介绍 ) 。 但 是 对 于 一 般 的 程序 ， 是 完全 推荐 使 用 文件 系统 进行 IO 操作 的 。 

另外 一 个 最 重要 的 原因 ， 在 使 用 内 核 缓存 以 及 文件 系统 缓存 的 情况 下 ， 容 易 发 生 读 写 惩 罚 ， 
这 是 非常 严重 的 浪费 。 

对 于 这 类 对 IO 性 能 要 求 非常 高 而 且 对 缓存 要 求 非常 高 的 程序 ,它们 宁愿 自己 直接 操作 底层 
物理 设备 ,也 不 愿意 将 IO 交 给 FS 来 处 理 。 这 类 程序 的 典型 代表 就 是 数据 库 类 程序 。 虽 然 这 些 程 
序 也 可 以 使 用 文件 系统 来 进行 IO 操作 ， 但 是 这 个 选择 只 会 给 程序 带 来 一 个 方面 的 好 处 ， 那 就 是 
文件 管理 会 方便 比如 可 以 看 到 数据 文件 实 实在 在 地 被 放 在 某 个 目录 下 , 可 以 直接 将 数据 文件 复 
制 出 来 做 备份 ,做 文件 系统 快照 保护 等 。 而 选择 文件 系统 所 带 来 的 坏处 也 是 不 少 的 ,比如 最 大 的 
劣势 就 是 重复 缓存 预 读 ，FS 预 读 了 数据 ， 数据库 程序 依然 自己 维护 一 个 预 读 缓存 ， 这 两 个 缓存 
里 面 势 必 有 很 多 数据 是 重复 的 ,增加 了 许多 空间 和 计算 资源 开销 ,而 且 这 些 数 据 不 见得 都 会 产生 
Cache Hit 效果 。 所 以 这 类 程序 宁愿 使 用 裸 设备 自行 管理 数据 存储 和 数据 ID， 所 带 来 的 唯一 缺点 
就 是 数据 管理 很 不 方便 , 除了 程序 自身 , 其 他 程序 只 看 到 了 -一块 光秃秃 的 宰 设 备 在 那儿 ， 里 面 放 
的 什么 东西 ， 怎 么 放 的 ， 只 有 程序 自己 知道 


4. DirectIO 与 裸 设 备 之 争 


有 没有 一 种 方法 能 够 结合 FS 和 裸 设 备 带 来 的 优点 昵 ? 有 的 。 为 了 既 享 受 文件 系统 管理 文件 
的 便利 同时 而 又 不 使 用 FS 层面 的 缓存 ， 将 缓存 和 IO 优化 操作 全 部 交 给 应 用 程序 自行 处 理 ，FS 
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只 负责 做 文件 一 肩 区 映射 操作 以 及 其 他 文件 管理 层面 的 操作 ， 节 约 内 存 耗 费 以 及 提高 处 理 速度 。 
操作 系统 内 核 提 供 了 一 类 接口 , 也 就 是 前 文中 出 现 的 FILE_FLAG_NO_BUFFERING 参数 。 当 然 ， 
这 个 参数 只 是 Windows 内 核 提供 的 ， 其 他 操作 系统 也 都 有 类 似 的 参数 。 这 种 Bypass 系统 内 核 缓 
存 的 IO 模式 统称 为 DIO， 即 Direct IO 模式 。 在 UNIX 类 系统 下 ， 在 Mount 某 个 FS 的 时 候 可 
以 指定 “-direct” 参 数 来 表示 任何 针对 这 个 FS 的 IO 操作 都 将 不 使 用 内 核 路 径 中 任何 一 处 缓存 。 
当然 ， 也 可 以 在 应 用 程序 层 控制 ， 比 如 打开 文件 时 给 出 O_SYNC 或 者 O_DIRECT 、 
FILE_FLAG_NO_BUFFERING 之 类 的 参数 ， 那 么 不 管 目标 FS 在 mount 时 给 出 了 何 种 参数 ， 这 
个 程序 的 IO 都 将 不 使 用 文件 系统 缓存 。 


注意 : 由 于 内 核 的 DIO 模式 只 是 Bypass 了 缓存 ,其 他 任何 接口 均 未 变 , 所 以 DIO 模式 下 ， 
内 核 文件 系统 允许 应 用 程序 对 文件 做 出 非 DIO 模式 下 相同 的 任何 操作 ,包括 读 写 任意 字 节 
长 度 的 文件 数据 ( Windows 除外 ， 见 前 文 ) ， 而 这 种 貌似 “透明 且 便利 ”的 接口 ,恰恰 依 
然 还 会 带 来 读 写 惩罚 。 


注意 : 在 Windows 系统 下 , 如 果 应 用 程序 选择 不 使 用 系统 缓存 , 则 应 用 程序 自身 的 缓存 必 
须 为 底层 存储 介质 扇 区 的 整数 倍 大 小 (完全 按照 底层 设备 要 求 的 IO 长 度 单位 ， 内 核 在 接 
收 到 用 户 程序 I0 时 并 不 做 检查 , 直接 交 给 底层 驱动 , 如 果 底 层 驱 动 发 现 这 个 I0 长 度 并 不 
合 它 的 要 求 ,那么 会 一 层 层 向 上 报错 直到 用 户 程序 .如 果 底 层 驱 动 为 NIR 驱动 ( 见 上 文 )， 
那么 由 于 诸如 CIFS 之 类 协议 规定 I0 长 度 甚至 可 以 为 0B， 所 以 底层 使 用 CIFS 的 时 候 , 使 
用 DIO 模式 的 用 户 程序 可 以 发 起 不 规则 长 度 的 IO ) ， 因 为 越过 了 系统 内 核 缓存 ，0S 将 直 
接 将 应 用 程序 自身 缓存 作为 底层 存储 设备 的 DMA 空间 ,而 底层 I0 设备 都 要 求 目标 内 存 空 
间 必 须 为 扇 区 整数 倍 ， 即 扇 区 对 齐 ， 所 以 应 用 程序 在 运行 时 被 推荐 使 用 0S 提供 的 特殊 函 
数 功能 来 为 自己 分 配 内 存 最 为 保险 。 另 外 ， 应 用 程序 发 送 的 IO 请 求 中 地 址 段 也 必须 为 下 
层 卷 扇 区 或 者 块 的 整数 倍 ( AIX 系统 下 可 以 发 送 任意 长 度 IO ) 。 
在 Windows 系统 下 ， 程 序 如 果 选 择 使 用 DIO 模式 ， 那么 操作 系统 会 生成 一 份 Memory 
Descriptor List (MDL)， 将 对 应 指针 传递 给 底层 设备 驱动 程序 并 且 在 IRP ( 见 下 文 ) 中 通知 
驱动 程序 本 次 I0 使 用 DIO 模式 ， 同 时 锁定 应 用 程序 自身 缓存 中 对 应 本 次 IO 的 Page。 驱 
动 程序 使 用 MDL 直接 对 应 用 程序 内 存 进行 访问 。 这 也 是 为 何在 Windows 系统 下 选择 DIO 
模式 的 程序 自身 缓存 以 及 IO Size 必须 为 扇 区 整数 倍 的 原因 。 本 章 后 面 会 介绍 Windows 下 
DIO 的 详细 步骤 。 
Windows 下 的 DIO 模式 (FILE_FLAG_NO_BUFFERING ) 是 彻底 的 透 传 上 层 请 求 的 (不管 
FS Block 是 多 少 ， 上 层 IO 请求 包含 多 少 个 扇 区 长 度 ，0S 会 向 底层 物理 设备 发 起 对 应 的 扇 
区 长 度 的 IO ) , 而 AIX 下 则 不 是 。 但 是 Windows 下 的 DIO 模式 也 要 求 程序 发 起 的 IO 必须 
为 底层 存储 介质 最 小 单位 的 整数 倍 (CIFS 方式 除外 ， 见 前 文 ) ， 而 AIX 下 则 可 以 为 任意 
长 度 。 也 正 因为 如 此 ，Windows 才 可 以 透 传 应 用 层 的 IO 请 求 ，AIX 由 于 允许 应 用 层 IO 不 
对 齐 ， 所 以 其 底层 也 不 可 能 透 传 应 用 层 的 IO。 


在 AIX 系统 下 , 虽然 OS 允许 程序 在 DIO 模式 下 发 起 任意 字 节 长 度 的 IO, 但 是 由 于 底层 物 
理 设备 只 能 接受 扇 区 对 齐 的 IO 长 度 ， 像 块 设备 IO 一 样 ， 这 之 间 存 在 一 个 转换 关系 ， 内 核 自动 
将 不 对 齐 的 IO 转换 为 底层 对 齐 的 IO ， 完 成 这 个 动作 需要 一 小 部 分 的 缓存 。 对 于 读 IO 操作 ， 最 
差 的 情况 为 应 用 程序 如 果 每 次 IO 只 读 取 1B 的 内 容 , 那么 这 个 IO 到 了 底层 便 会 变 为 对 物理 设备 
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4KB 的 读 IO 操作 ， 当 取 回 数据 之 后 ，OS 只 返 
的 4KB 


回 给 应 用 程序 所 读 取 的 那 1B 的 内 容 ， 然 后 将 读 入 


内 容 从 缓存 中 删除 , 即 多 耗费 了 4096 倍 的 IO 操作 和 4096 倍 的 带宽 。 如 果 使 用 内 核 文 件 


系统 缓存 ， 那 么 这 种 浪费 是 不 存在 的 ，FS 可 以 直接 从 预 读 缓存 中 将 对 应 的 字 节 直接 返回 给 应 用 
程序 。DIO 模式 与 块 设备 IO 模式 在 多 数 情况 下 效果 类 似 。 


下 面 的 例子 显示 了 AIX 系统 下 对 一 个 DIO 模式 Mount 的 FS 进行 以 0.5KB 的 IO Size 为 单位 

递增 的 读 测试 数据 。 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
3995 0 0 0 15976 0 0.00 0.04 /vol/Lun/Lunaix 0.5KB 读 操 作 
4007 0 0 0 16032 0 0.00 0.05 /vol/Lun/Lunaix 
3993 0 0 0 15972 0 0.00 0.04 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
4289 0 0 0 4289 0 0.00 0.05 /vol/Lun/Lunaix 1KB 读 操作 
4412 0 0 0 4412 0 0.00 0.04 /vol/Lun/Lunaix 
4412 0 0 0 4412 0 0.00 0.04 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
3776 0 0 0 18880 0 0.00 0.04 /vol/Lun/Lunaix 1.5KB 读 操作 
3855 0 0 0 19276 0 0.00 0.04 /vol/Lun/Lunaix 
3855 0 0 0 19276 0 0.00 0.04 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
3257 ”以 0 0 6514 0 0.04 0.03 /vol/Lun/Lunaix 2KB 读 操 作 
4220 0 0 0 8440 0 0.03 0.05 /vol/Lun/Lunaix 
4280 0 0 0 8562 0 0.00 0.05 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
3628 0 0 0 21760 0 0.00 0.04 /vol/Lun/Lunaix 2.5KB 读 操作 
3704 0 0 0 22228 0 0.00 0.04 /vol/Lun/Lunaix 
3718 0 0 0 22316 0 0.00 0.04 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
4168 1 0 0 12504 4 0.00 0.04 /vol/Lun/Lunaix 3KB 读 操作 
4189 0 0 0 12567 0 0.00 0.04 /vol/Lun/Lunaix 
4187 0 0 0 12558 0 0.00 0.04 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 

Ops Ops Ops kB kB Latency Length 
2503 0 0 0 17520 0 0.12 0.03 /vol/Lun/Lunaix 3 .5KB 读 操 作 

可 以 看 到 ，DIO 模式 对 应 的 底层 IO Size 并 不 与 应 用 层 IO Size 一 致 ， 但 是 DIO 模式 与 块 设 


备 IO 模式 有 一 些 区 别 。 比 如 块 设备 IO 模式 下 只 有 在 应 用 层 IO Size=Page Size 时 ， 底 层 与 上 层 
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的 IO 才 是 一 一 对 应 的 ; 而 DIO 模式 下 ， 只 有 在 应 用 层 IO Size=FS Block Size 时 ， 底 层 IO 才 是 


与 上 层 一 一 对 应 的 。 


与 块 设备 一 样 ， 对 于 DIO 模式 下 写 操作 最 差 的 情况 是 ， 应 用 程序 如 果 每 次 IO 只 写 入 1B 的 
内 容 ， 那 么 底层 会 首先 读 入 待 写 入 字 节 所 落 入 的 4KB 块 到 缓存 ， 然 后 更 新 对 应 的 字 节 ， 然 后 再 
将 更 新 后 的 4KB 块 写 入 物理 设备 ， 多 耗费 了 底层 8192 倍 的 带宽 ， 而 且 这 其 中 有 一 半 的 耗费 为 写 
操作 。 写 比 读 所 耗费 的 资源 更 多 ， 雪上加霜 ,这 种 情况 是 不 可 容忍 的 。 


瑟 


下 


的 例子 显示 了 AIX 系统 下 对 一 个 DIO 模式 Mount 的 FS 进行 以 0.5KB 的 IO Size 为 单位 


递增 的 写 测 试 数据 。 与 块 设备 写 IO 相同 ， 具 有 一 定 规模 的 写 惩罚 。 


Read Write Other QFull Read 
Ops Ops Ops kB 
1577 1577 0 0 6308 6308 
1572 1572 0 0 6284 6288 
1575 1575 0 0 6304 6300 
Read Write Other QFull Read 
Ops Ops Ops kB 


Read Write Other QFull Read 
Ops Ops Ops kB 
1769 1415 0 0 7076 7068 
1770 1415 0 0 7080 7080 
1767 1414 0 0 7068 7072 
Read Write Other QFull Read 
Ops Ops Ops kB 
9 2570 0 0 0 5140 
0 2600 0 0 0 5200 
0 2600 0 0 0 5198 
Read Write Other QFull Read 
Ops Ops Ops kB 
1941 1294 0 0 7764 7760 
1884 1255 0 0 7536 7536 
1911 1275 0 0 7644 7648 
Read Write Other QFull Read 
Ops Ops Ops kB 
0 2508 0 0 0 7521 
0 2485 0 0 0 7455 

0 2341 0 0 0 7020 
Read Write Other QFull Read 
Ops Ops Ops kB 
2067 1180 0 0 8268 8264 


Write Average Queue Lun 
kB Latency Length 
0.00 0.03 /vol/Lun/Lunaix ”0.5KB 写 操作 
0.00 0.03 /vol/Lun/Lunaix 
0.00 0.03 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.02 /vol/Lun/Lunaix 1KB 写 操作 
0.00 0.03 /vol/Lun/Lunaix 
0.00 0.03 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.03 /vol/Lun/Lunaix ”1.5KB 写 操作 
0.00 0.03 /vol/Lun/Lunaix 
0.00 0.03 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.02 /vol/Lun/Lunaix ”2KB 写 操作 
0.00 0.02 /vol/Lun/Lunaix 
0.00 0.02 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.03 /vol/Lun/Lunaix 2.5KB 写 操作 
0.00 0.03 /vol/Lun/Lunaix 
0.00 0.03 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.02 /vol/Lun/Lunaix 3KB 写 操作 
0.00 0.02 /vol/Lun/Lunaix 
0.01 0.02 /vol/Lun/Lunaix 
Write Average Queue Lun 
kB Latency Length 
0.00 0.03 /vol/Lun/Lunaix ”3.5KB 写 操作 
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2057 1176 0 0 8228 8232 0.00 0.03 /vol/Lun/Lunaix 
2043 1168 0 0 8176 8172 0.00 0.03 /vol/Lun/Lunaix 
Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
0 2426 0 0 0 9704 0.00 0.02 /vol/Lun/Lunaix 
0 2421 0 0 0 9684 0.00 0.02 /vol/Lun/Lunaix 
0 2419 0 0 0 9672 0.00 0.02 /vol/Lun/Lunaix 


所 以 ,利用 DIO 模式 读 写 文件 或 者 直接 读 写 块 设备 的 应 用 程序 一 定 要 明确 自己 在 做 什么 ， 
为 何 使 用 DIO，DIO 会 带 来 什么 。 但 是 只 要 程序 发 起 的 IO 的 IO Size 是 FS Block 的 整数 倍 ， 那 
么 就 不 会 浪费 资源 , 也 就 是 说 既然 选择 了 DIO, 就 要 在 应 用 层面 多 考虑 一 层 。 虽 然 可 以 与 访问 组 
存 模 式 FS 同样 的 方法 访问 DIO 模式 的 FS， 但 是 需要 底层 付出 巨大 代价 的 ， 我 们 必须 从 源头 上 
消除 这 种 代价 。 块 设备 也 一 样 。 这 方面 Windows 的 做 法 是 强制 要 求 程序 自身 缓存 和 IO Size 为 扇 
区 整数 倍 ， 而 AIX 却 没 有 强制 要 求 ， 但 是 开发 者 必须 认识 到 这 一 点 。 所 以 ， 如 果 可 以 的 话 ， 对 


于 数据 库 类 程序 尽量 使 用 裸 设备 进行 IO, 一 了 百 了 。 


注意 : Write Through 与 FILE_FLAG_NO_BUFFERING 有 着 本 质 区 别 : 前 者 模式 下 , 数据 依 
然 首 先进 入 操作 系统 内 核 缓存 , 只 不 过 内 核 保证 数据 被 写 人 磁盘 之 后 才 返 回 成 功 而 不 是 像 
Buffered IO 模式 下 只 要 数据 进入 内 核 缓 存 便 立即 返回 成 功 ; 而 后 者 则 表示 数据 根本 就 不 进 
人 内 核 缓存 ， 直 接 由 底层 驱动 从 用 户 程序 自身 缓存 取 走 数据 从 而 写 入 底层 存储 介质 。 

这 二 者 看 似 效 果 类 似 ， 实 则 有 很 大 不 同 : 前 者 很 有 可 能 依然 导致 内 核 Page Fault 流程 导致 
的 写 惩罚 ;而 后 者 则 不 会 有 内 核 层面 的 写 惩罚 。 所 以 开发 者 需要 注意 了 , 使 用 时 最 好 直接 
选择 后 者 而 不 是 前 者 。 有 些 I0 测试 软件 甚至 没有 使 用 NoBuffer 模式 而 只 用 了 WT 模式 ， 
殊不知 这 种 情况 下 根本 无 法 体现 出 底层 存储 系统 的 真实 性 能 , 由 于 读 写 惩罚 的 原因 导致 所 
得 的 结果 总 是 过 低 ， 而 此 时 将 存储 端的 IO 监测 数据 与 程序 得 出 的 数据 比较 就 会 发 现 ， 底 


层 存储 的 实际 吞吐 量 以 及 IOPS 都 可 能 远大 于 程序 所 报告 的 。 


关于 前 者 依然 产生 读 写 惩罚 的 问题 ， 前 文 Network I0 一 节 的 疯狂 实验 中 有 介绍 。 


注意 : 这 里 请 注意 一 个 概念 问题 。 操 作 系统 内 有 多 处 缓存 ， 其 实 面 对 用 户 程序 的 第 一 处 组 
存 并 不 是 通常 理解 的 “文件 系统 缓存 ”， 而 是 一 处 被 称 为 “SystemBuffer” 的 缓存 。 当 用 户 
程序 选择 使 用 Cache I0 或 称 Buffered IO 时 ， 每 发 起 一 个 I0 请 求 ， 操 作 系统 便 会 根据 程序 
IO 请 求 的 数据 所 占用 内 存 的 大 小 在 操作 系统 内 核 内 存 空间 同样 分 配 一 块 与 其 相同 大 小 的 
内 存 用 来 充当 SystemBuffer， 然 后 再 往 下 才 是 文件 系统 缓存 。 任 何 读 人 或 者 写 和 人 的 数据 都 
需要 经 过 SystemBuffer。 而 DIO 模式 下 , 操作 系统 会 Bypass 首 个 缓存 , 也 就 是 SystemBuffer, 
同时 也 通知 IO 路 径 中 首 层 驱动 使 用 DIO 模式 ， 首 层 驱 动 程序 ( 包括 文件 系统 也 是 一 种 驱 
动 程序 ) 直接 从 用 户 程序 内 存 中 将 数据 取出 ( 对 于 写 请 求 ) 或 者 送 入 ( 对 于 读 请 求 ) 。 下 


面 的 章节 中 会 讲述 Buffered I0 的 详细 过 程 。 


5. 关于 CIO 模式 


某 些 文件 系统 ， 比 如 AIX 下 的 JFS2， 采 用 读 共 享 、 写 独占 的 方式 来 处 理 多 个 进程 访问 同一 
个 文件 的 情况 ， 即 如 果 多 个 进程 访问 同一 个 文件 ， 如果 没有 任何 进程 对 这 个 文件 进行 写 操作 ， 那 
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么 所 有 进程 都 可 以 同时 读 取 这 个 文件 的 任何 内 容 ; 但 是 一 旦 有 某 个 进程 在 对 这 个 文件 进行 写 操 
作 , 那么 其 他 所 有 进程 都 将 被 禁止 访问 这 个 文件 , 不 管 是 读 还 是 写 。 这 样 充分 保证 了 文件 数据 的 
一 致 性 , 保证 所 有 进程 在 相同 时 刻 都 会 看 到 相同 的 内 容 。 这 种 做 法 虽然 保证 了 数据 一 致 性 , 但 是 
FS 自作 主张 的 这 个 决定 只 是 对 一 些 没有 考虑 到 多 进程 并 行 访问 同一 文件 情况 的 应 用 程序 有 效果 ， 
对 于 那些 自身 已 经 对 这 种 情况 考虑 足够 充分 的 数据 库 类 程序 来 讲 ，FS 的 这 个 做 法 不 但 是 多 余 的 ， 
而 且 还 极 大 影响 性 能 , 使 得 多 个 进程 不 能 同时 并 发 写 同一 个 文件 而 只 能 串 行 地 进行 。 而 数据 库 类 
程序 恰好 就 要 求 多 进程 多 线程 同时 写 一 个 文件 , 比如 负责 写 Log 文件 的 进程 或 者 写 数据 文件 的 进 
程 ， 这 些 进程 往往 都 有 多 份 复制 在 同时 执行 以 获得 最 大 的 并 发 度 和 性 能 。 

针对 这 个 需求 ，AIX 系统 下 的 JFS2 文件 系统 提供 了 另外 一 种 接口 ， 称 为 CIO 模式 ， 即 
Concurrent IO， 这 种 模式 下 FS 将 不 再 自行 锁定 文件 ， 而 是 完全 对 多 个 进程 放 开 对 文件 的 同时 访 
问 权限 ， 将 保证 数据 一 致 性 的 责任 完全 交 给 应 用 程序 执行 。 开 启 CIO 模式 之 后 ，AIX 会 自动 强 
制 开启 DIO 模式 。 另 外 ， 如 果 同 时 打开 同一 个 文件 的 多 个 进程 中 有 一 个 或 多 个 并 没有 在 打开 文 
件 时 指定 使 用 CIO 模式 ， 那 么 OS 就 不 会 使 用 CIO 模式 来 操作 这 个 文件 ， 多 个 进程 之 间 仍 然 必 
须 串 行 写 入 文件 ， 当 没有 使 用 CIO 模式 的 进程 退出 后 ，OS 就 会 自动 使 用 CIO 模式 来 操作 文件 。 
还 有 ， 当 某 个 进程 试图 对 某 个 被 多 进程 同时 打开 的 文件 进行 虚 写 IO 时 ， 也 就 是 没有 更 改 文件 实 
际 内 容 而 只 是 更 改 一 些 文件 属性 , 或 者 更 改 文件 长 度 等 操作 时 ,OS 会 自动 将 CIO 模式 失效 而 恢 
复原 来 的 独占 模式 ; 当 操 作 完成 后 ， 会 恢复 CIO 模式 。 

注意 : Windows 的 做 法 与 JFS2 不 同 ，Windows 提供 一 种 指定 文件 访问 方式 的 API 参数 , 即 

Share Mode， 程 序 在 打开 文件 的 时 候 可 以 选择 使 用 何 种 Share Mode， 比 如 其 他 进程 只 读 、 

其 他 进程 不 可 读 写 、 其 他 进程 可 读 写 、 其 他 进程 可 删除 等 。 所 以 Windows 本 身 就 已 经 可 以 

实现 类 似 CIO 的 模式 ， 只 要 每 个 进程 指定 可 读 写 Share Mode 即 可 。 


在 使 用 CIO 模式 之 后 ， 数 据 库 类 程序 的 IO 性 能 将 
会 与 裸 设 备 IO 性 能 接近 。 如 图 19-57 所 示 为 CIO、DIO 
和 裸 设备 IO 性 能 之 间 的 对 比 曲线 ， 可 以 看 到 由 于 单纯 
DIO 模式 下 不 可 并 发 ， 造 成 系统 性 能 相对 裸 设 备 差别 很 
大 ， 而 CIO 模式 下 则 差别 较 小 。 

对 于 数据 库 类 程序 , 使 用 AIO+ 裸 设备 IO 模式 为 最 
优 的 IO 模式 , 可 以 获得 最 大 的 性 能 。 如 果 考 虑 文件 管理 
便利 性 方面 ， 则 可 以 退 而 求 其 次 使 用 AIO+CIO 模式 ， 
也 可 以 在 获得 很 好 性 能 的 同时 又 不 失去 文件 系统 带 来 的 
好 处 。 

注意 : 多 个 进程 利用 CIO 打开 文件 时 , 请 确定 这 个 文件 最 好 是 定 长 的 , 即 进程 在 写 文件 的 

时 候 不 会 将 数据 追加 到 文件 尾部 或 者 插入 文件 中 部 或 者 对 文件 进行 truncate 等 造成 文件 大 

小 改变 的 操作 。 比 如 数据 库 的 Log 文件 , 数据 库 的 Log 写 进程 一 般 都 会 有 多 个 来 并 行 执行 

追加 写 入 ,如 果 Log 文件 是 动态 增 大 的 , 那么 CIO 丝毫 不 会 起 到 作用 ,多 个 进程 也 没有 存 

在 的 意义 ,所 以 Log 文 件 都 是 在 创建 的 时 候 就 被 指定 了 一 定 长 度 而 且 是 被 重复 获 盖 写 信 的 。 

DIO、CIO、AIO、SIO 之 间 的 关系 : AIO 和 SIO 是 指 程序 在 调用 OS 相关 API 之 后 自身 的 

动作 如 何 ， 阻 塞 还 是 不 阻塞 ; 而 DIO 和 CIO 是 指 程序 在 调用 OS 相关 API 之 后 0S 内 核 的 


二 
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图 19-57 CI0 性 能 对 比 
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动作 如 何 , 是 使 用 缓存 还 是 越过 缓存 , 是 并 发 写 信 还 是 串 行 写 入 。 程序 可 以 使 用 AIO+DIO、 
AIO+CIO、SIO+DIO、SIO+CIO 这 4 种 组 合 。 


19.1.4” 层 与 层 之 间 的 调度 员 : IO Manager 


IO Manager 或 称 IO Scheduler。 每 个 操作 系统 都 会 有 这 样 一 个 角色 ， 它 专门 负责 接受 上 层 程 
序 的 IO 请 求 ， 然 后 将 IO 请 求 下 发 到 对 应 的 模块 和 设备 驱动 中 执行 ， 然 后 将 结果 通知 给 上 层 程 
序 。 当 某 个 程序 试图 访问 某 个 文件 的 时 候 , 它 其 实 并 没有 直接 和 文件 系统 模块 打交道 ， 而 只 是 在 
与 IO Manager 打交道 。 

在 Windows 系统 下 ，OS 将 文件 系统 模块 的 各 种 功能 接口 打包 为 一 个 抽象 的 System Service， 
比如 对 于 文件 系统 打包 之 后 就 是 File Service, 对 于 设备 管理 就 是 Device Service, 还 有 比如 Memory 
Management Service 等 。 被 打包 之 后 的 Service 放 到 IO Manager 头顶 ， 任 何 程序 都 可 以 按照 这 些 
Service 提供 的 API 来 进行 相关 的 调用 , 比如 打开 一 个 文件 的 操作 , Open0。 所 有 的 System Service 
调用 动作 会 被 传递 给 IO Manager 进行 处 理 。 我 们 来 看 一 张 图 ， 如 图 19-58 所 示 为 Windows 系统 
IO 路 径 简 图 。 

图 19-58 中 一 共有 10 步 操作 ， 现 一 一 列举 如 下 。 


rights 


© call appropriate/ 
drivers with IRP 


complete operation, mass-storage devices 


© copy lIO Status return IRP with 
to subsystem UO Sstatus 
address space 


图 19-58 Windows 系统 10 路 径 简 图 
(1) 某 时 刻 ， 图 中 的 “Subsystem”， 这 里 就 是 指 某 个 应 用 程序 ， 向 OS ( System Service ) 发 
起 了 对 某 个 文件 对 象 , 或 者 某 个 设备 的 Open 操作 , 欲 打 开 这 个 文件 或 者 设备 对 其 进行 
进一步 的 操作 。 
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(2 ) IO Manager 只 是 一 个 调度 和 代理 模块 ， 它 本 身 并 不 知道 上 层 所 请 求 的 这 个 对 象 (文件 
或 者 设备 等 ) 到 底 存 放 在 哪里 ， 是 哪 一 类 的 对 象 ， 文件 还 是 设备 等 。 所 以 IO Manager 
向 另 一 个 明白 人 儿 , 也 就 是 Object Manager 发 起 查询 请 求 以 获得 结果 。 同 时 ,IO Manager 
也 会 向 Securiy 模块 来 查询 当前 应 用 程序 是 否 具有 访问 目标 对 象 的 权限 。 假 设 本 例 中 应 
用 程序 Open 的 是 比如 “D:\Melonhead” 文 件 。 
(3 ) 本 例 中 的 目标 对 象 为 D 分 区 文件 系统 下 的 一 个 文件 “D:\Melonhead”，Object Manager 
会 将 这 一 信息 返回 给 IO Manager ( 以 下 简称 IOM ) 。IOM 得 到 这 个 信息 之 后 首先 查看 
对 应 的 分 区 或 者 卷 是 否 已 经 被 挂 载 ， 如 果 尚 未 挂 载 ， 则 IOM 暂 挂 上 层 的 Open0 操 作 ， 
转 而 首先 尝试 让 文件 系统 挂 载 这 个 卷 。-Windows 中 存在 多 种 文件 系统 模块 ,比如 FAT32、 
NTFS、CDFS 等 ，IOM 会 依次 轮 询 地 尝试 让 每 个 文件 系统 模块 来 挂 载 这 个 卷 ， 直 到 某 
个 文件 系统 成 功 地 识别 到 了 卷 上 的 对 应 的 文件 系统 信息 并 将 其 挂 载 为 止 。FS 挂 载 之 后 ， 
IOM 继续 执行 Open0 请 求 。 
(4) IOM 为 这 个 请 求 分 配对 应 的 内 存 空间 ， 然 后 向 对 应 的 下 层 驱 动 ( 这 里 是 文件 系统 驱动 ， 
也 就 是 文件 系统 模块 本 身 ) 发 送 一 个 RP (IO Request Packet ) ，IRP 中 包含 了 上 层 所 
请 求 的 所 有 信息 以 及 完成 这 个 请 求 所 要 涉及 的 底层 所 有 驱动 链 ( 文件 系统 驱动 、 磁 盘 设 
备 驱 动 等 ) 的 对 应 信息 。 关 于 IRP 的 具体 结构 以 及 具体 流程 见 下 文 。 
IOM 将 生成 的 IRP 首先 发 送 给 驱动 链 的 顶层 第 一 个 驱动 ， 这 里 就 是 文件 系统 本 身 。 文 
件 系 统 收 到 IRP 之 后 ,会 读 取 IRP 中 给 自己 的 信息 ， 提 取出 操作 对 象 和 操作 内 容 ， 然 
后 开始 操作 。 如 果 应 用 调用 时 未 指定 DIO 模式 ， 则 文件 系统 当然 首先 要 查询 是 否 请 求 
的 对 象 数 据 已 经 位 于 Cache 中 ( 本 例 中 应 用 请 求 Open0 一 个 文件 ， 所 以 这 里 的 目标 数 
据 就 是 指 这 个 文件 的 Metadata，FS 要 读 入 这 个 文件 的 Metadata 后 才 可 以 响应 上 层 的 
Open0 操 作 ) ， 如 果 目 标 数据 恰好 位 于 Cache 中 ， 那 么 文件 系统 直接 完成 这 个 IRP 请 
求 ,将 携带 有 IO 完成 标志 的 IRP 返回 给 IOM 宣告 完成 , IOM 从 而 也 返回 给 应 用 程序 
宣告 完成 。 如 果 Cache 未 命中 , 则 FS 需要 从 底层 的 磁盘 来 读 取 目 标 数 据 ， 这 就 需要 FS 
在 这 个 IRP 中 对 应 的 底层 设备 驱动 信息 中 填 入 底层 设备 所 要 执行 的 动作 ， 比 如 读 取 某 
某 LBA 段 的 内 容 等 ,然后 将 组 装 好 的 新 IRP 通过 调用 IOM 提供 的 功能 API( 详 见 下 文 ) 
来 将 它 发 送 至 位 于 FS 下 层 的 设备 驱动 处 。 
(6 ) 设备 驱动 接收 到 IRP 之 后 ， 与 文件 系统 做 相同 的 动作 ， 也 是 首先 从 IRP 中 找 出 给 自己 
的 信息 ， 提 取出 操作 对 象 和 内 容 ， 然 后 操控 物理 设备 执行 对 应 的 扇 区 读 写 。 
(7 ) 当 驱 动 链 中 所 有 驱动 都 完成 各 自 的 任务 之 后 ， 底 层 驱 动 将 带 有 完成 状态 标记 的 IRP 返 
回 给 IOM。 
(8) IOM 收 到 这 个 RP 之 后 ， 检 查 其 状态 标志 ， 如 果 是 成 功 完成 ， 则 将 会 通知 上 层 应 用 程 
序 打开 成 功 ， 并 且 返 回 给 程序 一 个 针对 这 个 文件 对 象 的 File Handle。 
(9 ) IOM 将 这 个 IRP 清除 。 
(10) IOM 返回 一 个 File Handle 给 程序 ， 以 后 这 个 程序 就 需要 使 用 这 个 Handle 来 对 这 个 文 
件 进行 其 他 操作 ,比如 写 、 读 、 删 等 等 ,其 对 应 的 IO 请 求 执行 过 程 会 依照 上 述 步骤 进 
行 。 
可 以 看 到 , 在 OS 内 核 中 , 每 个 IO 请 求 都 是 以 IRP 为 载体 来 传递 的 。 与 外 部 网 络 上 的 数据 
包 相 同 ，IRP 包 只 不 过 是 在 内 存 中 传递 而 不 是 线 费 上 。 
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如 图 19-59 所 示 为 IRP 包 的 数据 结构 ， 其 中 右 侧 部 分 为 一 
个 “IO Stack Location (IOSL ) ”数组 的 放大 结构 。IOM 在 发 送 
IRP 给 驱动 链 的 顶层 驱动 之 前 一 定 要 知道 完成 上 层 的 IO 需要 的 
全 部 底层 角色 , 比如 FS、Volume、Device Driver 等 , 这 些 角色 按 
照发 生 作 用 的 先后 顺序 一 次 排列 形成 一 个 自 上 而 下 的 驱动 链 ， 
IRP 在 被 IOM 初次 组 装 时 ,会 被 IOM 填 充 入 一 个 或 者 多 个 IOSL。 
驱动 链 中 有 几 层 驱动 , IRP 中 就 有 几 层 IOSL, 每 层 驱动 都 对 应 自 
身 的 IOSL。 

IOSL 中 包含 了 本 层 驱 动 应 该 做 的 事情 的 描述 ， 比 如 操作 的 
目标 、 何 种 操作 等 。IOSL 中 有 多 项 结构 用 来 对 其 进行 描述 ， 比 
如 IRP_MJ_CREATE (打开 ) 、IRP_MJ_READ ( 读 取 ) 、 
IRP_MJ_ WRITE ( 写 入 ) 、IRP_MJ_DEVICE_CONTROL (控制 指令 ) 、IRP_MJ_CLOSE ( 关 
闭 ) 等 。 其 中 MJ 表示 Major， 就 是 说 这 些 操作 都 是 本 层 驱动 的 基本 功能 ， 这 些 基 本 功能 在 图 中 
表示 为 “IRP_MJ_XXX”。 还 有 一 类 设备 自 定义 的 Minor 功能 ， 都 集合 在 IRP_MN_XXX 中 。 
图 中 的 arguments 表示 操作 的 对 象 ,比如 所 要 操作 的 数据 位 于 何 处 ,长 度 是 多 少 等 。PtrDeviceObject 
表示 本 层 驱 动 对 应 的 设备 对 象 指针 ，PtrFileObject 表示 待 操作 的 文件 对 象 指针 ， 这 个 项 目 只 对 文 
件 系统 驱动 层 有 用 处 ， 其 他 层 一 般 不 使 用 这 一 项 。 

在 图 中 左 侧 , 我 们 可 以 看 到 这 个 IRP 中 包含 上 下 两 个 IOSL, 上层 IOSL 已 经 填充 了 FS 驱动 
的 相关 操作 信息 ， 下 层 IOSL 尚未 空 。 说 明 这 个 IRP 的 驱动 链 只 有 两 层 ， 顶 层 即 文件 系统 驱动 
( FileSystemDriver，FSD ) ,底层 则 还 尚未 被 填充 , 暗示 底层 驱动 一 定 是 存储 设备 驱动 ， 也 同时 暗 
示 这 个 IRP 一 定 是 由 IOM 发 送 给 FSD 的 但 是 FSD 尚未 做 出 处 理 。 

被 IOM 组 装 好 的 IRP 初次 被 发 送 到 驱动 链 顶 层 ( 本 例 中 是 FS ) 驱动 模块 时 ， 只 有 顶层 的 
IOSL 被 IOM 填 入 ， 其 他 层次 的 IOSL 为 室 ， 因 为 此 时 只 有 IOM 知道 应 用 程序 要 做 什么 ， 而且 
IOM 也 不 知道 FS 下 层 的 磁盘 驱动 要 操作 哪些 扇 区 。 

顶层 驱动 模块 按照 IOM 填 入 的 IOSL 信息 执行 对 应 的 操作 ， 如 果 发 现 本 层 驱动 的 操作 必须 
转交 给 下 层 驱动 来 完成 的 话 ( 比如 系统 内 核 缓存 未 命中 必须 从 磁盘 来 读数 据 ) ,那么 本 层 驱动 在 
执行 对 应 的 映射 计算 后 (比如 FS 将 文件 offet 映射 为 磁盘 扇 区 段 ) , 将 下 层 驱 动 所 要 执行 的 动作 
信息 (比如 “ 读 入 LBA0 ~ 1024 的 数据 ”) 调用 IOM 提供 的 IoAllocatelrp 功能 函数 填 入 下 层 IOSL 
中 ( 由 于 当前 驱动 并 不 会 自动 得 知 下 层 驱动 的 IOSL 位 于 整个 IRP 中 的 位 置 , 所 以 需要 调用 IOM 
提供 的 IoGetNextIrpStackLocation 功能 函数 来 获取 ) 。 

填 好 之 后 , 调用 IOM 提供 的 IoCallDrive 功能 函数 将 填 好 的 IRP 发 送 给 下 层 驱 动 ( 磁盘 设备 
驱动 ) ,磁盘 设备 驱动 收 到 IRP 之 后 ， 从 IRP 中 读 取 本 层 对 应 的 IOSL， 也 就 是 刚才 由 FS 驱动 
填 入 的 IOSL， 执 行 其 中 的 操作 。 由 于 磁盘 设备 驱动 为 最 底层 的 驱动 ,所 以 在 它 执行 完毕 后 会 调 
用 IOM 提供 的 IoCompletionRequest 功能 函数 来 将 IRP 返回 给 IOM， 此 时 的 IRP 已 经 被 最 底层 
的 驱动 在 IO Status Block 中 填 入 了 IO 执行 状态 (成 功 、 错 误 等 ) 。 

IOM 收 到 IRP 之 后 ， 将 最 底层 对 应 的 IOSL 清空 ， 并 将 IRP 再 次 发 送 给 上 一 层 驱 动 (本 例 
只 有 两 层 , 如 果 有 多 层 则 一 层 一 层 回 传 ) 来 让 上 层 驱动 判断 底层 执行 的 结果 是 否 合格 。 本 例 中 上 
层 FS 驱动 是 最 顶层 驱动 ， 所 以 它 会 执行 IO 总 完成 过 程 (此 处 并 非 IoCompletionRequest ) ， 同 
样 在 IO Status Block 中 设置 状态 然后 将 IRP 返回 给 IOM, 如 果 状 态 为 成 功 , 则 本 次 IO 成 功 执行 ， 


图 19-59 IRP 结构 
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如 果 状 态 为 其 他 ， 则 相应 触发 其 他 动作 。 如 图 19-60 所 示 为 Windows 系统 内 IO Manager 与 驱动 
层 交 互 的 一 个 示意 图 , 其 中 包含 了 IRP 流动 的 路 线 以 及 IO 流程 。 可 以 根据 上 面 的 描述 来 对 应 图 
中 的 步骤 。 


SD-allocated) 
\ IRP 


AN 
、 


loStartNextPacket 
loCompleteRequest 


图 19-60 IRP 流动 过 程 
1. IOM 对 Buffered IO 处 理 过 程 


下 面 给 出 一 个 Windows 系统 下 IO Manager 处 理 Cached/Buffered IO 过 程 示例 。 如 图 19-61 
所 示 为 IOM 处 理 Buffered IO 时 的 流程 示意 图 ， 其 中 共有 6 处 关键 点 ， 下 面 就 分 别 描述 一 下 这 6 
处 关键 点 。 


图 19-61 IOM 处 理 Buffered I0 过程 示意 图 
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(1) 用户 程序 将 自身 数据 缓存 放置 在 所 分 配 的 虚拟 内 存 空间 内 某 段 逻辑 上 连续 的 地 址 之 内 ， 
这 段 虚拟 内 存 地 址 实际 上 可 以 被 映射 到 物理 内 存 中 并 不 连续 的 地 址 段 中 ,这 是 任何 操作 
系统 Memory Manager 都 会 做 的 。 

(2 ) 用 户 程序 在 向 OS 发 起 IO 请 求 时 会 将 待 写 入 数据 存放 的 数据 缓存 地 址 ( 对 于 写 请 求 ) 
或 者 用 于 接收 数据 的 缓存 地 址 通知 给 OS。 

(3 ) OS 使 用 ExAllocatePoolWithTag 功能 函数 在 内 核 的 一 个 内 存 空间 池内 创建 一 个 与 用 户 程 
序 对 应 缓存 相同 大 小 的 连续 的 SystemBufer。 

(4) 然后 IOM 立即 向 下 发 起 IRP, 在 IRP 中 IOM 会 将 SystemBuffer 的 指针 告知 顶层 驱动 程序 。 

(5 ) 对 于 读 请 求 ,底层 驱动 在 成 功 完成 数据 读 入 之 后 , 会 将 逐步 读 出 的 数据 放置 到 方才 被 通 

知 的 SystemBuffer 地 址 段 中 存放 , 当 整 个 IO 完成 后 , 驱动 会 通知 IOM 完成 信号 。 当然， 

底层 驱动 也 可 能 会 有 自己 的 缓存 , 比如 文件 系统 驱动 , 文件 系统 会 根据 自己 的 缓存 策略 

来 处 理 这 个 IO 请 求 ， 比 如 ， 如 果 Cache Hit， 则 直接 将 数据 复制 到 SystemBuffsr。 对 于 

写 请 求 ，IOM 会 首先 将 用 户 程序 缓存 中 待 写 入 的 数据 复制 到 方才 分 配 的 SystemBufter 

中 ,并 立即 返回 给 用 户 程序 完成 信号 ， 然 后 向 下 发 起 IRP 过 程 ， 下 层 驱 动 会 直接 从 

SystemBuffer 中 读数 据 从 而 写 入 底层 设备 。 当 然 对 于 文件 系统 驱动 这 一 层 ， 由 于 使 用 了 

Buffered IO，FS 会 缓存 这 个 写 IO 并 做 优化 处 理 ， 在 Flush 被 触发 后 ， 才 会 将 数据 继续 

向 下 从 驱动 写 入 。 

当 内 核 读 IO 完成 后 ，OS 会 将 SystemBuffer 中 的 内 容 复 制 到 用 户 程序 缓存 空间 ; 当 内 核 

写 IO 完成 后 ， 用 户 程序 不 会 有 感知 ， 因 为 Buffered IO 模式 下 ， 在 用 户 程序 写 IO 发 起 

后 便 立 即 被 通知 完成 了 。 IO 完成 后 , 内 核 使 用 ExFreePool 功能 函数 来 释放 针对 本 次 IO 

分 配 的 SystemBuffer。 每 次 IO 均 要 分 配对 应 的 SystemBuffer。 

注意 : 在 上 述 过 程 中 ， 当 SystemBuffer 被 分 配 之 后 ， 对 应 的 用 户 程序 Buffer 便 可 以 被 0S 

使 用 换 页 机 制 将 其 内 容 复制 到 硬盘 上 的 Pagefile 中 存放 ， 以 便 腾 出 物理 内 存 空间 给 其 他 程 

序 使 用 。 如 果 IO 吞吐 量 很 大 ,但 同时 依然 使 用 了 Buffered IO 模式 ， 那 么 不 但 因为 多 次 内 

存 数据 复制 而 效率 低下 ， 而 且 会 由 于 在 内 核 分 配 SystemBuffer 时 可 能 由 于 内 存 池 中 没有 对 

应 这 么 大 数据 空间 的 连续 内 存 地 址 段 而 造成 内 核 极 力 去 释放 内 存 空 间 , 而 首当其冲 的 就 是 

释放 文件 系统 缓存 空间 。 而 释放 FS 缓存 时 就 又 涉及 到 Flush I0 的 操作 ， 这 些 操作 在 底层 

又 随时 可 能 导致 路 径 中 其 他 模块 需要 分 配 内 存 ,而 这 就 成 了 一 个 死 循 环 , 可 能 导致 系统 失 

去 响应 。 所 以 I0 路 径 中 分 配 内 存 的 操作 需 慎之 又 慎 。 
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2.IOM 对 DIO 处 理 过 程 
如 图 19-62 所 示 为 IOM 处 理 DIO 过 程 ( 底层 设备 使 用 DMA 方式 ) 的 示意 图 。 其 中 共有 6 


个 主要 步骤 ， 下 面 我 们 就 分 项 描述 这 6 个 步骤 。 
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图 19-62 IOM 处 理 DI0 过 程 示 意图 

(1 ) 用 户 程序 自身 的 缓存 位 于 操作 系统 虚拟 出 来 的 虚拟 内 存 空 间 , 并 且 是 连续 的 。 这 块 虚拟 
连续 的 空间 实际 上 是 被 映射 到 物理 内 存 中 的 , 并 且 可 能 是 不 连续 的 。 操作 系 统 会 针对 这 
个 程序 的 缓存 空间 生成 一 份 Memory Description List ( MDL ) 用 来 描述 虚拟 地 址 和 物理 
地 址 的 映射 关系 等 信息 。 

(2 ) 程序 向 操作 系统 发 起 DIO 读 请 求 ， 并 在 自身 的 缓存 内 预 留 好 了 接收 读 出 数据 的 空间 ， 
并 将 这 个 空间 的 地 址 信息 通告 给 操作 系统 。 

(3 ) IOM 根据 收 到 的 缓存 地 址 信息 ,调用 MmProbeAndLockPages 功能 函数 将 对 应 的 物理 内 
存 地 址 锁定 。 

(4) IOM 生成 IRP 以 便 下 发 给 驱动 链 的 顶层 驱动 ， 并 在 其 中 给 出 用 于 接收 本 次 IO 数据 的 
物理 内 存 空间 位 于 MDL 中 的 指针 。 直 到 本 次 IO 完成 ， 否 则 指针 对 应 的 内 存 空 间 一 直 
处 于 锁定 状态 。 

(5 ) 底层 设备 使 用 MmGetMdlVirtualAddress 功能 函数 来 获取 这 些 指针 。 

(6 ) 底层 设备 从 介质 中 读 出 数据 之 后 , 将 数据 直接 送 至 这 些 指针 指定 的 物理 内 存 空间 。 ( 由 
于 Windows 下 DIO 模式 要 求 用 户 程序 发 起 的 IO Size 必须 与 最 底层 设备 的 最 小 存储 单 
位 对 应 , 所 以 此 处 可 以 直接 由 底层 设备 将 数据 返回 而 不 再 途径 文件 系统 返回 。 但 是 对 于 
一 些 底层 加 入 虚拟 化 效果 的 驱动 , 比如 卷 镜像 、RAID 等 , 则 最 底层 设备 驱动 需要 将 数 
据 返回 给 其 上 层 驱动 ， 然 后 由 上 层 驱动 负责 将 数据 置 入 用 户 程序 缓存 。 ) 

综 上 所 述 , IOM 统管 着 OS 内 核 中 所 有 驱动 以 及 上 层 调用 接口 ,为 整个 系统 IO 请 求 流动 的 
骨架 。 当 一 个 IO 进入 IOM 之 后 ,第 一 次 转发 是 IOM 主动 发 向 驱动 链 顶 层 驱 动 的 ， 随 后 的 进 一 
步 下 发 是 由 各 层 驱动 主动 发 起 的 ， 此 时 IO 请 求 流动 的 驱动 力 为 IoCallDrive 函数 (IOM 提供 ) ， 
各 层 驱 动 调用 这 个 函数 即 可 将 IRP 下 发 给 下 层 驱 动 。 当 然 也 可 以 认为 上 层 驱 动 执行 完 IRP 后 将 
IRP 通过 IoCallDrive 函数 扔 给 IOM， 然 后 IOM 再 发 送 给 下 层 驱动 ,因为 IoCallDrive 是 IOM 自 
身 的 功能 ， 所 以 本 质 上 这 么 理解 也 可 以 。 
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3. 成 也 Page Cache， 败 也 Page Cache 


Page Cache 是 操作 系统 内 最 后 一 层 Cache， 再 往 下 走 ， 就 是 实 实在 在 的 物理 硬件 设备 了 。 在 
Linux 系统 中 ， 早 在 2.2 内 核 版 本 的 时 代 ， 除 了 Page Cache ( Pcache ) 之 外 ,还 有 一 个 Buffer Cache 
( Bcache ) 处 于 Pcache 下 层 。 这 两 者 的 区 别 是 ,Pcache 用 于 缓存 文件 系统 层面 的 文件 块 数据 ,而 Bcache 
则 用 于 缓存 块 设备 层面 的 设备 块 数据 。 这 两 个 Cache 之 间 保 持 严格 同步 ， 即 一 个 文件 块 若 处 于 
Pcache 中 , 则 这 个 文件 块 所 对 应 的 磁盘 块 也 必须 同时 处 于 Bcache 中 , 针对 任何 一 个 块 进行 的 改动 ， 
必须 也 体现 到 另 一 个 Cache 对 应 的 块 中 , 即 同步 读 入 同步 修改 .但 是 到 了 Linux 2.6 内 核 之 后 ,Bcache 
的 作用 被 弱化 了 ， 基 本 上 没有 用 处 ， 文 件 和 块 设备 的 缓存 都 使 用 Pcache 并 且 不 再 同步 。 

。  Pcache 与 文件 或 者 块 设备 其 实 是 一 种 映射 关系 , 即 内 核 会 将 文件 或 者 块 设备 上 对 应 的 块 
映射 到 Pcache 中 对 应 的 Page，Page 作为 文件 或 者 块 设备 上 对 应 块 的 顶头 缓存 而 存在 。 
在 非 DIO 模式 下 ， 针 对 某 个 文件 或 者 块 设备 的 IO 操作 ， 必 须 经 过 Pcache。 比 如 读 请 
求 ， 内 核 首先 检查 Pcache 中 对 应 这 个 IO 所 请 求 的 块 的 Page 中 是 否 有 数据 ， 如 果 有 ， 
则 直接 返回 , 无 须 从 底层 磁盘 读 取 ; 对 于 写 请 求 , 内 核 也 是 首先 将 数据 写 入 对 应 的 Page， 
然后 再 批量 写 入 磁盘 。 

= Pcache 向 下 映射 到 文件 块 或 者 块 设备 块 , 向 上 则 可 以 映射 到 用 户 程序 缓存 , 这 样 , 利用 
Pcache 作为 中 间 人 ， 程序 只 要 访问 自身 缓存 内 映射 过 来 的 Pcache 对 应 的 Page， 就 等 于 
访问 到 了 Pcache 下 所 映射 的 文件 块 或 者 块 设备 块 , 途中 如 果 遇 到 Cache 非 命中 的 情况 ， 
则 会 产生 Page Fault， 触 发 从 底层 磁盘 设备 的 读 操作 。 这 种 Pcache 上 行 的 映射 称 为 
Memory Mapping，Mmapping 需要 用 户 程序 显 式 地 向 操作 系统 申请 ， 使 用 mmap0 功 能 
函数 。 利 用 mmap 机 制 , 如 果 有 多 个 程序 共同 读 取 同一 个 底层 块 , 那么 内 核 无 须 将 这 个 
块 分 别 复制 到 每 个 程序 自身 缓存 内 ， 只 需要 放置 一 份 在 Pcache 对 应 的 Page 中 即 可 ， 
Pcache 的 上 行 map 会 将 这 个 实际 的 Page 分 别 map 到 各 个 程序 自身 的 缓存 内 , 这 样 就 大 

大 降低 了 物理 内 存 耗费 。 对 于 写 操作 ， 也 同样 会 写 到 Pcache 中 对 应 的 Page， 每 个 程序 
程 


任何 时 刻 都 看 到 的 是 相同 内 容 并 且 最 新 的 Page， 也 就 是 说 任何 时 刻 只 有 Pcache 中 的 
份 Page 数据 ,这样 就 可 以 保证 数据 的 一 致 性 。 当 需要 将 被 修改 的 Page 写 入 磁盘 时 ， 程 
序 可 以 调用 msync0 功 能 函数 进行 。 

一 个 文件 或 者 块 设备 往往 比较 大 ， 不 可 能 全 被 映射 到 Pcache 中 。 但 是 对 于 用 户 程序 来 讲 ， 
其 所 被 分 配 的 内 存 地 址 都 是 虚拟 的 ， 往 往 可 以 很 大 ， 甚 至 大 过 物理 内 存 ， 所 以 程序 向 OS 内 核 所 
申请 映射 的 整个 文件 /设备 或 者 其 一 部 分 ， 对 于 虚拟 内 存 来 讲 是 有 空间 映射 的 。 

由 于 内 核对 程序 缓存 做 了 超 供 处 理 ， 比 如 虚拟 内 存 为 10MB 空间 ， 而 实际 上 内 核 只 给 了 其 
5MB 的 物理 内 存 空间 , 所 以 只 能 够 拆 东 墙 补 西 墙 所 以 内 核 需 要 维护 一 个 Page Table 来 记录 当前 
实际 的 虚拟 地 址 与 物理 Pcache 地 址 的 映射 关系 。 

当 程 序 需要 对 虚拟 地 址 空间 内 某 个 page 进行 IO 操作 时 ， 内 核 检查 PageTable， 如 果 没 有 找 
到 这 个 虚拟 Page 对 应 的 物理 Page, 那么 内 核 只 能 先 把 当前 被 占用 的 物理 Page 中 最 少 被 程序 访问 
的 那些 想 办 法 腾 出 来 给 新 请 求 使 用 。 

腾空 间 的 机 制 有 多 种 ， 比 如 最 划算 的 是 先 删 掉 物理 Page 中 那些 自从 被 读 入 之 后 就 没有 改过 

的 , 也 就 是 对 应 的 块 与 下 层 磁盘 上 的 块 内 容 一 致 的 那些 Page, 它们 占 在 这 里 除了 增加 一 些 缓存 命 

中 率 之 外 别 无 它 用 ， 所 以 之 不 犹 隐 地 将 它们 标记 为 Free 即 可 。 
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其 次 就 是 Flush Dirty Page, 即 如 果 物 理 Page 中 有 些 已 经 修改 过 的 但 尚未 被 写 入 磁盘 的 Page， 
那么 它们 占 在 这 基本 上 为 了 那 微乎其微 的 缓存 命中 率 , 此 时 也 没 多 大 意义 ,因为 此 时 此 刻 燃 眉 之 
急 是 物理 空间 不 够 用 ， 所 以 即刻 触发 Flush 将 其 写 入 磁盘 后 也 标记 为 Free。 

更 糟糕 的 是 ,如 果 上 面 两 个 动作 都 做 完了 , 物理 空间 还 是 不 够 用 , 那么 还 有 最 后 一 根 救命 稻 
草 ， 即 将 当前 占用 的 物理 Page 中 的 内 容 写 到 磁盘 上 一 个 特定 的 空间 ( Swap 分 区 ) 或 者 文件 
( Pagefile ) 中 暂 存 ， 以 腾 出 空间 ， 并 且 在 Page Table 中 做 好 记录 ， 这 个 过 程 称 为 Page Out。 待 什 
么 时 候 程 序 又 需要 访问 已 经 被 Page Out 的 Page 了 ， 内 核 的 Cache Manager 发 现 目标 Page 并 没有 
在 物理 内 存 中 ， 此 时 就 算 发 生 了 一 次 Page Fault， 那么 Cache Manager 就 得 根据 Page Table 中 的 记 
录 ， 从 Swap 分 区 或 者 Pagefile 中 将 对 应 的 之 前 Page Out 出 去 的 Page 再 读 入 物理 内 存 供 使 用 ， 这 
个 过 程 叫 做 Page In。 

然而 ， 最 糟糕 的 是 ， 物 理 Page 已 经 全 满 ， 该 做 的 也 做 了 ， 而 此 时 又 恰恰 需要 Page mm， 那么 
没 办 法 ， 只 能 将 物理 Page 中 最 少 被 访问 到 的 ( 使 用 LRU 算法 ) Page 写 到 Pagefile 或 者 Swap 分 
区 ， 再 将 Pagefile 或 Swap 分 区 中 要 Page In 的 Page 读 入 ， 这 种 情况 称 为 Page Exchange， 是 最 糟 
糕 的 状态 

护理 说 Pcache 的 存在 会 大 大 提高 IO 性 能 ,但 这 只 re Pcache 以 4KB 的 
Page 为 单位 进行 读 写 ,只 能 一 次 读 入 或 者 写 入 一 个 或 者 多 个 Page, 而 不 可 能 读 写 诸如 200B,1000B 
这 种 除 不 尽 4KB 的 数据 。 然而, 程序 在 访问 文件 或 者 块 设备 的 时 候 ， patti offset 为 起 始 ， 
发 起 任何 长 度 的 IO 请 求 。 这 就 使 得 Pcache 很 难 办 ， 一 旦 遇 到 这 种 尺寸 不 能 对 齐 Page 边界 而 且 
长 度 又 不 能 被 4KB 除 尽 的 IO 请 求 ， 就 会 发 生 本 章 前 文 所 描述 的 各 种 花样 的 读 写 惩罚 。 

另外 , 4KB 的 Page Size 为 x86 平台 普遍 使 用 , 其 他 一 些 平 台 比 如 安 腾 , 其 Page Size 为 64KB。 
IO Size 与 Page Size 相差 越 大 ， 惩 罚 比 例 就 越 大 。 但 是 Page Size 越 小 ， 那 么 Page Table 中 所 需要 
的 条 目 就 越 多 ， 由 于 Page Table 也 存在 于 内 存 中 ， 所 以 就 需要 浪费 更 多 的 物理 内 存 。 

所 以 说 , 成 也 Pcache， 败 也 Pcahce。Pcache 的 成 败 ， 最 终 决定 因素 还 是 在 用 户 程序 的 IO 设 
计 ， 是 否 充 分 考虑 了 各 种 情况 。 

另外 ， 对 于 一 些 慢 速 与 高 速 存储 介质 共存 的 系统 内 ， 比 如 SSD 与 机 械 硬 盘 共 存 ， 此 时 可 以 
针对 SSD 设备 使 用 DIO 模式 ， 将 有 限 的 RAM 一 级 缓存 留 给 更 需要 它 的 机 械 硬 盘 。 


4. Cache、Buffer、Queue 的 作用 层次 与 关系 


从 本 章 一 开始 给 出 的 那 张 系统 全 景 IO 路 径 图 中 可 以 看 到 ， 系 统 中 的 各 处 都 会 有 缓存 ， 还 有 
Queue， 同 时 还 存在 一 种 图 中 尚未 画 出 的 东西 ， 就 是 Buffer。 这 里 有 必要 讲解 一 下 这 三 者 的 层次 
与 关系 。 

Cache 是 一 个 海洋 , 其 中 可 以 有 长 时 间 固 定 不 动 的 东西 。 而 Queue, 很 显然 它 就 像 一 个 水 渠 ， 
其 中 的 数据 是 无 时 无 刻 不 在 流动 的 。 而 Buffer 更 像 是 一 个 溢出 的 水 渠 ， 比 水 渠 的 空间 更 大 一 些 ， 
但 是 Buffer， 更 应 该 被 翻译 为 “缓冲 ”而 不 是 缓存 ， 也 就 是 说 Buffer 中 的 数据 会 很 快 被 清 走 ， 或 
者 传输 到 上 游 模 块 ， 亦 或 是 被 传输 到 下 游 模 块 。Buffer 有 两 个 作用 : 一 是 针对 慢 速 设备 提供 一 个 
速度 适 配 的 缓冲 空间 , 二 是 为 了 给 某 种 计算 操作 提供 数据 暂 存 的 空间 。 比 如 某 种 存储 设备 , 数据 
在 被 读 出 或 者 写 入 介质 之 前 需要 进行 某 种 检查 或 者 运算 处 理 , 而 这 种 运算 是 非常 底层 而 不 是 高 层 
的 , 那么 就 有 必要 为 这 个 设备 创建 一 块 缓冲 , 也 就 是 Buffer 空间 用 于 存放 计算 之 前 的 数据 以 及 运 
算 之 后 的 结果 。 刻 录 光 盘 时 系统 分 配 的 内 存 空间 视 为 缓冲 , 因为 这 个 Buffer 中 的 数据 不 可 能 长 
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被 放 在 里 面 不 动 。 但 是 Cache， 也 就 是 “缓存 ”， 是 比 Queue 与 Buffer 更 高 层 的 东西 ， 其 作用 主 
要 是 用 来 加 速 数据 IO 而 不 是 缓冲 IO 流动 的 ， 其 中 可 以 存在 长 期 不 流动 的 数据 。 

Cache、Buffer、Queue， 这 三 者 的 数据 流动 性 是 一 级 比 一 级 高 ， 路 径 中 作用 层次 一 级 比 一 级 
低 , 所 发 挥 的 功能 一 级 比 一 级 低级 。 越 往 宏观 速度 越 慢 而 空间 越 大 , 越 往 微观 速度 越 快 而 空间 越 
小 ， 计 算 机 IO 路 径 也 完全 符合 这 个 自然 法 则 。 


19.1.5 ”底层 设备 驱动 层 


1. Windows 系统 下 的 驱动 链 


IO 请 求 从 应 用 程序 发 起 , 经 历 了 文件 系统 、 卷 管理 系统 , 现在 这 个 IO 请 求 要 经 历 它 离开 主 
机 操作 系统 前 的 最 后 一 关 : 设备 驱动 程序 。 我 们 以 Windows 系统 的 驱动 层次 架构 为 例 说 明 操作 
系统 是 如 何 使 用 底层 硬件 设备 的 。 

设备 分 为 虚拟 设备 和 实际 物理 设备 , 我 们 在 此 不 讨论 虚拟 设备 。 一 个 实际 的 物理 设备 , 一 般 
是 以 某 种 总 线 来 连接 到 计算 机 主板 上 的 , 比如 PCIX、PCIE 总 线 , 主板 上 的 导线 连 入 对 应 的 总 线 
控制 器 芯片 〈 一 般 是 与 北桥 或 者 南 桥 或 者 CPU 集成 的 ) ， 操 作 系统 就 是 从 总 线 控制 芯片 来 获取 
所 有 外 部 设备 信息 的 , 任何 发 向 或 者 收 自 外 部 设备 的 数据 和 控制 信息 流 , 都 经 过 这 个 总 线 控制 器 ， 
总 线 控制 器 只 负责 将 数据 流转 发 到 对 应 总 线 的 对 应 地 址 上 的 设备 , 但 是 数据 流 本 身 的 流动 是 由 设 
备 DMA 部 分 直接 负责 的 。 

所 以 , 操作 系统 要 想 看 到 一 个 设备 , 必须 通过 这 个 设备 所 在 的 总 线 控制 器 。 操 作 系 统 内 有 一 
类 称 为 “总 线 驱动 ”的 驱动 程序 ， 这 个 驱动 程序 位 于 操作 系统 最 底层 ， 它 可 以 从 总 线 控制 芯片 来 
获取 当前 总 线 上 的 任何 动静 以 及 任何 已 经 接 入 的 设备 信息 , 也 就 是 说 这 个 驱动 是 用 来 驱动 总 线 控 
制 器 的 ， 也 叫做 “总 线 控制 器 驱动 ”。 任 何 新 接 入 的 设备 都 会 在 硬件 上 被 总 线 控 制 器 感受 到 ， 从 
而 也 就 被 总 线 驱动 所 探知 到 ,然而 , 总线 驱 动 只 能 够 探知 到 总 线 上 新 接 入 了 一 个 设备 ， 却 不 知道 
这 是 什么 设备 ,该 怎么 用 。 要 想 使 用 这 个 设备 ,就 得 在 其 上 再 加 载 一 层 驱 动 ， 也 就 是 这 个 设备 自 
身 的 驱动 。 

比如 ， 如 果 这 个 设备 是 一 张 PCIE 接口 的 SCSI 卡 ， 那 么 操作 系统 会 首先 通过 PCIE 总 线 驱动 
探知 到 有 一 个 类 型 为 SCSI Host 的 设备 ， 然 后 系统 会 立即 将 SCSI Port/Miniport 驱动 加 载 到 这 个 设 
备 之 上 ， 从 而 可 以 正常 操作 SCSI 卡 。SCSI 卡其 实 本 质 上 也 是 一 个 总 线 控制 器 , 它 后 端 控制 着 一 个 
或 者 多 个 SCSI 总 线 ， 在 前 端 则 作为 PCIX/PCIE 等 主机 总 线 上 的 被 动 设备 而 存在 ， 所 以 ，SCSI 卡 
的 驱动 程序 也 相当 于 SCSI 控制 器 的 总 线 驱动 。 所 以 ， 加 载 了 这 个 驱动 之 后 ， 操 作 系统 就 会 看 到 这 
张 SCSI 卡 上 面 所 连接 的 SCSI 总 线 信息 以 及 SCSI 总 线 所 连接 的 SCSI 设备 。 然 而 ， 此 时 操作 系统 
只 能 够 看 到 一 个 或 者 多 个 SCSI 设备 ， 却 不 知道 它们 各 自 是 什么 设备 ， 怎 么 用 它 ， 所 以 ， 还 需要 再 
加 载 一 层 驱动 ， 也 就 是 ，PCIE 主机 总 线 上 的 SCSI 控制 卡 上 的 SCSI 总线 上 的 SCSI 设备 的 驱动 。 

还 没 结 束 。 每 个 SCSI 设备 上 还 可 以 存在 多 个 LUN 逻辑 单元 ， 所 以 ， 还 需要 针对 每 个 LUN 
加 一 层 驱动 。 但 是 一 般 来 讲 ， 这 一 层 驱 动 与 前 一 层 是 同一 个 驱动 类 型 的 不 同 例 程 罢了 ， 因 为 一 个 
SCSI Target 上 的 LUN 其 功能 一 般 与 Target 本 身 相同 , 不 会 存在 某 个 SCSI Target 多 个 LUN 里 有 
的 是 磁盘 而 有 的 却 是 磁带 或 者 光驱 的 。 至 此 我 们 数 一 数 这 个 驱动 链 里 的 驱动 数目 : 主机 总 线 驱 动 
一 SCSI 控制 器 驱动 ->*SCSI Target 设备 驱动 一 LUN 设备 驱动 。 

还 没 结束 。 假设 某 个 LUN 是 一 个 磁盘 设备 , 至 此 , 操作 系统 已 经 知道 如 何 使 用 这 块 磁盘 了 ， 
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可 以 向 其 中 读 写 数据 了 。 但 是 磁盘 还 可 以 分 区 ,操作 系统 会 对 待 每 个 分 区 就 像 一 块 物理 磁盘 一 样 。 
所 以 ,还 需要 为 每 个 分 区 再 加 载 一 层 驱动 ,这 个 驱动 与 上 一 层 驱动 其 实 是 一 样 的 ,如 果 使 用 某 种 
卷 管理 软件 来 生成 卷 而 不 是 分 区 ， 则 就 需要 加 载 卷 驱动 ， 这 个 驱动 由 卷 管理 软件 提供 ,作为 一 种 
Filter 驱动 ( 见 下 文 ) 类 型 存在 。 

至 此 , 还 没 结束 。 有 了 卷 或 者 分 区 就 完结 了 么 ? 非 也 。 文件 系统 还 没 进来 呢 。 文件 系统 也 算 
是 一 种 驱动 ， 内 核 为 每 个 卷 或 者 分 区 加 载 对 应 的 文件 系统 驱动 之 后 ， 整 个 驱动 链 才 算 最 终 完 结 ， 
此 时 应 用 程序 就 可 以 读 写 文件 了 。 当 然 如 果 不 使 用 文件 系统 ， 那 么 可 以 把 驱动 链 终止 在 卷 一 层 ， 
甚至 LUN 一 层 , 应 用 程序 可 以 通过 内 核 来 直接 访问 到 底层 设备 , 比如 对 块 设备 或 者 裸 设 备 的 IO 
操作 。 

如 图 19-63 所 示 , 左边 为 Windows 下 的 一 张 PCI 接口 的 SCSI 卡 的 驱动 链 , 右 侧 为 一 个 PCI 
接口 的 IDE 卡 的 驱动 链 。 
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1 


人 cbadoFherDo ”1 
1 (created by CD-audio fter 1 
1 driver) 
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drver) 
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ss 1 (created by IDE controller (created by IDE controller 
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Disk PDO CD-ROM PDO 
©® {created by SCSI port/ (created by SCSI port/ 
miniport driver) minipon driver) 
See Device Object SCSI Adapter FDO © 
Example tor an (EEE (created by SCSI pary 
1394 Controller miniport driver) 
1394 Adapter PDO SCSI Adapter PDO © 
{created by PCI bus driver) (created by PCI bus driver) 
PCl bus FDO 
© © 


图 19-63 Windows 下 的 驱动 链 示 意图 

对 于 左 侧 的 SCSI 驱动 链 ， 系 统 是 按照 如 下 过 程 操作 的 。 

(1) 由 于 系统 中 有 多 个 PCI 总 线 ， 总 线 驱动 通过 总 线 控制 器 发 现 所 有 总 线 之 后 ， 会 为 每 个 
PCI 总 线 创建 一 个 PDO ( Physical Device Object ) 对 象 , 并 且 再 创建 一 个 FEDO ( Function 
Device Object ) 对 象 表示 这 个 设备 (此 处 为 PCI 总 线 ) 具体 功能 将 由 总 线 驱动 来 负责 。 
图 中 的 最 底层 即 为 其 中 一 个 PCI 总 线 的 FDO。 

(2 ) 总 线 驱动 扫描 这 个 总 线 上 的 所 有 设备 , 感知 到 了 两 个 PCI 设备 , 一 个 IEEE 1394 适 配 卡 
(在 此 不 介绍 ) 和 一 个 SCSI 适 配 卡 。 所 以 总 线 驱 动 为 这 两 个 设备 分 别 创建 各 自 的 PDO， 

于 总 线 驱 动 不 知 道 如 何 使 用 这 两 个 设备 ， 所 以 不 能 为 其 创建 EDO。 
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(3 ) 以 SCSI 适 配 卡 为 例 ， 内 核 将 SCSI Port/Miniport 驱动 ， 也 就 是 SCSI 控制 器 驱动 加 载 到 
其 PDO 上 ， 并 同时 生成 一 个 针对 这 个 设备 的 EDO， 即 功能 性 对 象 ， 意 即 加 载 了 SCSI 
控制 器 驱动 后 这 个 设备 自身 的 功能 就 可 以 被 操作 系统 使 用 了 。SCSI 控制 器 驱动 ， 也 就 
是 Port/Miniport 驱动 被 加 载 之 后 ， 就 可 以 从 这 个 SCSI 卡 后 端 所 连接 的 SCSI 总 线 感知 
到 具体 的 SCSI Target 设备 了 。 本 例 中 SCSI 总 线 上 连接 了 一 块 磁盘 和 一 个 CDROM 光 
驱 ， 所 以 驱动 为 这 两 个 设备 创建 了 各 自 的 PDO。 由 于 SCSI 控制 器 驱动 只 负责 SCSI 总 
线 的 维护 以 及 向 SCSI Target 设备 发 送 和 接收 数据 ， 并 不 知道 如 何 使 用 这 些 SCSI 设备 ， 
也 并 不 知道 向 其 发 送 的 数据 的 具体 内 容 和 格式 ， 所 以 不 能 为 这 些 设备 创建 FPO， 这 个 
工作 将 由 更 上 层 驱动 完成 。 

(4) 在 CDROM 设备 的 PDO 之 上 ， 系 统 加 载 了 一 个 Audio Filter Driver， 即 音频 过 滤 驱 动 。 
过 滤 驱 动作 为 一 个 夹层 角色 存在 ,可 以 插入 任意 两 层 常规 驱动 之 间 而 不 改变 夹 着 它 的 上 
下 两 层 驱 动 间 的 接口 。 关 于 过 滤 驱 动 将 在 下 文 介绍 。 

(5 ) 此 时 操作 系统 已 经 发 现 了 一 块 硬盘 和 一 个 CDROM 光驱 ， 为 了 使 用 这 两 个 设备 ， 操 作 
系统 必须 要 加 载 针 对 它们 的 功能 性 驱动 。 针 对 磁盘 设备 ， 内 核 加 载 了 Disk Class Driver; 
针对 CDROM 光驱 ,内 核 加 载 了 CDROM Class Driver。Class Driver 的 意思 即 “ 类 驱动 ”， 
也 就 是 说 针对 任何 磁盘 设备 , 只 要 是 磁盘 , 不 管 是 哪个 三 家 生产 的 什么 规格 的 磁盘 , 统 
统 属于 磁盘 类 , 它们 都 可 以 使 用 同一 个 驱动 程序 来 行使 它们 的 功能 , 除非 有 一 些 厂商 自 
行 设计 的 特殊 功能 ， 则 需要 加 载 对 应 的 Miniclass 驱动 。 类 似 的 Class Driver 还 有 诸如 
CDROM、 磁 带 机 、 机 械 手 、 显 卡 、 键 盘 、 鼠 标 等 。 

(6 ) 至 此 , 操作 系统 已 经 可 以 使 用 对 应 的 设备 了 , 比如 读 写 等 操作 。 但 是 硬盘 是 可 以 分 区 的 ， 
针对 每 一 个 分 区 ， 内 核 还 会 再 次 加 载 一 层 Disk Class Driver。 

(7 ) 最 后 , 本 例 中 还 包括 了 一 个 磁盘 加 密 过 滤 驱 动 , 这 个 驱动 的 作用 是 在 文件 系统 驱动 (本 
例 中 未 表示 ， 位 于 磁盘 加 密 过 滤 驱 动 之 上 ) 和 Disk Class Driver 之 间 将 自身 插入 ,截取 
文件 系统 本 应 该 直接 发 向 磁盘 驱动 的 IO 请 求 ， 加 密 其 中 的 数据 ， 然 后 将 加 密 的 数据 除 
了 内 容 之 外 , 原封 不 动 地 发 送 给 磁盘 驱动 。 现在 很 多 的 加 密 程序 都 是 使 用 底层 过 滤 驱 动 

对 于 IDE 适 配 卡 的 驱动 链 加 载 过程 可 以 参考 SCSI 适 配 卡 的 过 程 , 二 者 大 同 小 异 ， 这 里 不 再 


2. Windows 系统 下 的 IO 设备 驱动 类 型 


Windows 系统 将 IO 设备 的 驱动 程序 按照 层次 分 为 了 两 大 类 ， 即 上 层 的 Class Driver 以 及 下 
层 的 Port Driver。 关 于 这 两 种 驱动 程序 的 角色 和 作用 ， 上 文 已 经 做 了 简要 介绍 。 这 里 将 进一步 介 
绍 这 两 种 驱动 的 具体 功能 项 目 。 

如 图 19-64 所 示 为 这 两 种 驱动 的 层次 示意 图 。 先 来 看 左 侧 部 分 ， 应 用 程序 想 要 执行 某 些 IO 
操作 ， 它 可 以 调用 Window 提供 的 API， 比 如 打开 某 个 文件 读 写 等 ，Window API 会 自动 向 下 调 
用 对 应 的 内 核 层 驱动 比如 文件 系统 驱动 来 执行 对 应 的 功能 ; 应 用 程序 也 可 以 调用 用 户 态 驱 动 程序 
(在 用 户 态 执行 的 驱动 程序 ) 来 执行 一 些 高 层 的、 可 以 在 用 户 态 就 完成 的 功能 ， 如 果 不 能 在 用 户 
态 完成 ， 那 么 用 户 态 驱动 会 自行 调用 Windows API 执行 对 应 操作 。 一 些 打 印 机 驱动 程序 就 属于 
j 户 态 驱 动 程序 。 
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图 19-64 设备 驱动 层次 和 类 型 

内 核 为 多 数 的 设备 类 型 都 提供 了 Class Driver 来 实现 基本 功能 ， 比 如 鼠标 ， 不 管 鼠标 有 几 个 
其 他 按键 ,其 基本 的 功能 无 非 就 是 左右 键 和 滚轮 ，Class Driver 就 提供 了 对 这 些 功 能 的 支持 。 至 于 
鼠标 上 的 其 他 按键 以 及 其 他 一 些 更 高 级 的 功能 ,可 以 由 厂商 提供 各 自 的 Miniclass Driver 或 者 Filter 
Driver 来 单独 实现 这 些 功能 。Class 与 Miniclass 互相 链接 以 共同 完成 设备 的 全 部 功能 。Port Driver 
则 是 专门 用 来 驱动 各 种 外 部 总 线 控制 器 的 , 比如 USB、IDE、SCSI 等 ; 同样 ，Miniport Driver 则 
是 用 来 驱动 这 些 控 制 器 上 的 一 些 厂商 特定 的 功能 的 , 不 同 厂商 可 能 有 不 同 的 特殊 功能 , 所 以 不 同 
厂商 需要 有 不 同 的 Miniport Driver。 最 底层 则 是 主机 内 部 总 线 驱 动 ， 比 如 PCIE 总 线 驱 动 。 

再 来 看 右 侧 ， 这 个 图 表示 IO 在 这 些 驱动 层次 之 间 的 流动 。 上 层 将 IRP ( 见 本 章 前 文 ) 发 向 
下 层 的 Storage Class Driver，Class Driver 将 IRP 转换 为 SRB ( SCSI Request Block ) ，SRB 中 包含 
了 CDB ( Command Description Block ) 以 及 其 他 一 些 内 容 ( 有 人 可 能 不 解 ，Storage Class Driver 
对 任何 设备 都 使 用 SCSI 协议 集 么 ? 底层 如 果 是 ATA 磁盘 的 话 怎么 办 呢 ? 是 的 , 这 个 问题 我 们 下 
文 再 描述 ) ，Port Driver 接收 到 SRB 之 后 ,对 SRB 进行 分 析 , 并 将 SRB 转换 为 外 部 总 线 所 要 求 
的 指令 格式 发 送 给 对 应 的 设备 。 

下 面 我 们 对 每 层 Driver 进行 分 别 介绍 。 


3. Storage Class Driver 


Class Driver 是 驱动 某 个 最 终 设备 的 功能 性 驱动 。Windows 针对 所 有 的 硬盘 设备 ， 不 管 其 是 
SCSI 还 是 IDE 或 者 U 盘 或 者 SSD, 亦 或 是 磁盘 阵列 的 LUN、 卷 等 ,都 使 用 相同 的 驱动 程序 ; 同 
样 , 针对 其 他 大 类 的 设备 , 也 都 使 用 相同 的 驱动 。 所 以 称 其 为 “Class Driver”。 Storage Class Driver 
专 指 存储 类 的 驱动 ,比如 Disk Class Driver、.CDROM Class Driver、Tape Class Driver 等 。 Class Driver 
操作 系统 自身 提供 , 不 需要 厂商 针对 自己 的 设备 再 开发 完整 的 一 套 Class Driver, 如 果 某 个 设备 
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的 功能 并 不 能 由 操作 系统 自 带 的 Class Driver 来 驱动 ， 那 么 厂商 只 需要 开发 一 个 附属 在 主 Class 
Driver 上 的 额外 驱动 模块 即 可 。 这 个 额外 的 小 模块 就 叫做 Miniclass Driver， 下 文中 将 会 描述 。 

Class Driver 处 理 上 层 (比如 用 户 程序 或 者 文件 系统 驱动 等 ) 下 发 的 IRP， 根据 IRP 的 请 求 
内 容 ， 将 请 求 转换 成 包含 有 SCSI CDB 的 SCSI Request Block ( SRB ) ， 然 后 将 SRB 发 向 下 层 驱 
动 ， 比 如 SCSI Port Driver 或 者 位 于 其 下 的 过 滤 驱 动 ( 如 果 有 的 话 ) 。Storage Class Driver 统一 使 
用 SCSI 指令 集 来 操作 底层 设备 ， 如 果 底 层 物理 设备 并 非 SCSI 的 ， 比 如 ATA 磁盘 ， 那 么 会 由 位 
于 Class Driver 下 层 的 ATA Port Driver ( 下 文 介绍 ) 将 SCSI 协议 映射 翻译 为 ATA 协议 指令 。 此 
外 ，Class Driver 也 并 不 关心 底层 设备 对 应 的 总 线 物理 地 址 ， 底 层 寻 址 的 操作 由 Port Driver 执行 。 

Storage Class Driver 需要 执行 的 具体 功能 如 下 。 

， ”为 每 个 具体 设备 生成 FDO 对 象 , 如 果 设 备 上 存在 分 区 , 则 对 每 个 分 区 生成 PDO 和 FDO。 

， ”获取 每 个 设备 的 属性 信息 ， 比 如 是 否 支 持 Write Cache 及 其 模式 、 最 大 传输 单位 等 。 

， ”处 理 上 层 下 发 的 IRP 请 求 ,将 IRP 映 射 翻译 成 SRB 并 继续 下 发 。 

， ”维护 每 个 请 求 的 超时 机 制 。 

” 根据 底层 反馈 的 所 能 接受 的 每 个 请 求 的 最 大 传输 单元 ， 将 上 层 的 IRP 请 求 的 数据 长 度 

分 割 为 底层 所 能 接受 的 值 。 

" 错误 处 理 机 制 ， 处 理 底层 所 不 能 处 理 的 错误 ， 比 如 SCSI Check-Condition 等 。 

1) SCSI PassThrough 支持 

Storage Class Driver 支持 SCSI PassThrough, 即 用 户 程序 可 以 直接 生成 CDB 而 发 向 底层 设备 ， 
Class Driver 收 到 上 层 的 CDB 之 后 , 会 做 一 定 的 格式 检查 ,判断 为 正确 格式 之 后 , 还 需要 检查 IO 
Size， 如 果 大 于 底层 规定 的 最 大 值 ， 则 做 分 割 操 作 ， 然 后 直接 将 CDB 封装 到 SRB 中 发 送 给 Port 
Driver 处 理 。 

2 ) 关于 Command Queue 

对 于 Class Driver 层 , 没有 必要 对 所 有 上 层 发 来 的 IRP 做 Queue 处 理 , 因为 Queue 的 处 理由 
其 下 层 的 Port Driver 全权 负责 ,Class Driver 只 管 将 上 层 的 IRP 翻 译 成 SRB 然后 源源 不 断 地 向 Port 
Driver 的 Queue 里 填充 即 可 .Port Driver 会 为 每 个 LUN 分 别 创建 Queue, 比 如 SCSI Tagged Queue。 
当 某 个 LUN 的 IO 发 生 错 误 时 ，Port Driver 会 将 对 应 的 Queue 进行 Freeze， 并 将 自己 无 法 处 理 
的 错误 报告 给 Class Driver， 由 后 者 进行 处 理 。Class Driver 会 查询 底层 设备 所 支持 的 Queue 方式 ， 
如 果 支 持 Queue， 则 Class Driver 会 在 每 个 SRB 中 设置 对 应 的 标记 告诉 Port Driver 本 次 IO 可 以 
使 用 对 应 的 Queue， 并 上 且 还 附带 了 对 本 次 IO 进行 SCSI Command Queue 的 策略 信息 ， 比 如 : 
SRB_SIMPLE_TAG_REQUEST ( SCSI 控制 器 可 以 将 这 个 IO 重 排 到 任何 位 置 ) 、 
SRB_HEAD_OF_ QUEUE_TAG_REQUEST ( 控制 器 必须 将 这 个 IO 放 到 队列 首 处 ， 首 先 执行 ) 
或 者 SRB_ORDERED_QUEUE_TAG_REQUEST (SCSI 控制 器 必须 将 这 个 IO 放 到 队列 尾部 按 
照 顺 序 执行 ) 。 

3 ) 关于 获取 设备 属性 信息 

Class Driver 需要 获取 它 所 驱动 的 设备 ( 此 处 其 实 是 获取 SCSI 或 者 IDE、1394 等 控制 器 和 具 
体 的 SCSLIDE 设备 的 属性 信息 ， 因 为 Class Driver 下 层 是 Port Driver，Class Driver 发 出 的 SRB 
必须 服从 Port Driver 的 要 求 ， 也 就 是 服从 SCSIIDE 控制 器 的 要 求 ， 同 时 也 要 符合 最 终 设备 的 要 
求 ) 的 属性 信息 ， 这 些 属性 信息 包括 : 
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" ”SCSI/IDE 控制 器 的 最 大 传输 单元 ， 即 每 次 IO 的 最 大 可 读 写 的 扇 区 长 度 ; 

”是否 SCSI/IDE 控制 器 在 DMA 时 可 以 读 写 不 连续 的 物理 内 存 Page， 数 量 是 多 少 ; 

可 SCSI/IDE 控制 器 对 Buffer 边界 对 齐 的 要 求 信息 ; 

本 SCSI/IDE 控制 器 是 否 支持 SCSI 的 TCQ 以 及 是 否 支持 基于 每 个 LUN 的 TCQ; 

SCSIIDE 控制 器 是 否 支持 WriteBack 模式 的 写 缓存 ， 具 体 类 型 是 什么 ， 比 如 是 否 有 电池 保 
护 等 。 

4 ) 关于 设备 写 缓存 的 模式 

一 些 外 部 设备 比如 RAID 适配器 、SCSI 适配器 ， 都 具有 自己 的 缓存 。 这 些 缓存 如 果 用 来 做 
预 读 操作 , 那么 没有 任何 问题 , 但 是 如 果 用 Write Back 的 模式 来 缓存 写 数据 , 那么 在 这 些 适 配 卡 
没有 电池 保护 其 上 缓存 的 情况 下 , 一 旦 发 生 供电 故障 或 者 Down 机 , 则 被 缓存 的 写 数据 就 会 永久 
丢失 。Class Driver 层 有 必要 知道 底层 设备 是 否 支持 Write Back 缓存 ,如 果 支 持 , 是 否 有 电池 保护 
等 信息 。 对 于 没有 电池 保护 的 WriteBack 模式 的 设备 缓存 ，Class Driver 有 两 种 解决 办 法 。 第 一 种 
是 使 用 SCSI SYNCHRONIZE CACHE 指令 来 强制 让 设备 将 缓存 内 的 所 有 Dirty 写 数据 写 入 存储 
介质 中 , 这 种 方法 需要 消耗 很 多 的 设备 自身 的 处 理 资源 ， 因 为 设备 一 旦 接收 到 这 个 指令 , 就 需要 
全 力 以 赴 地 执行 。 而 写 盘 动作 是 一 个 慢 速 动作 ， 在 执行 这 个 动作 期 间 ， 新 进入 的 写 IO 可 能 得 不 
到 处 理 ， 布 上 层 在 此 时 的 反应 就 仿佛 设备 挂 死 一 般 。 如 果 频 繁 地 使 用 SCSI SYNCHRONIZE 
CACHE 指令 , 系统 整体 性 能 将 会 非常 差 。 第 二 种 方法 则 是 针对 每 个 写 IO 使 用 Write Through 标 
记 (FUA 置 1， 即 Force Unit Access ) ,这 样 ,设备 在 从 总 线 上 接收 这 个 IO 请 求 写 的 数据 入 缓存 
的 同时 ,将 数据 写 向 介质 中 ,只 有 成 功 写 入 了 介质 , 才 返 回 完成 信和 号， 而 写 入 完成 后 , 缓存 中 的 
这 些 数据 将 被 视 作 预 读 内 容 处 理 。 使 用 Write Through 的 方法 虽然 也 不 能 提高 写 性 能 ， 但 是 其 相 
对 SCSI SYNCHRONIZE CACHE 指令 的 方式 来 讲 节约 了 设备 处 理 资源 。 有 些 设备 并 不 支持 
FUA， 但 是 它 对 待 每 个 写 IO 都 会 做 Write Through 处 理 ， 也 就 是 原生 的 WT 模式 写 缓存 。 而 有 
些 设备 则 带 有 电池 为 其 缓存 供电 ， 那 么 这 时 候 ，Class Driver 就 没有 必要 发 起 Write Though 或 者 
SCSI SYNCHRONIZE CACHE 了 。 

Class Driver 使 用 IOCTL_STORAGE_QUERY_PROPERTY 功能 函数 来 向 Port Driver 查询 
设备 属性 信息 ， 其 中 就 有 关于 写 缓存 的 信息 ， 具 体 写 缓存 信息 如 下 。 

”设备 是 否 具有 写 缓存 。 

测 设备 具有 何 种 写 缓存 类 型 。 又 包含 两 种 具体 类 型 : Write Back 和 原生 Write Through。 

" ”设备 是 否 支 持 SCSI SYNCHRONIZE CACHE 指令 。 

" ”设备 是 否 具有 电池 保护 。 

提示 :我 们 在 Linux 系统 启动 的 时 候 经 常会 看 到 一 些 信息 ， 比 如 在 发 现 某 个 sd 设备 的 时 

候 ， 后 面 会 跟着 一 条 描述 信息 ， 比 如 “Write Through”， 这 就 表示 Linux 下 的 块 设备 驱 

动 探寻 到 了 具体 设备 所 支持 的 写 缓存 方式 。 

5 ) 关于 Class Driver 层 的 请 求 重 试 

大 部 分 的 IO 请 求 重 试 都 是 由 Port Driver 来 做 的 ， 比 如 数据 校 验 错 误 、 仲 裁 超 时 、Target 设 
备 繁忙 、 总 线 Reset 等 底层 错误 。 针 对 这 些 底 层 错误 的 重 试 ， 需 要 由 Port Driver 负责 ， 上 层 的 
Class Driver 完全 不 知道 也 不 关心 , 如 果 Port Driver 重 试 多 次 后 依然 无 法 成 功 , 从 而 向 Class Driver 
报告 ， 那 么 此 时 Class Driver 不 应 该 再 次 重 试 以 做 无 用 功 。 然 而 ,一旦 遇 到 一 些 上 层 逻 辑 的 错误 ， 
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比如 Check Conditions 等 , 那么 此 时 就 需要 Class Driver 介入 , 解决 对 应 的 错误 并 且 重 试 之 前 的 请 

求 ， 由 于 错误 发 生 之 后 , 原本 积压 在 Port Driver 的 Queue 队列 中 的 所 有 IO 请 求 都 将 被 冻 住 ,等 

待 错误 恢复 ， 所 以 Class Driver 需要 将 重 试 的 请 求 标 记 SRB_HEAD_OF_QUEUE_TAG 
_REQUEST 以 便 Port Driver 优先 执行 这 个 IO 请 求 。 


4. Storage Miniclass Driver 

上 文中 曾经 简要 描述 过 ， Storage Miniclass Driver 的 角色 类 似 一 种 Agent Driver, 用 来 针对 特 
殊 的 设备 实现 对 应 的 特殊 功能 。 这 些 功 能 由 于 不 是 普遍 的 每 个 厂家 都 来 实现 , 所 以 在 Class Driver 
中 并 不 包含 , 厂商 自行 开发 Miniclass Driver 然后 将 其 与 主 Class Driver 链接 起 来 形成 一 个 驱动 对 
而 存在 。 


5. Storage Port Driver 


Port Driver 是 位 于 Class Driver 之 下 的 一 层 驱 动 程序 ， 同 样 也 是 由 Windows 操作 系统 自身 提 
供 。Port Driver 是 用 来 驱动 各 种 外 部 总 线 控制 器 的 , 而 外 部 总 线 控制 器 一 般 又 位 于 主机 总 线 之 上 ， 
也 就 是 表现 为 一 块 接 入 主机 PCIE 等 总 线 的 适 配 卡 ， 所 以 说 Port Driver 又 可 以 被 看 做 是 这 些 适 配 
卡 的 驱动 程序 。 如 果 这 些 适 配 卡 是 专门 用 于 适 配 与 存储 有 关 的 总 线 或 者 设备 的 话 , 那么 就 将 这 些 
Port Driver 称 为 Storage Port Driver。 

所 有 类 型 的 基于 SCSI 的 存储 适配器 , 不 管 它 是 SCSI 卡 、FC 卡 还 是 ISCSI 卡 , 亦 或 是 RAID 
卡 ， 它 们 对 外 提供 的 总 是 一 个 或 者 多 个 SCSI Target 设备 以 及 LUN， 上 层 的 驱动 比如 Class Driver 
不 管 这 些 LUN 是 通过 IP 网 络 达到 、 通 过 FC 网 络 达到 还 是 通过 SCSI 总 线 网 络 达到 ， 统 一 对 待 。 
这 也 就 是 “适配器 ”三 个 字 的 本 质 所 在 ， 适 配 的 就 是 这 种 不 同 的 后 端 网 络 传输 方式 。 既 然 这 些 适 
配器 都 对 外 具有 统一 性 ， 那 么 它们 的 驱动 程序 就 一 定 具 有 统一 性 ， 这 个 被 统一 的 驱动 程序 就 是 
Windows 自 带 的 Storage Port Driver。Port Driver 将 大 部 分 统一 的 功能 驱动 编写 好 , 任何 适配器 厂 
商 只 需要 编写 实现 自己 特殊 功能 的 那 部 分 Miniport Driver 即 可 ， 大 大 简化 了 复杂 度 以 及 工作 量 。 

适配器 驱动 与 适配器 硬件 的 工作 分 工 是 不 同 的 。 比 如 并 行 SCSI 适 配器 和 它 对 应 的 Port Driver 
之 间 , 适配器 上 的 SCSI 控制 器 硬件 本 身 所 做 的 工作 包括 SCSI 总 线 的 初始 化 扫描 、 数据 传输 时 的 
总 线 仲裁 等 ， 而 其 对 应 的 Port Driver 所 做 的 工作 则 是 将 IO 请 求 提交 给 控制 器 ， 控 制 器 青 将 请 求 
发 送 给 对 应 的 SCSI Target， 当 Target 执行 完毕 返回 ACK 信号 给 控制 器 之 后 ,控制 器 将 这 个 信号 
也 发 送 给 Port Driver 表示 成 功 执行 , 如 果 Target 执行 过 程 中 出 现 错误 , 那么 控制 器 会 将 错误 信息 
传递 给 Port Driver 处 理 。 对 于 FC 适配器 , 与 并 行 SCSI 控制 器 所 不 同 的 地 方 就 是 由 并 行 SCSI 变 
为 了 FC 网 络 和 链 路 ， 所 以 一 切 FC 网 络 和 链 路 层 的 逻辑 都 需要 由 FC 控制 器 硬件 来 完成 ， 而 网 
络 链 路 所 承载 的 SCSI 上 层 逻 辑 依然 由 其 对 应 的 Port Driver 来 处 理 , Port Driver 使 用 SCSI 上 层 逻 
辑 来 收发 数据 和 控制 Target， 与 并 行 SCSI 适配器 所 不 同 的 只 是 FC 卡 的 Port Driver 可 以 探测 并 
且 控 制 一 些 FC 网 络 和 链 路 层 的 参数 ， 比 如 设置 WWN 或 者 更 改 FC Port 类 型 等 控制 性 操作 。 同 
理 ， 对 于 RAID 适配器 等 也 都 是 这 个 道理 。 

在 Windows 中 提供 三 种 Storage Port Driver, 分 别 是 :SCSI Port Driver( SCSIPORT.sys 文件 )、 
ATA Port Driver (ataport.sys 文件 ) 以 及 Storport Driver ( storport.sys 文件 ) 。 下 面 分 别 介绍 。 

1) SCSI Port Driver 

SCSI Port Driver 是 一 个 最 标准 、 最 传统 的 Windows 下 的 用 于 驱动 基于 SCSI 协议 的 适配器 的 
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Port Driver, 在 Windows 2003 之 后 的 版 本 ，SCSI Port Driver 被 Storport Driver ( 下 文 介绍 ) 取代 ， 
后 者 专门 针对 高 性 能 、 高 带宽 存储 网 络 适配器 做 了 优化 操作 。 但 是 Windows 2003 系统 中 依然 可 
以 使 用 SCSI Port Driver。 
SCSI Port Driver 主要 提供 如 下 功能 。 
， ”提供 其 驱动 的 适配器 的 各 种 属性 信息 给 上 层 的 Class Driver， 比 如 最 大 传输 单元 的 限制 
以 及 Write Cache 属性 信息 等 。Class Driver 主动 向 Port Driver ( SCSIPORT Driver ) 发 
送 IOCTL_ STORAGE_QUERY_PROPERTY 查询 请 求 , Port Driver 则 将 所 有 信息 放 入 
STORAGE_ADAPTER_DESCRIPTOR 中 返回 给 Class Driver。 
。 ”确保 适 配 卡 所 连接 的 所 有 设备 处 于 正常 状态 ， 确 保 尚 未 加 电 的 设备 不 被 上 层 逻 辑 所 使 


用 。 
" ”负责 提取 并 分 析 Class Driver 发 送 的 SRB 中 所 包含 的 CDB, 并 将 CDB 封装 为 对 应 物理 
设备 可 识别 的 指令 。 


" ”由 于 Class Driver 自身 并 没有 请 求 队列 , 针对 每 个 IRP 请 求 都 是 尽力 而 为 地 转换 为 SRB 

而 直接 充 入 Port Driver 的 Queue 中 ， 这 个 过 程 是 一 个 异步 过 程 ，Class Driver 无 须 等 待 

上 一 个 请 求 的 完成 信号 就 可 以 发 送 下 一 个 请 求 。Port Driver 处 必须 维护 请 求 队列 , 因为 
底层 物理 设备 的 处 理 能 力 是 有 限 的 , 而 且 可 能 随时 发 生 错误 , 当 物 理 设备 处 理 不 过 来 而 
处 于 Busy 状态 时 ，Port Driver 必须 等 待 并 且 重 试 ; 当 发 生 底层 错误 时 ， 同 样 也 需要 重 
试 。 另外 , 磁盘 是 支持 Queue 的 , 比如 FC 和 SAS 所 支持 的 TCQ 以 及 SATA 所 支持 的 
NCQ，Queue 的 效果 可 参考 本 章 后 面 章节 。 这 一 系列 的 逻辑 都 需要 Queue 的 存在 。 

" 管理 自身 的 请 求 队列 。 比 如, 当 发 生 上 层 逻 辑 错误 比如 Check Conditions 灶 , Port Driver 
自行 将 对 应 设备 的 Queue 冻结 住 并 将 错误 返回 给 Class Driver 进行 处 理 ， 等 待 处 理 结果 
返回 来 之 后 , Port Driver 才 继 续 执行 Queue 中 的 请 求 。 为 何 非 要 冻结 呢 ? 一 个 IO 出 错 ， 
并 不 影响 下 一 个 IO 的 执行 。 是 的 ， 但 是 第 一 ，IO 之 间 是 有 上 层 逻 辑 关联 的 ， 比 如 当 
前 发 生 错误 的 IO 为 针对 LBA1 的 写 入 请 求 ,而 队列 后 紧 跟 着 这 个 IO 之 后 的 是 针对 LBA1 
的 读 请 求 ， 如 果 在 这 个 写 IO 发 生 错误 之 后 继续 执行 读 IO， 那 么 读 取 到 的 就 是 时 序 上 
不 一 致 的 数据 ; 第 二 ， 当 前 IO 发 生 上 层 逻 辑 错误 ， 那么 就 意味 着 很 有 可 能 后 续 的 IO 
都 会 发 生 错误 ，Class Driver 很 可 能 会 Cancel 掉 所 有 受 影 响 的 IO 请 求 ， 此 时 如 果 Port 
Driver 擅自 处 理 ， 也 是 不 允许 的 ， 所以， 错误 之 后 的 Queue 冻结 是 有 必要 的 。 

， ”除了 自身 管理 自身 的 队列 之 外 ，Port Driver 还 提供 接口 供 上 层 逻 辑 来 控制 其 自身 的 
Queue。Class Driver 以 及 其 他 上 层 有 逻辑 可 以 向 Port Driver 发 送 Lock、Unlock、Freeze 、 
Unfreeze 请 求 以 操纵 其 队列 。 比 如 上 层 使 用 SRB_FUNCTION_RELEASE_QUEUE 功 
能 调用 来 Unfreeze 已 经 被 冻结 的 Queue。 

" ， 当 发 生 底层 错误 时 ， 对 IO 请 求 进行 重 试 操作 。 底 层 错误 指 诸如 数据 校 验 错误 、 传 输 时 
错误 、 目 标 设 备 繁忙 、 仲 裁 冲突 等 。 此 外 ，Class Driver 会 为 每 个 IO 设 定 Timeout 计时 
器 。 但 是 Port Driver 对 其 有 更 灵活 的 处 理 ， 比 如 在 执行 IO 过 程 中 遇 到 链 路 中 断 ， 那 么 
Port Driver 此 时 可 能 会 暂停 Timeout 计时 器 ， 当 链 路 恢复 时 再 继续 计时 。 

” ， 当 发 生 上 层 逻 辑 错误 时 ， 将 错误 用 SCSI-2 Sense Status 格式 封装 并 传递 给 Class Driver， 
Class Driver 根据 Sense 返回 值 做 出 相应 处 理 。 

四 提供 接口 支持 Miniport Driver。 
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(1 ) 关于 SCSI Port Driver 与 Class Driver 之 间 的 接口 

在 前 文 描述 Class Driver 时 曾经 给 出 了 一 些 这 二 者 之 间 应 该 互相 沟通 的 东西 ， 比 如 探 询 设备 
属性 、SCSI Pass Through 支持 、 分 割 IO 请 求 、 传 输 SRB 、 错 误 处 理 等 。 由 于 Class Driver 统一 使 
用 SCSI 协议 指令 集 ， 而 SCSI Port Driver 也 是 专门 驱动 基于 SCSI 协议 的 存储 适配器 的 驱动 ， 所 
以 二 者 之 间 的 CDB 信息 是 完全 一 致 的 。SCSI Port Driver 在 收 到 Class Driver 下 发 的 SRB 之 后 ， 
只 需要 将 其 中 包含 的 CDB 加 入 一 些 诸如 端口 号 、 路 径 、 目 标 Targe ID 、LUN ID 等 寻 址 信息 然 
后 透 传 至 SCSI Miniport Driver, Miniport Driver 再 传递 给 适 配 卡 上 的 控制 器 即 可 。 如 果 是 ATA Port 
Driver， 那 么 Port Driver 必须 将 基于 SCSI 的 CDB 转换 映射 成 对 应 的 ATA 指令 从 而 发 送 给 IDE 
控制 器 。 

当 出 现 上 层 逻 辑 错 误 时 比如 Check Conditions，Class Driver 会 要 求 Port Driver 向 控制 器 发 起 
Request Sense 请 求 ，Port Driver 接收 到 要 求 之 后 就 会 生成 一 个 Request Sense 指令 并 将 其 发 送 给 
SCSI 控 制 器 ，SCSI 控制 器 再 根据 接收 到 的 CDB 中 的 目标 设备 地 址 和 ID 信息 ， 将 对 应 的 请 求 通 
过 对 应 的 总 线 发 送 给 目标 设备 , 目标 设备 返回 的 Sense 数据 中 包含 了 具体 的 错误 代码 , Port Driver 
再 将 收 到 的 Sense 数据 返回 给 Class Driver 处 理 。 

提示 : SCSI 控制 器 不 是 一 个 存储 目标 设备 ， 它 只 是 为 所 有 SCSI 总 线 上 的 目标 设备 提供 一 

种 数据 传输 控制 的 一 个 关口 设备 ， 是 一 个 “总 线 控制 器 ”， 它 并 不 感知 具体 的 请 求 内 容 ， 

只 管 从 正确 的 目标 收发 数据 。 所 以 驱动 程序 必须 在 I0 请 求 中 附带 有 目标 设备 的 地 址 信息 。 

(2 ) 关于 SCSI Port Driver 与 SCSI Miniport Driver 之 间 的 接口 

二 者 之 间 通 过 一 系列 具体 的 功能 函数 以 及 回调 等 来 实现 沟通 ， 具 体 细节 不 做 介绍 。 如 果 底 层 
的 SCSI 适配器 支持 Tagged Command Queue ( TCQ ) ,那么 Port Driver 会 将 自身 Queue 中 的 请 求 
异步 地 批量 发 送 给 Miniport Driver，Miniport Driver 也 同样 会 异步 地 将 请 求 通过 硬件 总 线 传递 给 
SCSI 适 配 卡 ; 如 果 适 配 卡 不 支持 任何 Queue 技术 ， 那么 Port Driver 就 会 同步 地 将 请 求 发 送 给 
Miniport Driver, IO 请 求 一 个 接 一 个 地 执行 。 同样 , 在 目标 设备 与 SCSI 控制 器 之 间 也 是 这 样 做 的 。 

(3 ) 关于 SCSI Port Driver 的 队列 管理 

当 出 现 底层 错误 时 ，SCSI Port Driver 将 对 应 目标 设备 的 Queue 冻结 以 等 待 Class Driver 做 出 
处 理 。 当 Class Driver 需要 对 目标 设备 做 一 些 影响 较 大 的 设置 更 改 时 ， 比 如 修改 目标 设备 的 电源 
状态 ,会 要 求 Port Driver 将 Queue 锁 住 不 再 执行 ， 然 后 将 对 应 的 修改 设置 的 请 求 发 送 到 Port 
Driver， 这 个 请 求 中 带 有 Bypass Queue 的 标记 ， 所 以 此 时 虽然 Queue 被 锁 住 ， 但 是 Port Driver 
根据 这 个 标记 依然 会 将 请 求 发 送 到 对 应 的 目标 设备 ， 完 成 之 后 ，Class Driver 会 对 Queue 进行 
Unlock 以 恢复 正常 执行 状态 。 上 层 驱动 比如 Class Driver 可 以 在 下 发 的 SRB 中 将 
SRB_FUNCTION_FLUSH_QUEUE 置 位 以 要 求 Port Driver 对 其 Queue 中 的 所 有 请 求 进行 Flush 
操作 ，Port Driver 接收 到 这 个 请 求 之 后 ， 会 将 当前 Queue 中 的 所 有 请 求 执行 完毕 ， 并 且 还 命令 
SCSI 控 制 器 或 者 RAID 卡 将 它们 自身 的 Cache 中 的 Dirty Data 写 入 磁盘 。 

2 ) ATA Port Driver 

在 Windows NT 4.0 时 代 ，ATA 设备 的 驱动 是 作为 一 个 附属 于 SCSI Port Driver 的 Miniport 
Driver 实现 的 〈atapisys 文件 ) ， 这 个 Miniport Driver 负责 将 SRB 转换 为 ATA 协议 指令 。 到 了 
Win 2000 和 Win XP 时 代 ， 这 个 Miniport Driver 脱离 了 SCSI Port Driver， 并 且 被 分 离 成 为 两 个 
层次 ， 位 于 Class Driver 之 下 的 一 层 为 IDE Port Driver ( atapl.sys 文件 ) ， 专 门 负责 管理 IDE 控制 


第 19 章 “过关斩将 一 一 系统 IO 路 径 及 优化 @ 


器 的 不 同 IDE 通 道 以 及 翻译 SRB 为 ATA 指 令 , 其 再 之 下 的 一 层 为 IDE Controller Driver pciidex.sys 
文件 ) /Minidriver ( pciide sys 文件 ) 对 ， 专 门 负责 驱动 IDE 控制 器 硬件 。 到 了 Windows Vista 及 
之 后 的 时 代 ，ATA 设备 驱动 又 被 做 了 一 些 更 改 ， 这 里 就 不 介绍 了 。 

3 ) Storport Driver 

Storport Driver( storport.sys 文件 ) 是 Windows 2003 及 以 后 的 系统 中 用 来 替代 SCSI Port Driver 
的 。Storport Driver 在 性 能 和 接口 上 做 了 一 些 改进 ， 更 加 适合 于 诸如 RAID 卡 以 及 FC 卡 等 高 性 

能 高 带宽 的 存储 IO 适配器 。Storport Drver 相对 SCSI Port Drver 在 接口 方面 的 改动 很 小 ， 所 以 ， 
厂商 自 开发 的 SCSI Miniport Driver 升级 到 Storport Miniport Driver 也 是 比较 容易 的 。 

Storport Driver 相对 于 SCSI Port Driver 的 最 大 改进 就 是 Storport Driver 与 Storport Miniport 
Driver 之 间 的 接口 由 原来 的 同步 变 为 了 异步 ， 即 使 物理 设备 不 支持 Queue。 而 SCSI Port Driver 
只 有 在 物理 设备 支持 Queue 的 时 候 才 异步 地 向 Miniport Driver 发 送 IO 请 求 。 其 次 ，Storport 
Miniport Driver 不 再 需要 在 中 断 与 IO 发 起 之 间 保 持 同 步 ， 二 者 可 以 各 干 各 的 ， 所 以 类 似 一 种 全 
双 工 模式 。Storport Port Driver 使 用 Push 方式 将 IO 强行 推送 给 Miniport Driver, 而 SCSI Port Driver 
则 靠 Miniport Driver 每 执行 完 一 个 IO 后 从 Port Driver 的 Queue 中 将 IO 请 求 Pull 过 来 执行 。 

另外 ， Storport Driver 在 Queue 管理 方面 也 有 提升 ， Storport Driver 为 每 个 LUN 维护 一 个 
Queue，Queue 最 大 深度 为 254， 即 Queue 中 可 以 排 有 254 个 尚 待 处 理 的 IO 请 求 ， 如 图 19-65 


所 示 。 
Logical Unit Queue 
Up to 254 requests 4 


| Logical Unit Queue 


Up to 254 requests 
Up to 254 requests 
图 19-65 Storport 对 Queue 的 处 理 

另外 ， 当 出 现 目 标 设备 繁忙 的 错误 时 ，SCSI Miniport Driver 不 会 向 SCSI Port Driver 报告 这 
个 状态 而 只 会 自行 重 试 发 送 IO 请 求 ， Storport Driver 则 人 允许 Storport Miniport Driver 报告 Busy 状 
态 ， 从 而 Storport Driver 会 暂停 向 Miniport Driver 发 送 IO 请 求 。 

使 用 Storport Driver 有 一 些 其 他 限制 ， 这 里 就 不 再 介绍 了 。 

4 ) Storage Miniport Driver 

在 Windows 系统 下 , 我 们 常见 的 RAID 卡 、FC 卡 、SCSI 卡 、iSCSI 卡 的 驱动 程序 其 实 几乎 
都 是 Miniport 这 种 架构 ， 这 些 卡 件 的 功能 区 别 体现 在 其 后 端 所 连接 的 总 线 方式 。 比 如 SCSI 连接 
的 直接 就 是 最 原始 的 并 行 SCSI 链 路 , 而 FC 卡 则 是 连接 了 FC 网 络 ,iSCSI 当然 就 是 连接 了 IP 网 
络 了 , 至 于 RAID 卡 , 其 实 只 是 在 上 面 罗列 的 任何 一 种 卡 上 附带 有 RAID 控制 器 而 已 , 加 了 一 层 
虚拟 化 操作 。 前 文 曾经 说 过 ,这些 适配器 本 是 同根 生 ， 其 驱动 也 具有 统一 性 ,但 是 每 种 设备 不 可 
能 都 一 样 ， 总 有 一 些 区 别 于 其 他 设备 的 细 化 功能 。 而 这 些 功能 上 的 区 别 , 到 了 软件 层面 就 体现 在 


Adapter Queue 
Any number of requests 
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Miniport Driver 上 , 而 位 于 Miniport Driver 上 面 的 所 有 软件 层次 模块 看 到 的 其 实 都 是 同样 的 东西 。 
Miniport Driver 表现 为 一 个 DLL 文件 , 它 与 Port Driver 进行 动态 链接 。 针 对 每 种 Port Driver， 
Miniport Driver 又 可 以 分 为 SCSI Miniport Driver、Storport Miniport Driver 和 ATA Port Miniport 
Driver。 
Miniport Driver 需要 执行 的 部 分 任务 包括 : 
， ”发现 适配器 并 探寻 其 各 种 属性 ; 
”初始 化 适配器 ; 
” ”执行 数据 IO 过 程 ; 
处 理 中 断 、 总 线 Reset 等 事件 ; 
， 维护 超时 计时 器 。 
S) Storage Filter Driver 
过 滤 驱 动 泛 指 插入 某 两 个 驱动 层次 之 间 , 用 自己 设 定 的 处 理 过 程 来 改变 原 有 的 IO 内 容 或 者 
路 径 或 者 丢弃 某 些 符合 设 定 条 件 的 IO 请 求 的 一 种 特殊 驱动 程序 。 过 滤 驱 动 由 于 插入 在 两 层 原 有 
驱动 之 间 ， 所 以 它 必须 适 配 上 下 层 ， 让 上 下 层 都 感觉 不 到 它 的 存在 。 
典型 的 例子 ,比如 键盘 上 的 一 些 自 定义 的 功能 键 、 按 键 组 合 等 ; 或 者 文件 加 密 工 具 ， 它 代入 
Class Driver 之 上 和 Filesystem Driver 之 下 来 发 挥 作用 ; 再 比如 卷 镜像 软件 ， 它 插入 Port Driver 之 
上 和 Class Driver 之 下 ; 还 有 存储 系统 中 常用 的 多 路 径 软 件 ， 也 是 一 种 过 滤 驱 动 。 


6. Linux 下 的 存储 系统 驱动 链 


1) SCSI 设备 驱动 链 

上 文 介绍 了 Windows 下 的 Storage Driver 层次 架构 ， 现 在 介绍 一 下 Linux 下 的 层次 架构 。 其 
实 Linux 下 的 存储 系统 驱动 程序 链 与 Windows 下 的 主体 层次 大 致 是 一 致 的 ,只 是 并 没有 Windows 
下 那么 简洁 的 层次 而 已 。 如 图 19-66 所 示 为 Linux 下 的 一 个 典型 的 驱动 链 层 次 。 
[EU es Ueda se err 
Sola Fie syslem Ba NTES NFS, OFS) pon 
,PageCahe | 


一 eapage0 submiLbio0) 


一 generic_make_request0) 


— mexe_request) 


SCSIHost Controller Driver Layer (Queue) ees md) 
System IO Bus and Controller and Driver Layer 
SCSI Controller Card Hardware 
External SCSI Bus Layer 
EE 


图 19-66 Linux 下 的 SCSI 设备 驱动 链 
位 于 首 层 的 当然 是 UNIX 类 系统 的 著名 的 VES 目录 层 ， 这 个 就 不 用 多 做 解释 了 。 
下 一 层 是 Solid File System 层 ， 其 中 Solid 为 作者 自行 选择 的 用 词 ， 之 所 以 使 用 Solid 这 个 词 
是 为 了 显示 出 与 VFS 目录 层 的 本 质 区 别 。Solid FS 层 为 实 ， 表 现 为 阴 的 实质 基础 ，VEFS 层 为 虚 ， 
表现 为 阳 的 生发 能 量 , 所 以 用 Solid 表示 “ 阴 实 ”。Solid FS 层 可 以 是 任何 一 种 实质 的 文件 系统 比 
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如 EXT2/3 或 者 NTFS 等 。 

再 下 一 层 ， 就 是 系统 缓存 了 ， 全 局 的 Page Cache 缓存 区 ， 可 Prefetch 也 可 以 Write Back。 再 
下 一 层 是 Generic Block Layer， 这 一 层 是 FS 抽象 的 结束 ,FS 将 文件 IO 映射 为 Block IO 之 后 , 就 
要 发 送 到 Generic Block Layero 

再 往 下 就 是 各 个 块 设备 的 驱动 层 , 通用 块 层 将 对 应 的 IO 请 求 发 送 给 对 应 的 块 设备 驱动 ， 著 
名 的 IO Scheduler 调度 器 就 运行 在 此 层 ， 此 处 调度 器 需要 一 个 Queue。 

再 往 下 是 一 个 公共 服务 层 , 即 SCSI Middle Layer, 这 一 层 的 功能 是 专门 处 理 SCSI 上 层 逻 辑 ， 
比如 数据 IO、 错 误 处 理 等 机 制 , 还 负责 将 上 层 的 块 IO 映射 翻译 成 对 应 的 SCSI 协议 CDB, 然后 
发 向 其 下 层 的 SCSI Host Controller， 即 SCSI 控制 器 驱动 ， 这 里 也 需要 有 一 个 Queue。 到 了 这 里 ， 
青 往 下 就 是 系统 总 线 和 外 部 总 线 、 适 配 卡 等 硬件 了 。 

如 果 非 要 将 Linux 下 驱动 链 与 Windows 下 的 做 类 比 的 话 ， 那 么 Generic Block Layer 和 Block 
Device Driver Layer 以 及 SCSI Middle Layer 这 三 者 合 起 来 提供 的 功能 相当 于 Windows 下 的 SCSI 
Class Driver; SCSI Host Controller Driver 就 相当 于 Windows 下 的 SCSI Port Driver。Windows 下 的 
存储 子 系统 驱动 链 中 只 有 一 个 Queue， 即 Port Driver 所 维护 的 Queue， 而 Linux 下 有 两 处 。 

下 面 详细 介绍 一 下 一 个 10 请求 在 Linux 内 核 中 的 流动 过 程 。 

(1 ) 用 户 程序 对 一 个 VFS 目录 对 象 ( 比 如 /mnt/test.file ) 发 起 Open0 操 作 。 

(2 ) 随 后 进行 read0 操 作 , 内 核 接收 到 read0 请 求 之 后 , 首先 进入 了 文件 系统 的 处 理 流程 当中 ， 
文件 系统 入 口 为 generic_file_read0。 入 口 函 数 判断 本 次 IO 是 否 为 Direct IO， 如 果 是 则 
调用 generic_file_direct_IO0 函 数 来 进入 DIO 流程 如果 是 Buffered IO ， 则 调用 

do_generic_file_read0 函 数 进入 Cache Hit 流程 。do_generic_file_read0 其 实 只 是 一 个 外 壳 

包装 ， 其 内 部 其 实 是 do_generic_mapping_read0。 

(3 ) 文件 的 区 段 都 会 被 映射 到 Page Cache 中 对 应 的 Page 中 ， 这 个 函数 首先 检查 请 求 的 数据 
对 应 的 Page 是 否 已 有 数据 填充 ， 如 果 有 ， 则 Cache Hit， 直 接 将 其 中 数据 返回 给 上 层 ; 
如 果 未 命中 ， 则 调用 readpage0 函数 来 向 底层 发 起 一 个 块 请 求 ，readpage0 调 用 了 
mpage_readpage()。 

(4) mpage_readpage0 又 调用 了 do_mpage_readpage0 函 数 来 创建 一 个 bio 请 求 ( 即 Block IO， 
这 个 bio 相当 于 Windows 系统 下 的 IRP ) 。 

(5 ) 然后 接着 调用 mpage_bio_submit0 处 理 这 个 bio 请 求 ， mpage_bio_submit0) 其 实 调用 于 
submit_bio() 函 数 将 bio 发 送 给 下 层 函 数 generic_make_request()。 generic_make_request() 
函数 为 通用 块 层 的 入 口 函数 ， 这 个 函数 调用 make_request_fn0 函 数 将 bio 发 送 给 下 层 ， 
也 就 是 Block Device Driver 层 的 IO Scheduler 的 队列 中 。 

(6 ) make_request_ 旬 0 函数 为 块 设备 驱动 层 的 入 口 函 数 ， 也 是 IO Scheduler 的 入 口 函 数 ， 这 
个 函数 包装 了 __make_request0 函 数 , 它 是 实现 IO Scheduler 的 调度 功能 的 主要 函数 。 关 
于 IO Scheduler 的 具体 功能 将 在 下 文 介绍 。 

(7) IO Scheduler 通过 调用 request_fn0 函 数 从 而 将 bio 下 发 给 了 SCSI 控制 器 驱动 ，SCSI 控 
制 器 驱动 程序 调用 相关 函数 将 这 个 bio 转换 成 SCSI 指令 ,然后 调用 scsi_dispatch_cmd0) 
将 指令 发 送 给 对 应 的 SCSI 控制 器 硬件 。 

以 上 过 程 可 以 对 应 图 19-67 所 示 的 流程 图 来 理解 。 
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用 户 程序 I0 请 求 


Generic_file direct IO () 


Blk dev direct 107 
Generic_direct_IO 


Submit_bh () 


Generic_make_request () 
Q->make_request_fn () 


Scsi_request fn () 


Scsi_dispatch_cmd () 


Hostt->queuecommand {) 


SCSI 控 制 器 驱动 层 


Generic_ make request ( ) 一 


文件 系统 及 缓存 层 


Q->request tn () 


块 设备 层 以 及 5C5I Middle 层 


19-67 Linux 系统 块 设备 I0 流程 图 


2 ) Linux 对 ATA 设备 的 驱动 链 

如 图 19-68 所 示 , 与 Windows 下 的 ATA 
Port Driver 类 似 ，Linux 也 使 用 一 种 LibATA 
库 来 负责 将 SCSI 协议 转换 为 ATA 协议 并 发 
送 给 ATA 控制 器 驱动 程序 。 

3 ) IO Scheduler 

IO Scheduler 是 Linux 下 专用 来 对 IO 进 
行 优化 的 一 个 模块 ， 所 有 针对 底层 存储 设备 
的 IO 都 要 经 过 这 个 模块 的 优化 操作 ， 然 后 
将 被 优化 之 后 的 IO 顺序 地 放 到 底层 存储 控 
制 器 驱动 程序 的 Queue 中 ,如 图 19-69 所 示 。 

IO Scheduler 首先 要 做 的 优化 是 对 所 有 
Block IO 进行 重新 排序 操作 ， 即 Reorder， 
让 它们 按照 LBA 地 址 进行 排序 -因为 磁盘 的 
磁头 臂 每 执行 一 个 IO 就 至 少 需要 一 次 寻 道 
操作 ， 如 果 将 上 层 无 序 的 IO 直接 发 给 磁盘 


Driver stack 


SD device 


SD device 上 上 - 


SCSI Device driver 


SCSI Middle Level 
driver 


LibATA driver 


ATA Host Driver 
(PCI Device Driver} 


PCI Core driver 


Re 


PCI Bus 


图 19-68 Linux 下 ATA 设 备 驱 动 链 


图 19-69 I0 调度 器 基本 架构 图 


执行 ， 那 么 磁头 臂 可 能 会 做 很 多 不 必要 的 来 回 摆动 ， 极 大 影响 IO 性 能 ; 而 如 果 将 IO 预先 按照 
LBA 地 址 排序 然后 再 发 给 磁盘 , 那么 磁头 臂 就 可 以 持续 地 向 一 个 方向 寻 道 , 避免 了 摆 回 去 再 摆 过 


来 的 浪费 。 


其 次 ，IO Scheduler 还 可 以 对 相 邻 LBA 地 址 的 同类 型 的 IO 请 求 进行 合并 操作 ， 即 Merge。 
比如 有 两 个 读 IO 先后 到 达 , 第 一 个 的 起 始 LBA 地 址 为 0, 长 度 1024, 第 二 个 的 起 始 LBA 为 1024， 
长 度 3072， 则 IO Scheduler 就 可 以 将 这 两 个 IO 合并 成 一 个 起 始 地 址 为 LBA0、 长 度 为 4096 的 大 
读 IO。 当 然 ， 如 果 后 到 的 同类 型 的 IO 的 目标 地 址 与 之 前 的 某 个 IO 地 址 完全 重合 ， 则 调度 器 会 
直接 抛弃 之 前 的 IO ， 如 果 后 到 的 同类 型 的 IO 与 之 前 的 IO 目标 地 址 有 交集 但 是 不 全 重合 ， 那 么 
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另外 ， 既 然 IO Scheduler 对 IO 进行 了 有 区 别 的 对 待 ， 那 么 它 就 一 定 要 在 区 别 的 同时 保证 每 
个 IO 的 利益 ， 比 如 有 某 个 IO 其 目的 LBA 地 址 是 一 个 在 一 段 时 间 内 比较 冷门 的 地 方 , 一 般 IO 
没 去 那里 的 ， 所 以 IO Scheduler 想 找 几 个 IO 和 它 做 伴 ， 以 减少 运费 ,但 是 苗 耐 一 直 没 找到 ， 那 
么 只 能 将 它 放 在 队列 里 等 着 , 但 是 过 了 很 长 时 间 依 然 也 没 去 执行 它 。 这 种 情况 IO Scheduler 需要 
尽量 避免 。 

还 会 发 生 另 外 一 种 情况 ， 即 有 些 IO 拉 帮 结 派 ， 专 横 跨 鹿 得 很 ， 动 辑 一 大 批 一 下 子 进 来 排队 ， 
弄 的 队列 里 被 它们 占 了 大 部 分 地 方 。 比 如 在 程序 使 用 Buffered IO 模式 + 同步 IO 调用 的 时 候 ， 对 于 
写 操 作 的 执行 总 比 读 操 作 快 ,因为 写 操作 永远 都 是 被 内 核 接 受 并 且 数 据 被 复制 到 内 核 缓存 后 就 返回 
成 功 信 号 ; 而 读 则 不 行 , 读 操作 在 缓存 未 命中 的 情况 下 , 必须 从 存储 介质 中 读 出 并 且 返 回 给 程序 才 
算 完 成 ， 而 这 种 情况 下 读 操 作 是 很 慢 的 ， 在 同步 IO 调用 情况 下 ， 读 操作 只 能 一 个 接 一 个 的 来 ， 而 
写 则 可 以 大 批 地 执行 。 其 次 ， 读 总 比 写 要 重要 , 这 里 的 重要 是 对 于 程序 自身 来 讲 的 , 因为 只 要 一 个 
程序 发 起 读 操 作 ， 就 证 明 它 需要 这 份 数据 才能 够 做 出 下 一 步 动 作 , 如 果 迟 迟 不 给 它 这 份 数据 , 那么 
它 很 有 可 能 就 处 于 等 待 状态 ,处 理 效率 和 吞吐 量 就 降低 了 。 但 是 程序 如 果 发 起 写 操作 , 证 明 它 已 经 
处 理 完了 这 些 数据 需要 将 它们 存 到 硬盘 , 而 如 果 迟 迟 不 处 理 这 些 写 数据 , 那么 程序 的 效率 和 计算 吞 
吐 量 可 能 根本 不 会 受到 影响 或 者 受到 很 小 的 影响 , 程序 会 继续 读 入 数据 、 处 理 计 算 , 然后 尝试 写 入 
硬盘 ， 虽 然 此 时 写 入 的 时 候 有 积压 。IO Scheduler 必须 解决 这 个 问题 ， 即 “ 读 俄 死 ”问题 。 

同时 ， 在 多 个 用 户 进程 同时 发 起 IO 时 ,不 管 是 读 还 是 写 ， 也 存在 争 抢 问题 ， 有 些 进程 发 起 
大 量 的 IO， 而 有 些 则 发 起 很 少量 的 IO ， 此 时 一 样 会 出 现 队列 争 抢 问 题 。IO Scheduler 有 必要 本 
着 公平 公正 的 原则 处 理 。 

如 图 19-70 所 示 为 Linux 下 的 IO Scheduler 对 IO 进行 Merge 操作 时 的 基本 流程 。 其 中 
FrontMerge 和 BackMerge 分 开 对 待 是 因为 Merge 之 后 必然 需要 Split， 调 度 器 根据 Front 和 Back 
来 判断 被 Merge 的 IO 是 追加 在 之 前 IO 的 后 面 还 是 被 贴 附 到 之 前 IO 的 前 面 , 这 样 就 可 以 在 Split 
的 时 候 根 据 Front 或 Back 来 进行 Split 操作 。 


ely dueue_ em 
Check if the queue is 


lv_merge() 
lect a suitablc requcn 
from the queue for 


Front merge 
(or back merge) 


I Font_merge_ mm() 
(ll_back_merge_fn()) 
Merge bio into the front 
or the back of the 

cqucst 


get_request() 
Allocate a new request 
and put the bio into it 


attempt_front_merge() 

(attempt_back_merge()) 
Also, chcck if the 

Tesulting request can be 


| i merged again with the 
a i neighbor 
Add thc new requcst 
into request queue Done 


图 19-70 I0 调度 器 对 I0 进行 Merge 时 的 流程 图 
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在 Linux 2.6 内 核 中 ， 有 4 种 IO 调度 方式 : NOOP、Deadline、Anticipatory、CFQ。 每 种 方 
式 的 侧重 点 不 同 , 实现 方式 也 不 同 , 但 是 基本 的 Merge 操作 ,这 4 种 调度 方式 都 会 执行 。 这 些 调 
度 方式 可 以 在 系统 运行 的 时 候 任 意 更 改 ， 并 不 会 影响 IO 的 执行 。 下 面 简要 介绍 一 下 这 4 种 调度 
方式 。 

(1) NOOP 调度 方式 

NOOP 调 度 方 式 可 以 说 并 没有 去 调度 什么 ,而 只 是 将 所 有 IO 按照 先进 先 出 的 顺序 进行 排队 ， 
它 只 执行 Merge 操作 , 而 不 去 改变 IO 的 顺序 以 适应 磁头 臂 寻 道 。 如果 底层 存储 介质 为 机 械 硬 盘 ， 
并 且 IO 属性 为 随机 IO 的 话 ， 那 么 使 用 这 种 方式 无 异 于 自 找 苦 吃 。 这 种 调度 方式 可 以 说 是 专门 
为 以 Flash 为 介质 的 存储 系统 而 生 的 ,因为 Flash 介质 的 存储 系统 不 需要 机 械 寻 道 , 所 以 是 否 重 排 
IO 对 其 没有 任何 意义 ; 但 是 Merge IO 依然 具有 意义 ，Merge IO 任何 情况 下 都 具有 意义 。 不 对 
IO 进行 重 排 ， 带 来 的 好 处 是 极 大 地 节省 了 系统 资源 ， 包 括 内 存 和 CPU 资源 。 

(2 ) Deadline 调度 方式 

Deadline 调度 方式 会 对 Queue 中 的 IO 进行 Merge 和 重 排 操作 。 它 会 创建 两 个 队列 和 两 个 表 ， 
一 个 队列 是 按照 读 IO 的 LBA 起 始 地 址 进行 排序 的 读 IO 队列 ， 与 其 对 应 的 有 一 个 按照 IO 进入 
顺序 排列 的 FIFO 表 , 用 来 记录 队列 中 所 有 IO 的 进入 顺序 ; 同样 , 对 于 写 IO 操作 也 维护 这 样 一 
个 队列 和 一 个 表 。 常 规 情况 下 ， 调 度 器 将 IO 重 排 后 下 发 给 下 层 驱 动 执行 ， 但 是 这 样 势 必 会 引起 
上 文中 提 到 的 IO 被 冷落 的 情况 , 所 以 Deadline 调度 器 会 维护 计时 器 , 当 FIFO 表 中 有 某 个 IO 的 
进入 时 间 戳 与 当前 时 间 相 差 到 一 定 程 度 时 ， 也 就 是 说 这 个 IO 在 队列 中 待 了 太 久 也 没 被 执行 ， 那 
么 调度 器 会 抛 开 其 他 一 切 因素 将 这 个 IO 下 发 到 下 层 驱动 。 这 也 是 其 被 称 为 Deadline 调度 器 的 原 
因 。Deadline 调度 器 针对 读 IO 的 停留 阔 值 时 间 为 500ms， 而 对 于 写 IO 则 为 5s, 这 样 考虑 的 原因 
是 因为 上 文中 提 到 过 的 “ 读 俄 死 ” 的 情况 。 如 图 19-71 所 示 为 Deadline 调度 器 的 队列 构成 以 及 调 
用 的 相关 函数 。 


deadline_insert_request deadline_dispatch_requests deadline_next_request 
图 19-71 Deadline 调度 器 队列 结构 

(3 ) Anticipatory 调度 方式 

顾名思义 ， Anticipatory 调度 器 会 做 某 种 预测 从 而 执行 对 应 的 调度 算法 。 它 会 根据 队列 中 已 
经 存在 的 IO 的 起 始 地 址 信息 来 预测 是 否 下 一 个 到 来 的 IO 其 起 始 地 址 与 队列 中 的 某 个 IO 会 相近 
甚至 相 邻 。 如 果 它 判断 的 结果 为 是 ， 那 么 它 会 等 待 一 段 时 间 ， 等 待 符合 条 件 的 IO 进入 。 如 果 进 
入 相 邻 的 ID， 那么 就 将 其 与 现存 的 IO 进行 Merge 操作 ; 如 果 是 相近 的 IO， 则 可 以 将 其 重 排 ， 
磁头 臂 不 需要 远 距 离 寻 道 。 利 用 这 种 方法 来 最 大 限度 地 提高 效率 。 这 种 预测 仅 限于 读 IO， 对 于 
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写 IO 不 做 预测 。 

如 图 19-72 所 示 为 Anticipatory 调度 器 的 等 待 判断 流程 。 其 中 ，Mean thinktime 表示 自从 上 
一 个 读 IO 完成 之 后 到 接收 到 写 一 个 读 IO 的 相隔 时 间 的 平均 值 ; Mean seekdistance 表示 前 一 个 读 
IO 的 结束 地 址 与 后 一 个 读 IO 的 起 始 地 址 之 间 的 距离 平均 值 。 


Pfocess anticipated © 和 
六 


Mean thinktime > 


Wait for a better request Dispatch next request 


下 


图 19-72 Anticipatory 调度 器 等 待 判断 流程 

Anticipatory 调度 器 如 此 的 预测 和 等 待 ， 为 的 只 是 多 拉 快 跑 ， 这 样 做 的 根本 原因 还 是 因为 运 
力 不 够 ， 比 如 底层 存储 系统 是 很 慢 的 机 械 硬盘 等 情况 。 

(4) CFQ 调度 方式 

CFQ 全 称 为 Completely Fair Queue， 完 全 彻底 的 公平 的 队列 调度 。CEFQ 调度 模式 除了 有 具备 
基本 的 Merge、 重 排 等 功能 之 外 ,还 体现 了 绝对 公平 。 这 里 的 公平 二 字 ， 体 现在 对 多 个 进程 ,或 
者 多 个 进程 组 、 多 个 不 同 用 户 各 自 的 所 有 进程 、 多 个 不 同 用 户 组 各 自 的 所 有 进程 所 发 出 的 IO， 
按照 这 些 单位 作为 调度 粒度 , 在 这 些 单位 之 间 保 持 完全 公平 。 比 如 两 个 用 户 分 别 各 自 运行 了 两 个 
进程 , 那么 CFQ 调度 器 会 为 每 个 用 户 的 两 个 进程 创建 对 应 的 队列 , 在 这 两 个 队列 之 间 保 持 公 平 ， 
比如 从 队列 1 被 提取 下 发 了 4 个 IO, 那么 会 转 到 队列 2 提取 下 发 4 个 IO。 如 图 19-73 所 示 为 单 
进程 调度 粒度 的 CFQ 调度 器 的 队列 结构 。 

对 前 文 所 说 的 “ 读 俄 死 ” 情 况 ，CFQ 使 用 了 一 些 参 数 来 控制 这 种 情况 的 发 生 。 另 外 ，CFQ 
对 Synchronous IO 的 处 理 优先 级 要 比 Asynchronous IO 高 很 多 ， 因 为 同步 IO 表示 程序 此 时 是 阻 
塞 的 ， 程 序 在 等 待 返回 ， 而 异步 IO 则 表明 程序 没有 在 等 待 ，CFQ 给 予 同步 IO 以 高 优先 级 是 理 
所 当然 的 。 
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图 19-73 CFQ 调度 器 队列 结构 


CFQ 中 的 一 些 可 调节 参数 如 下 。 


back_seek_max ”这 个 参数 规定 了 后 向 寻 道 距离 的 最 大 值 ， 单 位 用 KB 表示 ， 默 认 值 为 
16384KB。 这 个 参数 效仿 于 Anticipatory 调度 模式 下 的 mean seekdisktance 参数 ， 只 不 过 
CFQ 中 这 个 参数 是 一 个 定 值 , 而 Anticipatory 调度 模式 下 的 这 个 值 等 于 历史 统计 结果 平 
均值 ， 但 是 参数 决定 的 行为 对 于 两 个 调度 模式 下 是 不 同 的 。Queue 中 将 要 被 执行 的 IO 
(此 时 Queue 中 的 IO 已 经 按照 目标 地 址 和 磁头 臂 摆 动 的 方向 进行 插入 排序 了 ) 的 目标 
地 址 如 果 位 于 当前 磁头 璧 摆动 的 方向 后 方 〈( 即 需要 摆 回 去 才能 执行 这 个 IO ) ， 而 且 相 
隔 当前 的 磁头 位 置 ( 也 就 是 上 一 个 IO 的 结束 地 址 ) 的 距离 大 于 这 个 参数 给 定 的 值 ， 那 
么 CFQ 会 判断 为 后 向 寻 道 距离 过 长 , 不 划算 , 所 以 继续 执行 队列 中 的 正方 向 的 IO, 因 
为 磁头 向 一 个 方向 连续 摆动 时 的 寻 道 开销 是 最 少 的。 如 果 距 离 小 于 这 个 值 ， 那 么 CFQ 
认为 皖 回 去 是 划算 的 ， 执 行当 前 IO。 

back_seek_penalty ”这 个 参数 的 作用 与 back_seek_max 类 似 , 只 不 过 更 加 纯粹 一 些 。 它 同 
样 决定 了 磁头 臂 后 向 回 摆 是 否 划算 。 如 果 当 前 磁头 位 置 位 于 a 处 ， 而 Queue 中 有 两 个 
IO， 目 标 位 置 分 别 为 后 向 a 一 n， 和 前 向 atm， 如 果 (a 一 m<(a+m)/ back_seek_penalty， 
则 CFQ 将 后 向 的 IO 与 前 向 的 IO 同等 对 待 ， 先 摆 回 磁头 劈 执 行 后 向 IO ， 再 执行 前 向 
IO。 

fifo_expire_async ”这 个 参数 规定 了 Queue 中 的 某 个 异步 IO 如 果 因为 重 排 等 因素 而 一 直 
没有 被 执行 从 而 超过 了 这 个 参数 所 规定 的 时 间 的 话 ， 那 么 会 强制 执行 这 个 IO。 上 默认 值 
为 250ms。 

fifo_expire_sync ”这 个 参数 与 fifo_expire_async 类 似 , 只 不 过 是 针对 Queue 中 的 同步 IO， 
默认 值 为 125ms。 可 以 看 到 CFQ 是 偏向 优先 执行 同步 IO 的 。 

slice_sync ”CFQ 之 所 以 公平 ， 是 因为 它 会 轮流 从 每 个 进程 、 进 程 组 、 用 户 或 用 户 组 的 
Queue 中 提取 IO 并 下 发 给 设备 驱动 。 为 了 保证 公平 ，CFQ 对 每 个 Queue 的 执行 时 间 
是 分 片 的 ,这 个 值 就 规定 了 CFQ 对 每 个 同步 IO 的 Queue 所 执行 的 时 间 , 默 认为 100ms。 
slice_async = slice_sync 类 似 。 默 认 值 40ms。 

slice_asyn_rq 这 个 值 限制 了 CFQ 每 次 执行 异步 IO 队列 时 最 大 可 以 提取 下 发 的 IO 请 
求 数量 , 默认 为 2。 当 被 下 发 了 对 应 数值 的 IO 之 后 ,CFQ 将 转 到 下 一 个 Queue 继续 执 
行 。 对 于 同步 IO 队列 ,没有 这 个 参数 的 限制 ， 可 见 CFQ 对 同步 IO 大 开绿灯 。 
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”slice idle 对 于 同步 IO 队列 ， 如 果 轮 到 某 个 同步 IO 队列 被 执行 时 ， 队 列 中 却 是 空 的 
那么 CFQ 将 等 待 slice_idle 所 规定 的 时 间 ; 如 果 超过 这 个 时 间 仍 未 有 IO 进入 ,那么 cFQ 
转向 下 一 个 Queue 执行 。slice_idle 默认 值 为 gms。 对 于 异步 IO 队列 ， CFQ 并 不 等 待 。 
可 见 CFQ 对 同步 IO 的 重视 程度 。 

" ”Quantum ”这 个 值 规定 了 底层 存储 控制 器 驱动 的 Queue Depth, CFQ 不 能 将 多 于 这 个 值 
所 规定 的 IO 数量 发 送 给 底层 设备 驱动 。 

提示 : 随 着 外 部 存储 系统 越 来 越 智能 化 ,这些 IO 优化 任务 其 中 大 部 分 完全 可 以 交 给 外 部 

存储 控制 器 来 执行 , 主机 端 完 全 没有 必要 多 此 一 举 , 浪费 系统 资源 , 所 以 目前 IO Scheduler 

正在 被 逐渐 弱化 ,仅仅 对 于 本 地 硬盘 或 者 JBOD 阵列 有 些许 效果 。 因 此 对 于 使 用 外 部 智能 
磁盘 阵列 存储 系统 的 Linux 系统 ， 可 以 使 用 NOOP 或 者 CFQ 模式 的 Scheduler。 由 于 外 部 
存储 控制 器 无 法 感知 到 进入 的 IO 所 附属 的 主机 端 进程 ， 因 此 不 可 能 做 到 向 主机 端 IO 

Scheduler 平衡 多 进程 IO， 所 以 CFQ 是 有 必要 使 用 的 。 

主机 SCSI 或 者 FC 控制 器 驱动 程序 都 会 探知 到 底层 硬件 是 否 支持 TCQ 或 者 NCQ， 如 果 支 

持 ， 则 驱动 程序 会 异步 地 将 批量 10 充 人 底层 的 Queue; 如 果 不 支持 ， 则 只 会 一 个 一 个 

将 I0 下 发 ,严重 影响 性 能 。 不 支持 Queue 的 一 般 是 单个 低 端 磁盘 ， 而 磁盘 同一 时 刻 只 能 

执行 一 个 I0 操作 ,所 以 控制 器 感知 到 这 一 点 ， 才 会 一 个 一 个 地 将 IO 下 发 。 而 对 于 外 部 磁 

盘 阵 列 系统 ， 在 接收 到 主机 端 设备 属性 查询 时 都 会 返回 支持 Queue 以 及 Battery Backup 

Write Back Cache。 

另外 , 不 光 外 部 只 能 用 盘 阵 ,对 于 支持 TCQ 的 SCSI 磁 盘 或 者 支持 NCQ 的 SATA 磁盘 , 如 

果 对 应 的 控制 器 硬件 以 及 驱动 程序 也 同时 支持 Queue 的 话 ， 那 么 IO Scheduler 的 效果 同样 

也 会 被 弱化 ， 此 时 选择 NOOP 或 者 CFQ 方式 即 可 。 

对 于 Linux 操作 系统 ,调度 器 的 队列 深度 设置 ,可 以 通过 编辑 /sys/block/sda/queue/nr_requests 

文件 中 对 应 的 值 来 实现 。 队 列 深度 越 大 , 那么 IO 优化 的 效果 越 明显 , 但 是 每 个 IO 的 延迟 

也 会 随 之 升 高 。 关 于 Queue 深度 与 I0 延迟 的 关系 见 下 文 描述 。 

(5 ) IO Scheduler 对 IO 的 Merge 实例 

程序 对 块 设备 做 IO 时 ,诸如 O_SYNC (类似 WRITE_THROUGH， 并 不 指 同步 IO 调用 ) 

等 参数 依然 适用 , 并 且 由 于 块 设备 的 写 惩罚 特性 , 在 UNIX 系统 下 , 使 用 O_SYNC 模式 调用 时 ， 
写 惩罚 最 严重 ， 如 果 不 使 用 O_SYNC 或 者 WRITE_THROUGH 之 类 的 参数 ， 那 么 写 数据 会 被 
块 设备 驱动 进行 Merge 操作 。 下 面 这 个 测试 使 用 的 命令 为 dd if=/dev/zero of=/dev/sdb bs=512 
count=1000， 操 作 很 快 完成 ， 使 用 iostat 工具 检测 到 了 这 个 过 程 中 的 所 有 IO 情况 。 


Device: rrqm/s wrqm/s r/s WwW/s rsec/s Wsec/s avgrq-sz avgqu-sz 
await svctm sutil 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 
sdb 0.00 115.00125.0010.00 1000.001000.00 14.82 0.00 0.00 0.00 0.00 


wrqm/s The number of write requests merged per second that were Queued to the 
device. 


r/a The number of read requests that were issued to the device per second. 
WwW/s The number of write requests that were issued to the device per second. 
wsec/s The number sector transferred to the device per sencond 


中 dd 发 起 “offet0 length 512B” 的 写 IO 到 内 核 ， 由 于 使 用 了 Buffered IO， 内 核 立即 通知 
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dd 完成 了 。 

@ 内 核 首先 读 出 这 个 块 设备 在 Page Cache 中 映射 的 逻辑 上 的 第 一 个 4KB 的 Page 也 就 是 
Page0， 然 后 修改 前 512B， 再 将 修改 后 的 Page0 放 入 块 设备 Queue 中 等 待 写 入 。 

@ 在 上 一 个 Page0 尚未 写 入 时 ，dd 完全 可 能 青 次 发 起 “offset=512 length=512” 的 下 一 个 写 
请 求 ， 同 样 ， 立 即 被 告知 完成 。 

@ 内 核 为 了 服务 第 二 次 512B 的 写 入 ， 需 要 再 次 读 入 Page0。 由 于 之 前 的 Dirty Page0 还 在 
Page Cache 中 ， 所 以 本 次 读 会 命中 缓存 ， 内 核 将 本 次 的 Page0 的 对 应 区 域 修改 之 后 ， 再 
次 将 这 个 Page0 放 入 块 设备 Queue 中 等 待 写 入 。 

@ 块 设备 的 IO Scheduler 前 后 两 次 收 到 了 两 个 针对 同一 个 目标 地 址 段 的 写 IO, 根据 调度 规 
则 ， 当 然 是 将 前 一 个 写 IO 抛弃 ， 只 保留 后 一 个 ,或 者 也 可 以 认为 后 者 覆盖 了 前 者 。 

@ 程序 发 起 第 3 次 IO、 第 4 次 IO， 内 核 依然 是 读 缓存 命中 ,同样 ， 写 入 的 Page0 也 会 将 
前 一 个 覆盖 掉 。 

@ 当 程 序 发 起 第 5 个 IO 时 ， 内 核 必须 要 读 出 Pagel 了 ， 然 后 继续 重复 与 前 面相 同 的 过 程 。 

这 样 算 来 , 平均 每 8 次 程序 发 起 的 IO 才 会 触发 一 次 真正 的 对 一 个 Page 的 读 和 写 操作 。 那么 
程序 共 执 行 了 1000 次 IO，1000=8=125， 根 据 测试 的 结果 输出 ， 也 确实 符合 了 这 个 数值 。 但 是 
写 操作 却 为 10 次 ， 另 外 的 115 次 被 Merge 了 。 也 就 是 说 ，Page0 和 Pagel 或 者 更 多 的 相 邻 Page 
被 Merge 成 一 次 大 的 IO 写 操作 了 。 

(6 ) IO Scheduler 的 副作用 

是 药 三 分 毒 。IO 调度 器 在 对 IO 进行 了 优化 的 同时 , 也 带 来 了 严重 的 副作用 , 这 种 副作用 是 
任何 层面 的 IO 优化 Queue 所 无 法 避免 的 ， 包 括 TCQ、NCQ。 

比如 某 程序 打开 一 个 块 设备 /dev/sda 进行 IO 操作 ， 程 序 使 用 DIO+ 异 步 IO 调用 。T1 时 刻 
程序 针对 某 地 址 做 了 固定 长 度 的 读 操作 ， 假 设 缓存 未 命中 ， 内 核 将 这 个 读 BIO 放 入 块 设备 驱动 
的 IO Scheduler 队列 中 ; 但 是 紧 接着 T2 时 刻 , 程序 又 发 起 了 针对 同一 地 址 的 固定 长 度 的 写 操作 ， 
假设 内 核 将 这 个 写 IO 也 放 入 了 IO Scheduler 的 Queue 中 ,但 是 经 过 调度 之 后 ， 这 个 写 操作 被 提 
前 了 , 提 到 了 读 的 前 面 ， 先 执行 ,那么 这 个 读 操作 就 不 会 读 到 被 这 个 写 所 覆盖 之 前 的 内 容 ， 而 读 
到 的 是 写 覆 盖 之 后 的 内 容 。 同 样 ， 对 于 先 写 后 读 ， 如 果 读 被 提前 ， 那 么 读 到 的 也 是 过 期 的 数据 。 

如 果 使 用 Buffered IO ， 则 先 写 后 读 的 情况 下 ， 对 于 后 来 的 读 会 产生 缓存 命中 ， 内 核 根 本 不 
会 将 BIO 发 向 块 设备 ， 也 就 不 会 带 来 时 序 问 题 。 如 果 是 先 读 后 写 而 且 读 未 命中 的 情况 ， 那 么 可 
能 会 发 生 读数 据 未 返回 之 前 、 写 数据 已 经 在 缓存 里 呆 着 了 ,而且 也 有 可 能 发 生 写 数据 从 缓存 中 被 
flush 刷 盘 ， 进 入 IO Scheduler， 此 时 读 请 求 依然 未 被 执行 ， 还 在 IO Scheduler 中 ， 那 么 这 个 写 依 
然 可 能 会 被 提 到 读 前 面 ， 当 然 ， 等 这 么 久 那个 “ 读 ”还 排 着 队 的 几率 是 很 低 的 。 

如 果 是 多 进程 共同 IO 同一 个 目标 , 这 种 问题 一 样 会 发 生 , 不 过 可 以 对 目标 进行 Exclusive 模 
式 的 锁定 , 这 样 就 从 根本 上 杜绝 了 多 进程 之 间 的 时 序 性 问题 , 但 是 依然 存在 单 进程 的 时 序 性 问题 。 
如 果 你 真 的 认为 锁定 了 就 没有 时 序 问题 了 ,你 就 错 了 。 锁定 与 否 与 底层 的 乱 序 是 无 关 的 , 即便 是 
程序 A 锁定 文件 a 进行 IO ,程序 A 针对 a 的 IO 都 会 被 排队 ，A 解锁 之 后 B 继续 对 a 做 IO，B 
的 IO 也 会 被 排队 ， 而 A 和 B 的 IO 依然 会 在 底层 乱 序 ，A 和 B 所 看 到 的 内 容 也 可 能 都 是 过 期 的 
内 容 。 

这 个 问题 是 IO Scheduler 无 法 避免 的 , 但 是 可 以 从 应 用 程序 层 去 避免 。 比 如 在 DIO 模式 下 ， 
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对 于 先 读 后 写 的 情况 ,避免 发 生 即 可 。 话 说 回来 ,一 个 程序 先 发 出 读 , 在 没收 到 返回 数据 的 情况 
下 又 发 出 了 写 去 打算 覆盖 之 前 的 数据 , 这 本 身 是 不 是 有 点 逻辑 错乱 的 意思 呢 ? 就 比如 你 一 开始 想 
拿 一 个 东西 ， 后 来 想 想 又 不 拿 了 ,然后 扔 了 一 颗 炸弹 把 东西 炸 了 , 但 随后 你 拿 到 的 却 不 是 之 前 的 
东西 ,是 一 堆 被 炸 碎 的 东西 。 也 就 是 说 ,既然 在 你 没 拿 到 东西 之 前 ， 你 又 决定 不 要 了 ， 那 么 此 时 
这 个 东西 本 身 就 没有 意义 了 ， 此 时 你 应 该 知道 这 个 结果 ， 而 不 是 进入 脑袋 错乱 的 状态 。 
而 对 于 先 写 然后 在 没 返回 之 前 又 发 出 读 , 一 般 情 况 下 是 没有 这 个 必要 的 , 因为 你 自己 知道 之 
前 你 写 进 去 什么 东西 ,此 时 为 何 还 要 再 把 它 拿 出 来 看 看 呢 ? 在 这 么 短 的 时 间 内 , 数据 一 般 都 依然 
在 应 用 的 缓存 内 ， 没 必要 向 系统 发 出 读 请 求 ， 可 以 直接 在 应 用 层 命中 缓存 。 别 说 ， 还 真有 这 么 一 
类 患 有 强迫 症 的 程序 ， 这 类 程序 就 是 专门 干 这 个 的 ,因为 磁盘 有 时 是 不 可 靠 的 。 对 于 写 操作 ， 磁 
盘 返 回 成 功 之 后 ， 数 据 未 必 真 的 被 写 入 磁盘 ， 甚 至 对 于 Write Through 标记 的 IO 也 是 如 此 ,也 
就 是 说 磁盘 并 没有 将 数据 成 功 地 写 入 盘 片 , 但 是 依然 向 上 层 返回 了 成 功 应 答 , 这 种 极端 发 生 的 情 
况 称 为 “Lost Write”。 这 类 程序 的 作用 就 是 为 了 探 察 这 种 情况 的 发 生 。 对 于 这 种 程序 ， 就 要 注 
意 切 不 可 在 刚刚 写 完 之 后 就 立即 发 起 读 ， 一 定 要 过 一 段 时 间 才 发 起 ， 以 避免 在 IO 调度 器 的 队列 
里 与 之 前 的 写 IO 碰 上 。 而 对 于 使 用 Buffered IO 的 程序 来 说 ， 先 写 后 读 没 问题 ( 见 上 文 ) ,对 于 
先 读 后 写 的 状况 ， 与 DIO 模式 下 的 处 理 方式 相同 ， 即 不 应 该 在 没有 收 到 读 返 回 数据 的 情况 下 接 
着 又 发 起 写 IO。 
彻底 解决 这 个 问题 的 办 法 : 对 于 单个 线程 ， 同 步 IO 即 可 ; 多 线程 之 间或 者 多 个 程序 之 间 ， 
无 解 。 
关于 Lost Write : Lost Write 是 一 种 发 生 概率 非常 小 的 事件 ， 但 是 一 旦 发 生 ， 其 所 带 来 的 
直接 后 果 就 是 数据 不 一 致 。 如 果 受 影响 的 是 文件 系统 元 数据 中 的 关键 数据 ， 比 如 跟 入 口 指 
针 等 ,那么 就 有 可 能 直接 导致 文件 系统 全 面 错 乱 ， 需 要 数据 恢复 。 而 如 果 是 某 应 用 程序 所 
存储 的 关键 数据 ， 比 如 账目 , 那么 当 应 用 程序 下 次 读 出 这 份 上 次 尚未 被 写 人 成 功 的 数据 进 
行 处 理 之 后 ， 就 可 能 发 生 错 账 ， 进 而 可 能 引发 重大 生产 责任 事故 。 
如 何 解决 Lost Write? 有 多 种 方法 , 一 种 最 条 最 耗资 源 的 方法 便 是 在 写 人 之 后 , 立即 再 次 
对 这 个 地 址 发 起 读 操 作 ( 前 提 是 磁盘 本 身 关 闭 了 Write Cache， 即 使 用 Write Through 模 
式 ) ,将 得 到 的 数据 与 之 前 的 待 写 信 数据 进行 比 对 来 检查 是 否 上 一 次 真 的 被 写 人 了 ， 这 
个 动作 应 该 由 存储 控制 器 来 执行 。 但 是 这 样 做 需要 对 之 前 写 和 的 数据 进行 留 底 ， 需 要 对 
每 个 块 进行 Hash 计算 并 保存 起 来 ， 稍 后 读 出 对 应 地 址 数据 之 后 再 次 Hash， 比 对 两 次 
Hash， 如 果 相 同 则 表示 确实 成 功 地 写 人 了 ; 如 果 不 同 ， 则 表示 未 被 成 功 写 入 。 此 时 就 需 
要 从 RAID 组 中 这 个 块 对 应 的 条 带 中 的 其 他 块 来 进行 XOR 运算 反 算 出 当时 应 该 被 写 人 的 
内 容 。 为 何 可 以 用 条 带 中 其 他 Segment 来 反 算 这 块 数据 呢 ? 因为 当时 这 个 条 带 发 生 写 入 
的 时 候 ， 可 以 认为 只 有 这 个 块 发 生 了 Lost Write， 而 其 他 盘 同时 发 生 Lost Write 的 几率 微 
乎 其 微 ， 所 以 可 以 假设 其 他 Segment 中 数据 都 是 一 致 的 。 这 种 办 法 虽然 笨 而 且 极 其 耗费 
资源 , 但 是 却 可 以 彻底 解决 Lost Write。 总 之 一 定 要 确保 写 人 改 地 址 之 后 , 下 一 个 针对 这 
个 地 址 的 I0 一 定 要 是 控制 器 发 起 的 这 个 验证 读 操 作 ， 因 为 如 果 不 立 即 检 查 的 话 ， 一 旦 
间隙 中 有 针对 这 个 地 址 的 非 验 证 读 操作 ， 不 管 是 直接 读 还 是 由 于 更 改 条 带 中 其 他 
Segment 连带 导致 的 对 本 Segment 的 读 , 那 么 就 证 明 不 一 致 的 数据 已 经 对 应 用 系统 产生 了 
影响 ， 不 管 是 潜在 的 还 是 立即 导致 后 果 的 。 


块 设备 由 于 底层 IO Scheduler 可 能 造成 IO 乱 序 重 排 执行 的 情况 ,在 发 生 系统 Down 机 等 情 
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襄 时 ， 底 层 数据 的 一 致 性 就 无 法 得 到 保证 。 由 于 文件 系统 建立 在 块 设备 之 上 , 所 以 FSCK 是 一 种 
恢复 数据 一 致 性 的 手段 , 但 是 FSCK 只 能 保证 文件 系统 元 数据 的 一 致 却 保证 不 了 数据 实际 内 容 的 
一 致 性 ， 所 以 ， 关 键 应 用 程序 都 直接 使 用 完全 透 传 程序 IO 请 求 的 字符 设备 进行 IO 操作 。 


7. 系统 IO 路 径 中 的 Queue Depth 及 Queue Length 


在 系统 IO 路 径 中 , 有 各 种 各 样 的 Queue, 各 种 层次 的 Queue, 从 应 用 层 一 直到 设备 驱动 层 。 
对 于 Queue 来 说 ， 有 两 个 非常 重要 的 概念 : Queue Depth 以 及 Queue Length。 秆 一 看 二 者 似乎 意 
义 相 同 ， 但 是 细 究 起 来 两 者 并 不 一 样 。 前 者 是 指 某 个 Queue 的 额定 深度 ， 即 这 个 Queue 最 大 能 
充满 多 少 条 记录 或 者 多 少 个 IO; 后 者 则 指 当前 这 个 Queue 当前 存在 的 ， 或 者 叫做 积压 的 ， 记 录 
或 者 IO 数量 。 

随 着 上 层 发 起 的 IO 请 求 不 断 地 下 发 , 系统 路 径 下 层 各 处 的 Queue 可 能 都 会 面临 不 同 程度 的 
积压 ， 因 为 底层 硬件 的 处 理 能 力 总 是 有 限 的 , 尤其 是 对 于 存储 系统 来 讲 , 在 高 压力 下 很 快 达 到 瓶 
颈 , 底层 的 瓶颈 会 一 层 一 层 地 反映 到 上 层 。 在 上 层 IO 压力 很 小 的 时 候 ， 系 统 路 径 上 的 Queue 几 
平 都 没有 积压 ， 随 着 上 层 IO 压力 逐渐 增加 ， 位 于 路 径 中 最 底层 的 Queue， 也 就 是 设备 驱动 程序 
处 的 Queue 会 首先 出 现 积压 (此 处 抛 开 IO Scheduler 处 的 Queue 不 谈 ， 因 为 此 处 的 Queue 根据 
一 定 的 调度 算法 ， 总 会 有 一 定 积压 ) 。 当 积压 到 一 定 程度 之 后 ,这 个 Queue 就 进入 了 Queue Full 
的 状态 ， 此 时 ， 往 上 一 层 的 Queue 开始 积压 ， 满 了 之 后 ， 再 上 一 层 的 Queue 就 开始 积压 。 就 这 
样 一 直 反 映 到 程序 层 , 此 时 就 会 直接 感知 到 性 能 的 急剧 下 降 。 如 果 整 个 系统 中 只 有 一 个 进程 在 做 
同步 +DIO 模式 的 IO 操作 ， 那 么 就 可 以 观察 到 系统 路 径 的 最 底层 的 Queue 中 几乎 任意 时 刻 都 是 
室 的 ， 因 为 此 时 Queue 不 可 能 积压 ， 任 意 时 刻 只 有 1 个 IO 请 求 在 从 上 流 到 下 ,但 是 我 们 在 探 察 
的 时 候 能 碰 上 Queue 中 恰好 有 这 个 IO 存在 的 时 候 的 几率 非常 低 。 当 有 大 量 并 发 的 IO 被 发 起 的 
时 候 ， 整 个 所 经 过 的 路 径 中 的 Queue 可 能 会 被 充满 。 

监测 到 的 Queue Length 越 长 ， 就 证 明 Queue 积压 越 大 ， 那 么 单个 IO 的 延迟 就 越 高 ， 对 应 
的 计算 公式 为 : IO Latency= ( Queue Length+1 ) x IO Service Time， 其 中 IO Service Time 表示 
存储 系统 硬件 处 理 每 个 IO 所 耗费 的 时 间 ，IO Service Time 对 于 存储 系统 自身 来 说 , 也 相当 于 IO 
Latency， 每 一 层 的 IO Latency 都 等 于 本 层 的 (Queue Length+1 ) x 其 下 层 的 IO Latency， 所 以 
这 个 公式 可 以 最 终 改 为 : Layer N IO Latency= ( Layer N Queue Length+1 ) x Layer (N-1) IO 
Latency。 根 据 这 个 公式 ， 可 以 推论 出 : 如 果 存 储 最 底层 出 现 瓶颈 ， 那 么 最 底层 的 IO Latency ( 原 
生 Latecny ) 就 会 升 高 ， 它 的 升 高 直接 导致 了 其 Queue Length 越 积 越 多 而 升 高 ， 此 二 者 的 升 高 又 
成 倍 地 升 高 了 上 一 层 的 IO Latency( 累积 Latency )。 一 层 层 的 扩大 之 后 , 整个 系统 路 径 中 的 Queue 
积压 越 严重 ， 那 么 最 终 应 用 程序 层 的 IO 延迟 就 会 严重 地 成 倍 地 升 高 。 公 式 中 的 变量 为 Queue 
Length 而 不 是 Queue Depth， 这 里 一 定 要 注意 。 

Queue 积压 到 一 定 程度 ， 导 致 整个 Queue 充满 溢出 之 后 ,下层 会 向 上 返回 Queue Full 通知 ， 
上 层 得 知 后 会 做 出 相应 处 理 ， 比 如 降低 IO 发 送 速率 等 。Queue Full 的 出 现 表示 存储 系统 瓶颈 已 
经 达到 了 不 可 调和 的 地 步 ， 这 种 情况 一 般 不 会 出 现 。 
主机 端 底层 发 生 Queue 积压 情况 下 系统 瓶颈 点 判断 方法 : 如 果 链 路 带宽 和 外 部 存储 系统 的 
IOPS 尚未 达到 额定 饱和 值 而 Queue 积压 ， 那 么 说 明 瓶 颈 归 于 磁盘 ; 如 果 IOPS 饱和 ， 说 明 瓶 颈 
归于 存储 控制 器 的 处 理 能 力 ; 如 果 带 宽 饱 和 和， 那么 瓶颈 归于 链 路 速率 本 身 。 

当 出 现 Queue 积压 情况 时 , 主机 端的 IO 延迟 会 呈 指 数 曲线 模式 升 高 , 唯一 可 以 做 的 就 是 降 
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低 主 机 端的 IO 并 发 度 或 者 Queue Depth， 这 样 做 只 是 治标 不 治本 。 降 低 主 机 端 IO 并 发 度 或 者 
Queue Depth 的 本 质 其 实 是 要 应 用 做 出 妥协 。 这 里 又 可 以 分 为 两 种 情况 。 第 一 种 是 底层 IO 与 上 
层 业 务 响 应 速度 没有 直接 联系 ， 即 底层 IO 响应 变 慢 不 影响 实际 业务 响应 时 间 ， 那 么 我 们 此 时 就 
可 以 大 刀 阔 佐 地 降低 主机 端的 Queue Depth 和 IO 并 发 度 ， 减 轻 存 储 系 统 的 压力 从 而 也 为 其 他 使 
用 存储 系统 的 客户 端 打通 道路 。 这 种 情况 的 一 个 典型 例子 就 是 FS 预 读 , 比如 上 文中 论述 FS 预 读 
时 给 出 的 一 组 数据 , 在 AIX 系统 下 将 j2_maxpagereadahead 调节 成 512， 也 就 是 让 IO Size 为 2MB 
大 小 。 当 然 底层 协议 本 身 并 不 允许 这 么 大 的 IO Size, 所 以 OS 会 自动 将 这 个 值 切 开 成 多 个 小 IO， 
即 每 次 预 读 都 会 使 用 多 个 IO 来 读 取 数 据 ， 不 管 预 读 线程 是 单线 程 异步 IO 还 是 多 线程 同步 IO， 
单位 时 间 内 都 会 产生 大 量 预 读 IO 从 而 塞 满 Queue， 造 成 Queue 积压 。 而 此 时 应 用 程序 的 IO 响 
应 时 间 与 FS 预 读 力度 之 间 并 没有 很 大 的 联系 ， 如 果 此 时 因为 FS 的 预 读 造成 了 Queue 积压 ， 那 
么 我 们 就 可 以 毫 不 犹 移 地 将 j2_maxpagereadahead 降低 ， 比 如 64。 比 如 下 面 的 数据 ， 将 
j2_maxpagereadahead 调节 为 512 之 后 ，cp 操作 所 耗费 的 时 间 并 没有 相对 调节 为 64 时 有 多 大 的 提 
升 (相反 还 有 所 降低 ) ， 但 是 反而 造成 了 存储 系统 的 Queue 积压 ， 底 层 的 单个 IO 响应 时 间 急 剧 
从 接近 0 增加 到 8~ 9ms。 也 就 是 说 底层 的 响应 时 间 增 加 了 ， 但 是 其 并 没有 严重 影响 上 层 响应 时 
间 ( 慢 了 不 到 1s， 在 测试 误差 允许 范围 内 ) 。 

aix-cn22:/#ioo -oO j2_ maxPageReadAhead=512 

Setting j2 maxPageReadAhead to 512 

aix-cn22:/#mount /dev/fslv02 /mnt3 

aix-cn22:/#time cp /mnt3/c /mnt2 

real Oml2.46s 

user 0m0 .22s 

sys Om9.81s 

Read Write Other QFull Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 

363 0 0 0 91136 0 8.69 30.02 /vol/Lun/Lunaix 
368 0 0 0 95232 0 S29 3.05 /vol/Lun/Lunaix 
747 0 0 0 79592 0 3.72 3.00 /vol/Lun/Lunaix 


aix-cn22:/#ioo -0o j2_maxPageReadAhead=64 
Setting j2 maxPageReadAhead to 64 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Omll.67s 

user 0m0 .22s 


SYS 0m9 .34s 

Read Write Other QFull Read Write Average Queue Lun 
Ops Ops Ops kB kB Latency Length 
383 0 0 0 97856 0 1.04 0.03 /vol/Lun/Lunaix 
437 0 0 0 95936 0 0.90 0.03 /vol/Lun/Lunaix 
380 0 0 0 97152 0 La0s 0.03 /vol/Lun/Lunaix 


参数 的 调节 需要 严格 的 试探 ， 因 为 每 个 系统 都 不 同 ，IO 类 型 也 不 同 ， 我 们 不 可 能 向 Nio 一 
样 钼 到 Marix 里 面 去 探究 代码 的 执行 , 但 是 我 们 至 少 可 以 做 试探 来 探究 和 想象 底层 的 行为 。 比 如 
确定 j2_maxpagereadahead 参数 的 最 适 值 ， 就 需要 我 们 逐渐 增 大 这 个 值 然后 调查 IOPS、 带 宽 和 IO 
响应 时 间 这 三 者 ， 设 置 过 低 则 不 能 发 挥 性 能 ， 设 置 过 高 又 会 顾此失彼 ,根据 需求 ,总 有 一 个 最 合 
适 的 值 存在 。 
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第 二 种 情况 则 是 底层 IO 的 响应 时 间 直 接 关系 到 应 用 程序 的 响应 时 间 ， 那么 此 时 我 们 不 能 轻 
易 就 降低 Queue Depth 或 者 并 发 度 , 因为 这 样 做 虽然 可 以 使 存储 系统 负载 减轻 一 些 , 但 是 同样 造 
成 了 应 用 程序 响应 更 加 缓慢 。 此 时 就 要 综合 来 决策 , 查看 一 下 是 否 其 他 主机 端 有 可 以 被 砍 掉 的 不 
必要 的 Queue Depth 和 IO 并 发 度 ， 如 果 有 则 砍 掉 以 减轻 存储 压力 。 如 果 这 样 处 理 之 后 仍 不 能 改 
善 ,那么 唯一 可 以 做 的 就 是 消除 存储 端 瓶颈 ， 增 加 磁盘 ,或 者 其 他 手段 ， 比 如 集群 化 、 迁 移 数据 
到 高 性 能 设备 上 ,或 者 使 用 SSD 等 。 

既然 Queue 积压 是 个 坏 现象 , Queue 中 只 有 1 个 甚至 0 个 IO 等 待 才 是 最 理想 的 状况 , 那么 
为 何不 将 Queue Depth 调 成 2 算 了 ? 这 里 要 理解 的 是 ，Queue 积压 表示 某 处 出 现 瓶 颈 。 但 是 在 系 
统 仍 有 充足 的 处 理 能 力 ， 各 处 没有 产生 瓶 贷 的 时 候 ， 存 储 系统 对 IO 的 处 理 是 很 快 的 ， 而 如 果 我 
们 将 Queue Depth 调 成 2， 那 么 会 喂 不 饱 存储 系统 。 就 像 吃饭 时 候 一 样 ， 你 俄 了 ， 想 吃 一 大 碗 米 
饭 , 但 是 只 给 你 盛 来 一 茶 碗 米饭 ， 你 吃 的 爽 么 ? 吃 完了 虽然 可 以 无 限制 再 去 盛 一 碗 再 吃 ,， 但 是 这 
样 做 效率 显然 不 如 一 下 子 盛 一 大 碗 来 得 快 。 要 将 Queue Depth 调 成 适当 的 值 是 有 必要 的 。 当 用 大 
碗 盛 饭 之 后 ， 你 一 开始 吃 得 很 快 ， 满 一 碗 立即 吃 空 一 碗 ， 但 是 后 来 你 饱 了 ， 下 饭 速 度 越 来 越 慢 ， 
此 时 碗 里 剩 饭 就 会 越 来 越 多 , 此 时 已 经 达到 瓶颈 了 。 同样 , 也 不 能 把 Queue Depth 设置 的 无 限 大 ， 
因为 你 敢 给 出 这 个 饭量 ， 证 明 你 对 IO 的 消化 能 力 很 棒 ， 那 么 客户 端 就 会 按照 这 个 饭量 来 给 你 盛 
饭 ; 但 是 你 如 果 没 那么 大 饭量 而 硬 充 胖子 的 话 ， 结 果 就 是 造成 Queue 积压 。 所 以 存储 系统 在 设 
计 的 时 候 就 会 根据 自身 处 理 能 力 和 IO 类 型 比率 等 诸多 因素 来 最 终 确定 一 个 对 外 Queue Depth。 
但 是 这 个 Queue Depth 往往 也 并 不 能 代表 真实 处 理 能 力 , 比如 对 于 小 块 连续 并 发 IO 这 种 最 佳 IO 
方式 。 这 就 相当 于 喝 稀饭 ,一 气 很 快 就 喝 完了 ， 此 时 你 不 给 他 一 个 大 碗 对 不 起 这 速度 , 但 是 如 果 
改 吃 米饭 , 那 一 时 半 会 儿 吃 不 完 ,此 时 你 如 果 还 给 他 个 大 碗 , 那 就 容易 造成 积压 。 所 以 Queue Depth 
的 确定 最 终 只 是 一 个 折 中 值 , 设计 人 性 化 的 存储 系统 可 以 让 用 户 自 行 设置 Queue Depth 以 满足 不 
同 需 要 。 

对 于 一 些 人 为 积压 的 Queue， 比 如 IO Scheduer 中 的 Queue， 某 种 意义 上 来 讲 ， 这 个 Queue 
必须 处 于 积压 状态 ， 因 为 只 有 Queue 中 存 有 一 定数 量 的 IO 之 后 ，IO 调度 算法 才 会 有 效果 。 但 
是 话 又 说 回来 ， 如 果 底层 设备 处 理 能 力 够 强大 ， 速 度 也 够 快 ， 快 到 即使 不 使 用 IO 调度 也 能 够 快 
速 吃 掉 Queue 里 的 存货 , 那么 此 时 要 IO 调度 有 何 用 呢 ? 人 为 积压 有 何 用 呢 ? 一 点 用 没有 反而 影 
响 性 能 了 。 

所 以 ， 任 何 时 刻 只 要 发 现 Queue 中 有 存货 ， 那 就 一 定 证 明 底 层 有 瓶 肛 ， 存 货 越 多 ,瓶颈 越 
大 。 这 是 铁 的 事实 。 系 统 IO 路 径 内 任意 两 个 模块 之 间 的 Queue 都 遵循 上 述 原则 , 不仅 是 主机 与 
存储 设备 之 间 的 Queue， 存 储 系统 内 部 各 个 模块 之 间 的 Queue 同样 遵守 。 

如 果 有 多 台 主 机 通过 同一 个 端口 共同 访问 一 台 存 储 设备 ,那么 此 时 需要 尽量 确保 每 台 主机 的 
适配器 的 Queue Depth 都 相等 ,并 且 确 保 它们 之 和 等 于 这 台 存 储 设备 上 一 个 端口 的 Queue Depth。 
这 样 做 ,第 一 可 以 保证 存储 系统 的 Queue 不 会 发 生 Queue Full 的 情况 ， 第 二 可 以 保证 每 台 主 机 
充 入 存储 设备 Queue 中 的 IO 数量 大 致 相同 ,不 会 饿 死 任何 一 台 主 机 。 当 然 也 可 以 为 不 同 的 主机 
设 定 不 同 的 Queue Depth 以 便 实 现 性 能 分 级 , 但 是 同样 要 确保 所 有 主机 客户 端的 Queue Depth 之 
和 不 要 超过 存储 系统 上 这 个 端口 的 Queue Depth。 

在 某 些 OS 下 可 以 针对 每 个 LUN 设置 各 自 的 Queue Depth， 当 然 ， 这 样 做 一 定 需要 对 应 的 
存储 控制 器 驱动 程序 支持 。 比 如 在 AIX 系统 下 ， 就 可 以 设置 每 个 hdisk 的 Queue Depth， 只 要 保 
证 系统 中 所 有 hdisk 的 Queue Depth 之 和 不 大 于 对 应 的 底层 控制 器 驱动 提供 的 总 Queue Depth 即 
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可 ， 这 样 就 可 以 针对 不 同 hdisk 给 予 不 同 的 优先 级 。 
8. Queue Length 与 IOPS 的 关系 


一 块 15KB RPM 的 FC 或 者 SAS 磁盘 ， 其 随机 读 IOPS 大 概 在 土 400 左右 ， 随 机 写 IOPS 要 
低 于 读 ， 有 些 磁 盘 写 与 读 相 差 不 太 大 ， 有 些 磁盘 则 相差 较 大 ， 大 概 20%。 但 是 达到 这 个 峰值 ， 是 
需要 做 出 一 定 妥 协 的 ， 这 个 妥协 就 是 IO 延迟 。 但 凡 要 让 磁盘 达到 它 最 大 的 IOPS ( 指 随机 IOPS 
而 不 是 连续 IOPS， 单 块 磁盘 连续 读 IOPS 在 IO Size 很 小 时 可 达 上 千 ) ， 就 一 定 要 将 磁盘 的 队列 
充满 到 一 定 程度 。 为 何 要 这 样 呢 ?因为 磁盘 都 是 支持 一 定 的 Queue 算法 的 ， 比 如 电梯 算法 ， 它 
会 将 充 入 Queue 中 的 所 有 IO 进行 重 排 ， 以 便 磁 头 辟 摆 向 同一 个 方向 时 可 以 撒 带 执 行 更 多 的 IO 
操作 。 而 如 果 你 只 向 磁盘 Queue 中 充 入 了 1 个 IO 请 求 ， 执 行 完 之 后 再 充 入 1 个 IO， 那 么 此 时 
执行 效率 是 最 低 的 ， 但 是 相对 于 每 个 IO 来 讲 ， 这 个 IO 本 身 被 执行 的 速度 将 会 是 最 快 的 ， 也 就 
是 延迟 最 低 ， 因 为 此 时 磁头 璧 只 服务 于 这 一 个 IO 请 求 ; 相反 ， 一 次 性 向 Queue 中 充 入 多 个 IO 
请 求 ， 那 么 磁头 臂 就 会 在 一 次 摆动 过 程 中 服务 于 多 个 IO 请 求 ， 而 这 些 IO 在 微观 上 也 是 一 个 一 
个 被 执行 的 ， 只 不 过 执行 效率 提高 了 很 多 。 但 是 同时 ， 每 个 IO 的 响应 时 间 (延迟 ) ， 也 就 是 磁 
盘 处 理 每 个 IO 所 花费 的 时 间 也 就 提升 了 ( 为 何 ? 见 下 文 ), 但 是 此 时 磁盘 所 表现 出 来 的 整体 IOPS 
也 提升 了 。 秆 一 看 好 像 有 些 矛 盾 ， 为 何 延 迟 升 高 了 ， 也 就 是 处 理 每 个 IO 所 耗费 的 时 间 提升 了 ， 
而 IOPS 却 不 降 反 升 呢 ? 我 们 就 来 分 析 一 下 这 个 问题 。 建 议 读 者 在 这 里 先 停 下 自己 思考 ， 然 后 将 
自己 的 思考 与 作者 稍 后 给 出 的 分 析 做 比 对 ， 这 样 可 以 加 深 印 象 。 

如 表 19-3 所 示 为 某 块 15KB RPM 的 3Gb/s SAS 硬盘 的 测试 结果 。 测 试 使 用 单 台 PC 
Server+SAS 卡 进行 ， 使 用 IOmeter 作为 测试 工具 测 裸 盘 ， 在 IOmeter 界面 中 设置 不 同 的 
“Outstanding IO” 来 调查 不 同 Queue Length 对 磁盘 IOPS 的 影响 ,IO 类 型 为 4KB 块 的 100% 随 机 
读 。 表 中 ART 表示 Average Response Time，MRT 表示 Maximum Reponse Time。 


表 19-3 SAS 硬盘 Queue Length 与 IOPS 


当 Queue Length (下 用 QL 代替 ) 为 1 时 , 属于 典型 的 同步 IO 调用 模式 场景 。 此 时 系统 IO 
路 径 中 的 所 有 Queue， 包 括 IOmeter 应 用 程序 Queue、 块 设备 驱动 Queue、HBA 适 配 卡 Queue、 
磁盘 Queue 中 任何 时 刻 只 有 这 一 个 IO， 并且 这 个 IO 只 出 现在 这 一 串 Queue 中 的 一 个 之 中 。 

整 条 路 径 只 服务 于 一 个 IO , 此 时 IOmeter 所 得 出 的 ART 也 就 约 等 于 底层 磁盘 的 平均 寻 道 时 
间 ， 本 例 中 也 就 是 5.6ms。 

当 QL 增加 到 2 的 时 候 , 系统 路 径 中 的 所 有 Queue 都 不 可 能 产生 积压 ( Queue Depth 一 般 为 
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8 以 上 ) ， 一 定 会 “ 充 入 便 下 发 ”， 那 么 此 时 这 两 个 IO 一 定 是 被 HBA 直接 下 发 到 磁盘 Queue 
中 等 待 执行 。 

磁盘 会 使 用 NCQ、TCQ 等 算法 ,结合 当前 磁头 璧 的 位 置 , 对 Queue 中 的 IO 做 电梯 算法 来 
决定 先 执行 哪个 后 执行 哪个 , 那么 后 执行 的 就 必须 等 待 先 执行 的 执行 完毕 之 后 才能 被 执行 , 也 就 
是 说 IO 会 在 磁盘 Queue 中 发 生 等 待 。 这 样 ， 理 论 上 讲 ， 两 个 IO 执行 完 所 耗费 的 时 间 应 该 等 于 
执行 1 个 IO 耗费 的 平均 时 间 乘 以 2 即 可 ? 

不 是 的 ， 平 均 寻 道 时 间 是 使 用 一 个 一 个 的 随机 IO 下 发 到 磁盘 而 统计 出 来 的 ， 多 个 IO 经 过 
电梯 算法 排队 之 后 , 会 收 到 一 定 的 优化 效果 。 比如 可 能 向 相同 方向 摆动 两 次 就 可 以 执行 完 这 两 个 
IO， 而 如 果 将 这 两 个 IO 分 两 次 下 发 ， 那 么 磁头 可 能 必须 经 过 向 两 个 方向 的 摆动 寻 道 才 可 以 完成 
这 两 个 IO。 所 以 本 例 中 ， 当 QL=2 时 ，ART 小 于 5.6x2=11.2ms。 依 此 类 推 ， 当 QL 越 来 越 长 之 
后 ， 这 种 效果 所 获得 的 收益 就 越 强 。 

有 人 会 产生 疑问 : 1000ms/ART ( ms ) =IOPS， 这 个 等 式 应 当成 立 ， 为 何 按照 本 例 中 的 结果 
之 后 ,除了 QL=1 时 成 立 ， 而 其 他 QL 值 对 应 的 数据 被 代入 后 却 都 不 成 立 呢 ? 比如 QL=2 时 ， 
1000/9.87=101.3， 而 实际 却 是 202.62， 正 好 是 前 者 的 2 倍 ， 而 QL=4 时 所 得 到 的 结果 也 是 这 样 ， 
实际 值 为 理论 值 的 4 倍 ， 可 以 发 现 IOPS =[1000ms/ART(ms)]xQL 这 个 规律 ， 而 如 果 将 单位 ms 
变 为 标准 单位 s， 那 么 这 个 公式 就 变 为 : IOPS=QL/ART。 读 者 看 到 这 个 公式 是 否 眼 熟 ?” 对 了 ， 
它 就 是 本 书 第 3 章 中 所 给 出 的 公式 。 

这 个 公式 本 身 是 正确 的 ， 那 么 问题 出 在 哪里 ? 还 得 从 IOPS=QL/ART 这 个 公式 的 本 质 入 手 。 
它 的 含义 是 : 每 秒 IO 操作 数 等 于 QL 除 以 平均 响应 时 间 ， 而 按照 常理 ， 每 秒 IO 操作 数 应 当 等 于 
1 除 以 每 个 IO 的 平均 响应 时 间 。 前 者 是 实测 所 得 ， 后 者 是 理论 所 得 ， 似 乎 都 没有 错 。 错 在 哪 ? 关 
键 就 在 “平均 响应 时 间 ” 上 ，ART 到 底 是 指 每 个 IO 被 执行 完成 所 耗费 的 时 间 , 还 是 整个 QL 队列 
的 所 有 IO 均 被 执行 完 所 耗费 的 时 间 。 如 果 是 前 者 ， 那 么 公式 IOPS=1/ART 显然 是 成 立 的 ; 而 如 
果 是 后 者 ,那么 公式 IOPS=QL/ART 就 是 成 立 的 。 那 么 也 就 是 说 表 19-3 中 的 ART 是 指 队列 中 所 
有 IO 均 被 执行 完成 所 耗费 的 平均 ( 磁盘 可 以 批量 返回 一 大 批 IO 结果 ， 甚 至 整 Queue 批量 执行 和 
返回 ， 详 见 下 面 一 节 ) 时 间 ， 既 然 这 样 ，IOPS 也 就 当然 要 用 QL 而 不 是 1 来 除 以 这 个 ART 了 。 

15KB RPM SAS 盘 的 最 高 IOPS 为 400+ 左 右 , 那么 我 们 用 1000/400=2.5ms, 也 就 是 说 , NCQ、 
TCQ 等 队列 优化 算法 最 终 可 以 使 得 单个 IO 的 执行 时 间 从 本 例 中 平均 的 5.6ms 降低 到 2.5ms， 提 升 
了 约 50%。 但 是 却 增加 了 IO 在 队列 里 的 等 待 时 间 ， 等 待 多 长 时 间 可 以 参考 上 一 节 中 给 出 的 计算 方 
法 : IO 延迟 =IO 等 待 时 间 +IO 执行 时 间 。 所 以 ，Queue 的 存在 导致 磁盘 可 以 在 单位 时 间 内 执行 更 
多 的 IO， 也 就 是 IO 执行 时 间 确 实 降低 了 ， 但 是 所 有 IO 的 延迟 时 间 却 因为 IO 等 待 时间 的 加 入 而 
变 得 很 高 ， 每 个 IO 的 等 待 时 间 等 于 排 在 其 前 面 的 所 有 IO 的 执行 时 间 的 累加 ， 可 想 而 知 。 

Queue 的 出 现 ， 会 将 每 个 IO 的 执行 时 间 降 低 ， 低 于 平均 寻 道 时间 ( 本 例 中 的 5.6ms ) ,但 
是 却 有 一 个 副作用 ， 也 就 是 造成 队列 中 IO 等 待 的 时 间 加 长 。 因 为 毕竟 IO 到 了 磁头 臂 这 一 层 一 
定 是 一 个 一 个 被 执行 的 ， 一 次 性 充 入 Queue 中 多 个 IO， 只 是 为 了 在 一 段 时 间 内 能 够 让 磁盘 执行 
更 多 的 IO ， 但 是 所 付出 的 代价 便 是 这 些 IO 需要 预先 排队 等 待 ， 增 加 了 IO 总 响应 时 间 ， 也 就 是 
IO 延迟 。 

那么 这 样 做 究竟 是 不 是 得 不 偿 失 呢 ? 谁 获 益 了 ? 谁 损失 了 ? 可 以 这 么 说 ,在 不 同 层面 看 这 个 
问题 会 有 不 同 的 结论 。 先 从 单 块 磁盘 层面 来 看 ，Queue 让 单 块 磁盘 单位 时 间 内 可 以 执行 的 IO 数 
量 增 加 了 ， 这 当然 是 好 事情 ， 获 益 于 电梯 算法 ， 当 然 是 提高 了 效率 ， 使 得 单 盘 IOPS 从 QL=1 时 
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的 178 提高 到 了 QL=32 时 的 389， 同 时 单个 IO 的 执行 时 间 也 降低 了 。 所 以 ，Queue 对 于 磁盘 来 
讲 是 绝对 的 全 面 获 益 。 再 看 看 IO 适配器 一 层 ， 比如 SAS 适配器 驱动 程序 处 ， 这 一 处 也 维护 着 多 
个 Queue， 包 括 接收 、 发 送 、 已 完成 、 未 完成 等 Queue， 上 层 下 发 的 IO 先 充 入 这 一 处 Queue， 
然后 驱动 程序 再 将 Queue 中 的 IO 通过 SAS 网 络 传送 给 对 应 的 磁盘 Queue 中 ， 此 时 SAS 适配器 
驱动 需要 等 待 这些 IO 完成 ， 而 这 个 等 待 时 间 ， 也 就 是 IO 延迟 ， 会 随 着 QL 的 提高 而 累加 提高 ， 
所 以 ，Queue 的 出 现 对 于 SAS 适配器 来 讲 有 所 损失 ;但 是 也 有 受益 ， 即 整体 IOPS 增加 。 同 样 ， 
系统 IO 路 径 中 再 往 上 ， 包 括 块 设备 驱动 、 文 件 系统 、 内 核 其 他 IO 模块 ， 一 直到 最 终 的 应 用 程 
序 层 , 皆 表 现 为 IO 延迟 上 的 损失 以 及 IOPS 上 的 收益 。 应 用 层 所 感知 到 的 IO 延迟 是 其 下 层 所 有 
延迟 的 累加 。 只 有 磁盘 是 唯一 一 个 全 面 获 益 的 角色 。 

但 是 ,刚才 说 过 ， 在 不 同 层面 看 问题 会 有 不 同 的 结论 。 如 果 从 整个 系统 全 局 地 来 看 ，QL 的 
提高 会 致使 整体 系统 的 IOPS 提高 ， 从 这 一 点 上 来 看 确实 是 整体 受益 的 。 那 么 对 于 应 用 程序 层 来 
讲 ， 它 可 以 选择 一 个 接 一 个 地 发 送 IO， 也 可 以 选择 批量 异步 地 发 送 IO。 如 果 业 务 层 决定 应 用 程 
序 就 要 一 个 接 一 个 地 发 送 ， 那 么 此 时 情况 是 从 源头 就 没有 那么 多 的 IO 量 ; 而 如 果 业 务 层 决定 应 
用 层 需 要 很 高 的 异步 IO 发 送 量 ， 那 么 此 时 应 用 程序 为 何不 一 股 脑 地 将 IO 下 发 下 去 呢 ? 积压 到 
硬盘 处 可 以 提高 IOPS， 但 是 如 果 积 压 在 应 用 程序 处 ， 不 但 提高 不 了 IOPS， 反 而 IO 延迟 一 样 也 
还 会 很 高 ， 积 压 在 哪里 不 是 积压 ? 最 终 还 是 要 看 应 用 层 所 感知 到 的 IO 延迟 。 

综 上 所 述 ， 为 了 保证 整体 较 高 的 IOPS， 底 层 的 Queue 最 好 处 于 积压 状态 。 如 果 不 让 IO 等 
待 , 不 排队 ,那么 整体 系统 也 就 无 法 达到 高 IOPS， 此 时 虽然 单个 IO 的 延迟 是 最 低 的 , 但 那 是 通 
过 牺 性 整体 IOPS 所 换 来 的 ， 是 通过 在 应 用 层 积 压 IO 而 不 是 磁盘 层 积 压 而 换 来 的 。IO 迟早 要 被 
发 送 , 早 发 送 , 等 待 长 一 些 以 获得 较 高 IOPS, 还 是 现 用 现 发 送 ， 以 获得 单个 IO 的 低 延 迟 但 是 整 
体 较 低 的 IOPS， 这 个 就 要 看 实际 情况 到 底 需 要 哪 种 策略 了 。 

羊毛 出 在 羊 身上 ， 有 时 候 可 能 会 人 为 地 降低 Queue Depth 以 限制 QL 以 保证 每 个 IO 的 延迟 
不 要 太 高 。 这 仿佛 是 一 个 博弈 过 程 , 即 存储 层 与 应 用 层 的 博弈 , 存储 层 通过 限制 QD 来 获取 比较 
好 看 的 IO 性 能 指标 ， 但 是 其 本 质 其 实 是 通过 牺牲 应 用 层 IOPS 来 换取 的 ， 也 就 是 让 应 用 降低 IO 
下 发 速度 。 实 际 上 , 现实 中 多 种 应 用 系统 , 其 产生 的 IO 属性 大 部 分 为 同步 IO, 一 方面 是 受制 于 
业务 层 需求 ， 另 一 方面 也 受制 于 异步 IO 开发 时 候 的 难度 以 及 稳定 性 ， 除 非 对 存储 性 能 有 人 为 的 
压榨 目的 考虑 ,开发 人 员 不 太 愿 意 使 用 异步 IO 模式 。 这 样 ， 底 层 的 Queue 被 充满 到 一 定 程度 的 
几率 就 会 比较 低 ， 那 么 整体 IOPS 也 不 会 很 高 。 而 这 种 情况 是 很 多 用 户 所 迷惑 的 ， 当 初 购买 时 使 
用 测试 工具 测试 时 表现 出 来 很 高 的 性 能 , 但 是 为 何 实际 使 用 中 却 性 能 低下 ? 所 以 , 看 完了 上 面 的 
文字 ， 你 或 许 应 该 知道 性 能 分 析 应 当 首 先 从 哪里 入 手 了 。 

那么 是 不 是 QD 设置 的 越 高 ，IOPS 就 会 线性 提升 呢 ? 显 然 不 会 , 没有 这 么 便宜 的 事情 。QL 
越 长 ，NCQ、TCQ 等 算法 获得 的 效率 提升 比率 就 越 大 ,但 是 这 些 算法 是 有 优化 极限 的 ， 而且 上 
层 下 发 的 每 批 IO 的 优化 程度 也 是 不 一 样 的 ， 另 外 再 加 上 芯片 处 理 能 力 、 接 口 带宽 等 潜在 瓶颈 点 
的 限制 ,所 以 当 单 盘 IOPS 达到 项 峰值 以 后 ， 再 增加 Queue Length 就 没有 效果 了 , 反而 此 时 延迟 
会 大 幅 增加 。 每 个 设备 都 会 提供 一 个 最 适合 的 Queue Depth 值 给 它 的 上 下 游 。 

大 部 分 HBA 卡 处 的 Queue 一 般 被 限制 为 16， 以 在 IOPS 与 IO 延迟 之 间 保 持平 衡 。 有 些 厂 
商 可 以 让 用 户 调节 RD， 有些 则 不 可 以 。 设 置 QD 有 一 定 的 讲究 ，IO 上 游 模块 的 靠 下 游 位 置 的 
QD 要 等 于 其 可 并 发 连接 的 下 游 模块 的 靠 上 游 位 置 的 QD 之 和 ， 如 果 某 IO 模块 下 游 只 连接 了 一 
个 模块 , 那么 这 两 个 模块 耦合 处 的 QD 应 相等 。 不 直接 耦合 的 两 个 IO 模块 之 间 的 QD 没有 关联 。 


839 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


840 


系统 路 径 上 的 同一 个 IO 模块 上 下 游 位 置 上 的 QD 要 保持 相同 ， 但 是 有 一 点 例外 ， 比 如 ， 如 果 这 
个 模块 会 将 IO 进行 合并 、 拆 分 等 处 理 的 话 , 那么 上 下 游 QD 要 按照 IO 处 理 之 后 产生 的 IO 数量 
翻 倍 或 者 缩 倍 的 倍率 来 进行 匹配 。 

第 3 章 中 曾经 提 到 过 ， 对 于 一 个 具有 强 消化 能 力 的 存储 系统 ,一 次 多 个 IO 与 一 次 一 个 IO 
相 比 可 能 一 开始 表现 出 的 IO 延迟 相差 不 多 , 怎么 这 里 两 个 IO 时 候 就 已 经 与 一 个 IO 时 候 相 差 较 
大 了 ? 因为 这 是 单 块 磁盘 ， 不 是 大 存储 系统 ， 消 化 能 力 当然 有 区 别 ， 大 型 存储 系统 的 巨 量 RAM 
缓存 对 单 块 磁盘 的 劣势 有 较 好 的 屏蔽 和 优化 作用 。 

IO Size 与 IO 延迟 的 关系 : IO Size 越 大 ， 从 盘 片 读 写 以 及 传输 每 个 10 所 需要 的 时 间 就 

越 长 。 所 以 ，Write Merge 操作 其 实 是 会 增加 每 个 10 的 延迟 的 ， 但 是 它 提高 了 效率 ， 提 

高 了 系统 吞吐 量 。 一 些 网 络 传输 技术 ， 比 如 Infiniband 之 类 ， 其 物理 链 路 编码 速率 可 能 

与 其 他 的 传输 技术 相同 ， 但 是 延迟 却 比 其 他 网 络 低 。 这 里 的 意思 就 是 说 Infiniband 的 传 

输 单元 小 ， 对 于 一 些小 的 IO 操作 能 够 实现 更 高 的 响应 速度 ， 适 合 于 高 实时 性 的 传输 ， 

但 是 其 整体 吞吐 量 就 不 一 定 比 其 他 传输 技术 高 了 。 


9. SATA 协议 中 的 NCQ 


关于 NCQ 的 首次 介绍 出 现在 本 书 的 第 3 章 中 ， 再 结合 之 前 刚刚 介绍 的 Linux 下 的 IO 
Scheduler 原理 ， 想 必 大 家 已 经 对 队列 ( 不 仅仅 是 NCQ ) 中 的 电梯 和 其 他 优化 算法 有 了 一 个 大 概 
了 解 了 。 在 这 里 再 对 NCQ 深入 一 步 。 经 过 刚才 的 介绍 大 家 已 经 了 解 ， 磁 盘 可 以 将 队列 中 的 IO 
进行 优化 重 排 然后 依次 执行 ,但 是 执行 完毕 每 个 IO 之 后 ， 并 不 一 定 要 立即 返回 这 个 IO 的 结果 。 
按照 常理 应 该 是 立即 返回 ,但 是 在 Queue 开启 之 后 ， 磁 盘 往 往 要 积攒 一 定量 的 执行 结果 才 向 主 
机 端 磁盘 控制 器 ( FC 卡 、SAS 卡 、SATA 控制 器 等 ) 返回 ， 这 样 做 是 为 了 降低 频繁 中 断 对 控制 器 
的 影响 以 及 对 链 路 带宽 的 浪费 。 磁 盘 可 以 将 多 个 IO 执行 的 结果 批量 返回 给 控制 器 ， 每 一 批 传输 
只 需要 一 个 中 断 即 可 ， 这 个 过 程 称 为 中 断 聚 合 。 

再 仔细 考虑 一 下 , 主机 端 控制 器 将 IO 一 个 一 个 地 充 入 磁盘 的 Queue 中 ( 每 个 需要 被 Queue 
化 的 命令 都 会 被 控制 器 设置 一 个 Tag 值 来 表征 这 个 命令 ，SATA 队列 深度 最 大 为 32， 所 以 Tag 
的 值 可 以 是 0~31 ) ,但 是 磁盘 却 可 以 将 这 些 IO 打 乱 顺序 来 执行 , 而 且 也 不 按照 IO 发 送 过 来 的 
顺序 将 结果 ( ACK 或 者 数据 ) 返回 给 控制 器 ， 如 果 没 有 一 种 特殊 的 机 制 来 处 理 的 话 ， 主 机 控制 
器 将 不 会 分 辨 出 磁盘 返回 的 结果 对 应 的 已 经 完成 的 IO 到 底 是 哪些 。 解 决 这 个 问题 必须 由 磁盘 主 
动 ， 因 为 只 有 磁盘 知道 实际 的 IO 执行 顺序 。 在 NCQ 中 ， 这 种 机 制 称 为 First Party DMA， 简 称 
FPDMA， 之 所 以 称 为 “First Party” 是 因为 DMA 地 址 等 是 由 磁盘 来 主导 的 。 磁 盘 在 每 执行 一 个 
IO 之 前 , 会 发 送 一 个 FIS ( Frame Information Structure ) 给 主机 端 磁盘 控制 器 ，FIS 中 包含 了 当前 
所 执行 的 IO 的 Tag 值 。 主 机 端 控 制 器 收 到 对 应 的 FIS 之 后 ， 便 知道 磁盘 当前 在 执行 的 IO 是 哪 
一 个 了 (因为 是 控制 器 之 前 将 IO 打上 Tag 并 充 入 到 磁盘 Queue 中 的 ) ， 那 么 控制 器 此 时 就 可 以 
将 这 个 IO 对 应 的 数据 从 内 存 对 应 的 地 址 传输 到 磁盘 ( 写 过程 ) ， 或 者 将 数据 传输 给 控制 器 从 而 
控制 器 将 这 块 返回 的 数据 放置 到 对 应 的 内 存 地 址 ( 读 过 程 ) 。 

另外 ，FPDMA 还 可 以 允许 磁盘 先 传送 某 个 IO 的 一 部 分 数据 ， 然 后 之 间 穿 差 传输 一 部 分 另 
外 某 IO 的 数据 ， 再 将 之 前 的 IO 剩余 数据 传 完 ， 为 何 会 发 生 这 种 场景 ? 是 因为 旋转 等 待 时 间 ， 
比如 有 两 个 IO，IO1 和 IO2， 当 执行 IO1 时 ， 磁 头 寻 道 至 IO1 所 在 的 磁道 时 ,刚好 落 入 IO2 所 
在 的 领地 , 那么 此 时 磁盘 不 会 浪费 这 个 时 阶 , 先 撒 带 着 读 出 或 者 写 入 IO2 的 内 容 , 然后 等 待 盘 片 
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旋转 至 IO1 处 时 ， 再 读 出 或 者 写 入 IO1 的 内 容 。 而 之 前 IO2 的 内 容 可 能 没有 读 或 者 写 全 ( 比如 
刚才 寻 道 时 磁头 并 没有 落 到 IO2 的 起 点 地 址 对 应 扇 区 的 起 始 字 节 ), 那么 之 后 磁头 继续 去 读 IO2， 
此 时 如 果 有 IO3 可 以 获得 优先 “ 撒 带 ” 式 的 优化 ,就 重复 刚才 的 过 程 。 如 此 复杂 的 机 制 ,全 部 都 
是 为 了 让 底层 时 隙 被 充分 利用 。 


10. 面向 SSD 的 Queue 优化 


对 于 NAND Flash 颗粒 ， 单 个 逻辑 颗粒 ( 一 块 物理 颗粒 中 可 以 有 多 个 逻辑 独立 的 部 分 ， 暂 称 
逻辑 颗粒 吧 ) 所 能 达到 的 读 写 速度 或 者 IO 是 很 低 的 ， 比 如 20MBA 到 30MBAs 的 样子 。 那 么 为 
什么 SSD 可 以 达到 将 近 280MB/s 的 读 速度 以 及 30000 ~ 50000 左右 的 IOPS 呢 ? 除了 SSD 内 部 有 
较 大 的 RAM 缓存 之 外 ， 还 有 一 个 根本 原因 就 是 SSD 控制 器 后 端 挂 接 的 Flash 颗粒 都 是 并 行 执行 
IO 的 ,而 不 是 像 机 械 硬 盘 那 样 由 一 个 磁头 来 串 行 执行 IO。 如 图 19-74 所 示 为 一 个 SSD 的 典型 内 
部 逻辑 框图 。8 片 Flash 芯片 颗粒 ， 每 两 个 挂 在 一 个 通道 上 ， 每 个 通道 为 40MHz 速率 的 8bit 位 宽 
的 通道 ， 也 就 是 说 每 个 通道 的 速率 为 40MB/s。4 个 通道 共同 连接 到 Flash 控制 器 ASIC 芯片 上 。 


19-74 SSD 内 部 典型 框图 

每 个 Flash 芯片 其 实 还 可 以 划分 为 更 小 的 单元 , 也 即 是 Die 和 Plane, 每 个 Die 可 以 包含 多 个 
Plane， 一 般 为 两 个 。 每 个 Plane 都 有 各 自 的 Page 寄存 器 用 来 存储 读 出 或 者 待 写 入 的 Page 数据 ， 
所 以 每 个 Plane 可 以 同时 服务 于 一 个 IO。 如 果 每 个 Flash 颗粒 有 两 个 Die， 那 么 每 片 就 可 以 同时 
服务 于 4 个 IO, 也 就 是 并 发 4 个 IO, 那么 8 片 Flash 就 可 以 并 发 32 个 IO, 也 就 是 每 个 通道 可 以 
并 行 各 下 发 4 个 IO 到 其 后 端 下 挂 的 每 片 Flash 忌 片 来 等 待 执行 。 这 里 可 能 会 产生 疑问 , 后 端 通道 
只 有 8b 宽 ， 这 么 窄 的 通道 ,每 个 IO 一 定 是 串 行 在 通道 中 传输 的 ， 何 谈 “ 并 行 ”? 这 个 问题 与 
FCAL Loop 中 如 何 实现 并 发 IO 的 本 质 是 一 样 的 。 可 以 参考 本 书 附录 中 的 Q&A 相关 部 分 得 到 答 
案 ， 即 目标 存储 介质 执行 IO 是 需要 一 定时 间 的 ， 对 于 机 械 硬盘 ， 这 个 时 间 间 隙 (时 阶 ) 表现 为 
寻 道 + 旋转 延迟 。 而 控制 器 利用 这 个 时 隙 , 将 多 个 IO 下 发 到 多 个 目标 上 由 多 个 目标 并 行 执行 (各 
自 寻 道 ， 这 个 可 以 微观 并 行 ) ， 这 就 是 并 发 ， 虽 然 在 传输 时 一 定 是 串 行 的 ， 但 是 执行 时 却 是 并 行 
的 。 那 么 对 于 Flash 芯片 ， 由 于 没有 寻 道 操作 ， 难 道 它 也 会 产生 时 阶 让 控制 器 “有 机 可 乘 ”， 然 
后 分 派 多 个 IO 下 去 么 ? 一 样 有 ，Flash 芯片 执行 IO 时 有 一 个 潜伏 期 ， 不 管 是 读 还 是 写 ， 写 需要 
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的 潜伏 期 比 读 更 大 。 就 是 利用 这 个 潜伏 期 ,使 得 控制 器 有 充足 的 时 间 可 以 通过 串 行 通道 串 行 地 下 
发 多 个 IO 给 后 挂 的 每 个 Flash 芯片 , 每 个 Flash 芯片 并 行 地 执行 IO, 然后 串 行 地 将 结果 返回 给 控 
制 器 。 

图 19-74 中 所 示 的 CE， 即 Chip Enable， 中 文 叫 “ 片 选 ”, 是 用 来 让 控制 器 选择 IO 目标 的 。 
每 个 Die 对 应 一 个 片 选 地 址 ， 控 制 器 通过 片 选 来 定位 到 每 个 Die 从 而 下 发 IO ( 可 针对 一 个 Die 
中 的 多 个 Plane 并 行 下 发 IO ) 。 
随 着 集成 电路 技术 不 断 发 展 ，SSD 的 规格 越 来 越 高 , 片 选 的 密度 越 来 越 高 。 目 前 最 高 的 密度 
是 每 个 Flash 芯片 包含 4 个 CE， 每 片 2.5 英寸 的 SSD， 其 电路 板 正 反面 每 面 焊接 8 片 Hash， 共 
16 片 Flash 就 可 以 有 64 个 片 选 ， 每 个 片 选 可 以 定 址 一 个 Die， 每 个 Die 如 果 有 两 个 Pane， 那 么 
就 可 以 并 发 128 个 IO。 这 一 点 是 机 械 硬 盘 想 都 不 敢 想 的 (机械 硬 盘 虽 然 有 多 个 磁头 ， 但 是 同一 
时 刻 只 能 有 一 个 磁头 在 读 写 ， 只 能 并 发 一 个 IO， 或 者 说 不 能 并 发 IO ) 。 将 来 可 能 出 现 能 并 发 更 
多 IO 的 更 高 规格 。 

能 并 发 多 少 IO ， 就 意味 着 其 前 端的 Queue Depth 至 少 要 有 多 深 。 并 发 128 个 IO, 那么 QD 
至 少 要 有 128 才能 满足 胃口 。 而 SATA 协议 标准 中 , NCQ 最 大 的 QD 不 过 32 而 已 , 已 经 无 法 满 
是 SSD 日 益 增 加 的 胃口 。 对 于 此 , 不 少 SSD 正 转 为 使 用 SAS 接口 , 因为 SCSI 协议 标准 中 的 TCQ 
最 大 深度 为 256。 不 仅 如 此 ， 主 机 SAS、SATA 控制 器 也 要 跟 上 这 一 变化 ， 需 要 从 Firmware 和 
Driver 两 个 层面 进行 Queue 优化 操作 。 

如 图 19-75 所 示 为 刚才 那 款 SSD 的 测试 结果 ，100% 的 4KB 随机 读 ，thread 为 线程 数 ， 每 个 
线程 产生 一 个 同步 IO, 所 以 整体 产生 的 并 发 IO 请 求 等 于 线程 数 , 也 等 价 于 队列 深度 。 可 以 看 到 
1 个 IO 的 ART 为 0.2ms, 一 直到 16 个 并 发 IO 的 ART 为 0.6ms， 翻 了 3 倍 。 而 对 比 机 械 硬盘 的 
测试 结果 ， 有 天 壤 之 别 ， 其 原因 就 是 因为 SSD 内 部 是 并 发 IO 的 。 但 是 从 16~ 32 之 间 却 有 了 质 
的 变化 , 可 以 看 到 32 时 的 ART 相 比 16 时 翻 了 一 番 , IOPS 增加 的 比例 却 微乎其微 , 此 时 表明 这 
块 SSD 的 IOPS 已 经 达到 饱和 ， 那 么 可 以 判断 出 ， 这 个 SSD 的 最 大 并 发 IO 数 为 16， 也 就 是 有 
16 个 片 选 。 此 时 再 往 队 列 中 充 入 IO， 那 么 多 于 16 个 之 后 的 IO 只 能 等 待 ， 所 以 延迟 翻 倍 。 从 测 
试 结果 还 可 以 看 出 ，SSD 就 算 再 差劲 ， 其 平均 延迟 是 远 远 低 于 机 械 硬 盘 的 ， 而 IOPS 则 是 远 远 高 
于 机 械 硬 盘 的 。 


Random Read 4KB, Page Align 


I0Ps 一 ARTOs) 


各 
§ 
08 三 
8 
05 
048 
100| 2| 6889|26.9107| 0.2894| 0516| 00075 人 
100| 4| 8661| 33.8305| 0.4607| 0.849| 0.0286| 0 
100 引 15603| 609507| 05114| 1.574| 0.0841 
100 16| 23570| 92069| 06776| 2327| 02195 
100 32| 25183| 98 3692| 。 12694 381| 03646 


图 19-75 SSD 队列 深度 与 IOPS 曲线 
另外 ，SSD 的 并 发 IO 与 机 械 盘 组 成 的 RAID 一 样 ， 也 是 有 一 定 几 率 的 ,在 地 址 完全 平均 分 
布 的 随机 小 块 IO 的 场景 下 ， 盲 并 发 几率 达到 最 高 。SSD 一 样 会 对 充 入 Queue 中 的 批量 IO 进行 
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优化 算法 ,控制 器 会 分 析 Queue 中 的 IO , 看 看 其 中 哪个 IO 目标 地 址 正好 落 在 了 一 个 空闲 的 Flash 
颗粒 片 选 上 ， 则 立即 将 其 下 发 。 其 首要 原则 就 是 不 让 任何 片 选 空闲 ， 所 以 ，SSD 执行 IO 的 顺序 
也 是 乱 序 的 ， 因 此 需要 NCQ 的 FPDMA 来 支持 。 

至 此 ,应 用 程序 发 起 的 IO 请 求 在 内 存 中 经 历 了 文件 系统 、 卷 管理 系统 、 设 备 驱动 的 层 层 历 
练 之 后 ， 终 于 出 了 内 存 ， 被 放 到 了 IO 总 线 上 进行 传输 。 出 了 内 存 之 后 ，IO 请 求 首 先 被 送 到 了 
PCI 控制 器 然后 立即 送 上 了 PCI ( PCIE、PCIX ) 高 速 总 线 快车 道 ， 下 一 站 目的 则 是 位 于 总 线 那 
端的 HBA 适 配 卡 。 进 入 适 配 卡 的 内 存 后 ， 经 由 适 配 卡 上 处 理 器 的 调度 ， 立 即 又 被 发 送 到 了 适 配 
卡 后 端 所 连接 的 浩瀚 网 络 中 。 至 此 ， 这 个 IO 请 求 终于 跑 出 了 被 禁 钢 已 久 的 主机 ， 游 必 于 浩瀚 的 
网 络 海洋 之 中 。 殊 不 知 ， 等 待 它 的 ， 将 是 另 一 个 洞天 ! 


19.2 “理解 并 记忆 存储 端 10 路 径 架 构图 


本 节 论 述 IO 的 目的 地 ,也 就 是 存储 系统 端的 IO 路 径 模块 架构 。IO 在 起 源 地 主机 端 经 历 了 
一 系列 复杂 的 操作 之 后 ， 最 终 被 发 送 给 存储 端 处 理 。 任 何 上 层 的 以 及 任何 类 型 的 IO ， 在 离开 主 
机 端 之 后 ,都 会 以 Block IO 的 形式 发 送 给 存储 系统 处 理 ( 基于 Block 协议 的 存储 系统 ) 或 者 以 网 
络 文件 IO 的 形式 发 送 给 NAS 存储 系统 处 理 。IO 请 求 可 谓 是 方 出 龙潭 又 入 虎穴 。“ 存 储 端 ” 这 
三 个 字 有 三 种 理解 程度 : “本 地 磁盘 ”、“ 主 机 端 本 地 RAID” 和 “外 部 磁盘 阵列 ”， 其 中 前 者 
与 后 两 者 有 着 本 质 区 别 ， 后 两 者 之 问 并 没有 本 质 区 别 。 对 于 前 者 ， 从 设备 控制 器 驱动 程序 下 发 的 
IO 请 求 会 直接 被 控制 器 透 传 到 目标 设备 ; 而 对 于 后 两 者 , 驱动 程序 下 发 的 IO 请 求 被 控制 器 接收 
到 之 后 ， 控 制 器 本 身 还 需要 做 一 定 的 虚拟 化 映射 处 理 ， 最 终 发 给 目标 磁盘 设备 的 IO 请 求 在 内 容 
上 和 数量 上 都 不 一 定 与 驱动 下 发 的 IO 相同 。 

外 部 存储 系统 对 IO 的 处 理 过 程 与 主机 端 有 很 大 的 同 源 性 。 可 以 说 存储 系统 本 身 就 是 一 台 主 
机 , 软件 架构 上 与 主机 相同 ,都 是 操作 系统 + 应 用 程序 组 成 的 ， 存储 系统 的 操作 系统 ， 有 些 基于 
Linux， 有 些 基于 Windows， 有 些 基 于 UNIX， 有 些 则 基于 VxWorks 等 。 

下 面 分 别 描述 一 下 存储 系统 中 的 各 个 层次 。 


19.2.1 物理 磁盘 层 


主机 端 发 送 的 任何 数据 最 后 都 要 存储 于 物理 磁盘 中 。 

对 于 一 个 高 可 靠 性 存储 系统 来 说 ， 磁 盘 的 Cache 必须 被 设置 为 Write Through 模式 ， 因 为 物 
理 磁 盘 没 有 任何 电池 保护 措施 , 一 旦 失去 电源 , 磁盘 Cache 中 的 尚未 写 入 盘 片 的 数据 将 会 永久 丢 
失 ; 而 如 果 Cache 运行 在 Write Back 模式 下 ,就 将 造成 数据 不 一 致 情况 的 发 生 。 对 于 不 支持 永久 
Write Through 模式 的 磁盘 Cache， 只 能 靠 磁盘 控制 器 或 者 驱动 程序 来 强行 设置 每 个 IO 的 FUA 
位 来 通知 磁盘 进行 Write Through 模式 的 写 入 。 

而 对 于 磁盘 自身 的 读 Cache ,控制 器 不 会 干预 ,而 且 所 有 存储 系统 都 会 多 许 磁盘 自身 的 Cache 
对 任何 读 操作 做 缓存 ， 甚 至 还 可 以 进行 磁盘 自身 的 预 读 。 如 本 章 前 文 所 述 ，Write Through 之 后 
的 写 数据 会 一 直 留 在 磁盘 自身 Cache 中 , 作为 读 缓存 数据 而 存在 ， 这 里 需要 区 别 一 个 细节 ,， 即 缓 
存 中 的 预 读 数据 和 被 动 式 的 读数 据 ， 刚 才 说 的 这 种 Write Through 之 后 被 动 留存 在 缓存 内 的 数据 
称 为 被 动 式 读数 据 缓存 ， 而 磁盘 缓存 自身 从 盘 片 内 预 读 入 的 数据 为 主动 式 的 预 读数 据 。 

磁盘 读 缓存 对 于 小 块 连续 IO 的 效果 是 非常 显著 的 ,如 果 在 主机 端 发 起 512B 的 连续 地 址 IO， 
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则 在 存储 系统 处 即 可 以 监测 到 单 块 磁盘 本 身 接受 和 处 理 的 IOPS 甚至 可 以 达到 高 于 1000, 这 显然 
是 产生 了 Read Cache Hit 导致 。 在 综合 属性 的 IO 下， 单 块 磁盘 的 IOPS 一 般 在 200~ 400 之 间 。 

支持 NCQ 或 者 TCQ 的 磁盘 本 身 具有 Queue 机 制 ， 控 制 器 可 以 将 一 批 IO 充 入 磁盘 Queue 
中 从 而 让 磁盘 自身 来 对 Queue 中 的 IO 进行 优化 操作 。 


盘 片 大 小 与 性 能 的 关系 


前 ， 业 界 新 推出 的 存储 系统 都 已 经 推广 使 用 2.5 寸 磁盘 ，3.5 寸 磁盘 由 于 其 耗 电 量 太 大 ， 

占用 空间 大 , 已 经 不 能 满足 当今 时 代 节 能 降 耗 的 需求 了 。 目 前 2.5 寸 的 SAS 磁盘 其 容量 甚至 比 3.5 
寸 SAS 盘 还 要 大 , 目前 最 大 到 900GB。 并 非 技 术 上 3.5 寸 的 不 能 做 到 更 大 容量 , 而 是 厂家 故意 使 
然 ， 即 推广 2.5 寸 磁盘 。 那 么 盘 片 变 小 了 ， 其 性 能 是 否 会 减弱 ? 答案 是 肯定 的 。 多 种 原因 ， 首 先 
2.5 寸 磁盘 其 目前 最 大 转速 为 15krpm, 但 是 相 比 10krpm 的 2.5 寸 盘 来 讲 , 成 本 大 幅 提升 , 所 以 目 
前 投入 使 用 的 都 是 10krpm 的 规格 。 而 3.5 寸 盘 基本 上 都 使 用 15krpm 规格 的 ,转速 上 低 了 一 筹 ; 
其 次 ， 小 盘 片 其 线 速度 会 比 大 盘 片 低 ， 加 上 转速 低 ， 两 两 加 成 ， 导 致 性 能 下 降 。 但 是 我 们 知道 ， 
盘 片 越 小 , 磁头 摆动 周期 就 会 越 短 ( 并 不 是 说 磁头 摆动 的 速度 高 了 , 而 是 需要 摆动 的 距离 短 了 ) ， 
同样 的 容量 密度 下 ，2.5 寸 盘 片 比 3.5 寸 盘 片 在 平均 寻 道 时 间 上 要 低 ， 而 寻 道 时 间 恰 恰 是 影响 IO 
性 能 的 重要 指标 , 那么 是 不 是 2.5 寸 的 比 3.5 寸 的 IOPS 性 能 要 高 呢 ? 但 是 还 需要 考虑 一 点 , 现在 
的 磁盘 对 队列 的 支持 都 非常 成 部 了， 虽然 论 单个 IO 的 平均 寻 道 时 间 ，2.5 确实 比 3.5 强 ， 但 是 一 
旦 外 部 IO 被 队列 化 之 后 ， 那 么 单 IO 平均 寻 道 时 间 这 个 参数 就 会 被 强烈 的 屏蔽 和 弱化 。 因 为 在 
队列 机 制 的 介入 下 ， 磁 头 一 般 都 是 顺 着 一 个 方向 摆动 就 可 以 撒 带 执行 多 个 IO， 而 不 是 来 回 频繁 
寻 道 摆动 ， 既 然 这 样 ， 不 管 盘 片 多 大 ， 哪 怕 10 寸 的 ， 其 向 一 个 方向 持续 摆动 时 执行 IO 的 效率 ， 
就 取决 于 盘 片 旋转 时 的 线 速 度 了 ， 线 速度 越 快 ， 旋 转 延迟 时 间 越 少 ，IOPS 就 越 高 。 所 以 ,在 性 
能 上 ，2.5 寸 盘 输 给 了 3.5 寸 盘 ， 但 是 在 能 耗 上 ， 前 者 比 后 者 可 以 降低 40% 左 右 。 成 本 上 , 目前 
2.5 寸 盘 依然 高 于 3.5 寸 盘 ， 相 信 随 着 时 间 的 推移 ，2.5 寸 盘 的 成 本 会 逐渐 下 降 。 


19.2.2 ”物理 磁盘 组 织 层 


多 块 磁盘 被 插入 到 一 个 扩展 柜 中 进行 集中 供电 散热 和 监测 。 扩 展柜 都 会 为 每 个 磁盘 提供 两 个 
接口 并 支持 任何 时 刻 从 任何 接口 接收 或 者 发 送 数据 。 扩 展柜 上 的 控制 模块 的 作用 请 见 本 书 前 面 的 
章节 介绍 。 

扩展 柜 控 制 模块 本 身 可 以 说 是 一 个 戏 入 式 系统 ， 其 有 自己 的 CPU、 内 存 、Elash ROM 永久 
存储 芯片 ,软件 上 ,， 它 有 自己 的 操作 系统 ( 一般 以 Firmware 的 形式 存放 在 Flash Rom 中 ) 。 扩 展 
柜 控制 模块 掌管 着 其 上 磁盘 的 数据 传输 以 及 监测 ， 所 以 控制 模块 硬件 及 Firmware 是 否 稳定 ， 关 
系 到 整个 存储 系统 的 可 用 性 ， 有 些 控制 模块 被 设计 得 很 山寨 , 整 天 不 是 这 坏 就 是 那 坏 , 硬件 坏 完 
了 就 出 Firmware Bug， 没完 没 了 的 问题 。 控 制 模块 一 旦 发 生 问题 ， 轻 则 监测 不 到 硬盘 但 是 硬盘 数 
据 IO 正常 ， 重 则 整个 扩展 柜 的 磁盘 直接 与 机 头 断 开 ， 无 法 访问 到 。 

通常 情况 下 ， 扩 展柜 磁盘 的 数据 IO 与 监测 IO 是 分 开 的 两 条 路 径 ， 控 制 模块 上 有 一 类 关键 
芯片 ， 也 就 是 FC Loop Switch 芯片 ， 低 端 一 些 的 只 用 PBC ( Port Bypass Circuit ) 芯片 。 前 者 在 物 
理 上 是 交换 直通 架构 ， 后 者 则 是 手 拉手 环 Loop 架构 。 每 个 磁盘 都 与 这 个 芯片 连接 ， 芯 片 的 上 行 
通路 或 者 直接 与 机 头 上 的 适 配 卡 连 接 或 者 连接 到 上 行 级 联 扩展 柜 的 同样 芯片 中 ， 数 据 IO 的 直接 
控制 者 是 机 头 上 的 适 配 卡 和 它 的 驱动 程序 ，Loop Switch 芯片 只 起 一 个 物理 数据 传输 的 作用 以 及 
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FC Loop 仲裁 响应 等 作用 。 所 以 只 要 这 个 芯片 正常 运作 ,控制 模块 上 其 他 地 方 出现 问 题 的 话 ， 那 
么 至 少 可 以 保证 数据 IO 是 正常 的 ， 至 于 一 些 监测 动作 ， 比 如 磁盘 温度 的 探寻 、 各 种 传感器 数据 
探寻 以 及 与 SES 有 关 的 探寻 等 可 能 都 会 变 失效 。 但 是 一 旦 不 稳定 的 Firmware 发 生 骨 溃 导 致 整个 
控制 模块 重 房 ， 那 么 此 时 会 连 数据 IO 都 不 可 进行 ， 机 头 上 的 操作 系统 会 认为 这 种 情况 为 磁盘 丢 
失 ， 受到 影响 的 RAID Group 全 部 需要 被 Rebuild， 这 无 疑 是 一 个 巨大 的 浪费 ， 不 但 影响 了 数据 
访问 性 能 而 且 还 降低 了 磁盘 寿命 ， 更 严重 的 情况 还 会 导致 连环 灾难 ， 即 在 Rebuild 过 程 中 再 次 发 
生 丢 盘 ， 一 旦 一 个 RAID 5 组 中 丢 多 余 2 块 盘 ， 那 么 此 时 整个 RAID 组 的 数据 就 会 宣告 丢失 了 。 

总 之 , 扩展 柜 控 制 模块 的 设计 一 定 要 力求 稳定 。 其 次 在 连接 线 费 方 面 也 需要 注意 , 有 些 时 候 
因为 线 缆 问 题 而 导致 整个 柜子 无 法 访问 。 磁 盘 阵 列 后 端 连 接 所 使 用 的 线 缆 多 种 多 样 ， 有 各 种 各 样 
的 铜 缆 和 光缆 ， 虽 然 它 们 都 承载 着 FCAL 协议 。 


19.2.3 ”后 端 磁盘 控制 器 /适配器 层 


磁盘 控制 器 以 一 个 适 配 卡 的 形态 存在 于 存储 系统 机 头 当 中 , 当然 有 些 适 配器 是 集成 在 主板 之 
上 的 ， 但 它 依然 是 通过 PCIX 或 者 PCIE 总 线 与 系统 桥 芯片 连接 的 。 适 配器 的 每 个 接口 都 会 连接 
一 个 扩展 柜上 对 应 的 接口 ， 由 于 扩展 柜上 提供 了 双 Loop 接口 宛 余 ， 所 以 一 个 机 头 上 可 以 同时 使 
用 两 个 适配器 接口 来 连接 同一 串 扩展 柜 , 这 样 既 可 以 实现 路 径 宛 余 又 可 以 实现 链 路 带宽 均衡 。 当 
然 , 不 是 所 有 存储 系统 都 支持 这 样 做 的 , 扩展 柜上 的 双 接 口 往往 是 各 自 连接 不 同 的 机 头 ， 两 个 机 
头 之 间 做 匈 余 或 者 负载 均衡 。 

机 头 上 的 操作 系统 执行 与 主机 系统 类 似 的 过 程 ， 通 过 驱动 程序 ， 从 所 有 适配器 上 发 现 后 端 
FCAL 等 网 络 上 的 Target 设备 ， 每 个 Target 就 是 一 个 物理 磁盘 。 

注意 : 任何 存储 系统 绝对 不 会 使 用 磁盘 自身 的 Write Back 模式 的 缓存 ， 因 为 一 旦 掉 电 ， 

数据 不 保 。 所 以 后 端 磁盘 控制 器 要 在 初始 化 时 确认 所 有 磁盘 的 缓存 模式 ， 如 果 是 Native 

Write Through 模式 ， 那 么 控制 器 可 以 不 做 任何 担忧 ， 但 是 如 果 是 Write Back 模式 ， 那 么 

控制 器 必须 在 每 个 写 IO 指令 中 将 FUA 位 置 位 以 强迫 磁盘 进行 Write Through。 但 是 一 般 

来 讲 ， 稍 微 高 端 一 些 的 存储 系统 所 使 用 的 磁盘 Fimware 均 为 硬盘 厂商 定制 的 ， 这 些 

Firmware 会 考虑 到 这 些 的 ， 一 般 都 会 支持 Native Write Through 模式 。 但 是 对 于 一 些 低 端 

存储 系统 ， 所 使 用 的 硬盘 可 以 是 市 面 上 的 桌面 硬盘 ， 它 们 一 般 都 是 Write Back 模式 的 写 

缓存 ， 对 于 这 些 存储 系统 的 控制 器 就 需要 注意 了 。 


19.2.4 ”RAID 管理 层 


机 头 上 的 操作 系统 识别 到 了 所 有 后 端的 磁盘 ， 下 一 步 它 需要 对 所 有 这 些 磁盘 来 划分 RAID 
Group。 可 以 说 划分 RAID 组 完全 是 一 个 软件 行为 , 与 任何 硬件 无 关 。 通常 所 说 的 所 谓 “ 硬 RAID” 
都 是 极 具 误 导 性 的 说 法 。 所 谓 硬 或 者 软 ， 是 指 对 客户 端 主机 系统 来 讲 的 。 任 何不 耗费 主机 CPU 
处 理 资源 所 实现 的 功能 ， 对 于 主机 来 说 都 是 硬 , 比 如 硬 解压 卡 、 硬 RAID 卡 等 。 至 于 外 部 智能 磁 
盘 阵 列 ， 其 对 RAID 的 管理 当然 也 不 耗费 主机 端 CPU 资源 ， 所 以 也 可 以 称 为 一 个 超大 硬 RAID 
卡 了 。 

但 是 对 于 存储 系统 本 身 来 讲 , 硬 RAID 这 个 词 没有 任何 意义 。 操 作 系统 可 以 使 用 各 种 方式 
来 记录 RAID 信息 , 比如 直接 记录 在 所 有 磁盘 上 的 一 段 固定 保留 区 域 , 或 者 记录 在 存储 系统 控制 
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器 的 Hash ROM 中 ， 但 是 现代 存储 系统 都 会 选择 同时 保存 在 磁盘 周 定 区 域 中 和 Flash ROM 或 者 
任何 其 他 形式 的 永久 存储 介质 中 各 一 份 。 这 样 做 的 好 处 就 是 当 把 磁盘 拔 出 再 插入 时 ,系统 可 以 根 
据 磁盘 上 所 记录 的 信息 来 判断 这 个 磁盘 为 尚未 加 入 任何 RAID 组 的 磁盘 ， 还 是 已 经 存在 的 某 个 
RAID 组 中 的 磁盘 ， 而 不 管 这 个 磁盘 插 在 哪个 适 配 卡 接口 下 的 哪个 扩展 柜 。 

Flash 中 保存 的 那 份 则 用 来 在 系统 启动 时 与 磁盘 上 的 信息 作 比 对 看 看 是 否 一 致 ， 如 果 不 一 至 
则 会 用 某 种 方式 提示 用 户 来 选择 使 用 哪 一 份 。 这 种 功能 的 一 个 应 用 例子 就 是 , 比如 两 台 同样 型 号 
的 存储 系统 ， 某 时 刻 管理 员 想 把 系统 A 上 的 一 整个 RAID 组 迁移 到 系统 B 上 ， 那么 管理 员 需 要 
把 所 有 系统 A 上 对 应 这 个 RAID 组 的 所 有 磁盘 拔 下 来 然后 插入 系统 B 上 ， 系 统 B 的 操作 系统 此 
时 就 会 读 出 这 些 新 插入 磁盘 上 所 保存 的 信息 来 与 当前 Flash 中 保存 的 信息 做 比 对 , 发 现 Flash 中 并 
没有 这 些 记录 ， 所 以 系统 B 就 会 认为 这 是 一 个 新 的 RAID 组 ， 经 过 一 些 配置 之 后 ， 系 统 将 Flash 
中 的 信息 与 当前 信息 进行 同步 。 

系统 一 方面 可 以 让 用 户 手动 选择 用 哪些 磁盘 组 成 一 个 RAID 组 以 及 RAID 的 类 型 ， 另 一 方 

也 可 以 自动 创建 RAID 组 , 用 户 只 要 给 出 这 个 组 中 需要 包含 多 少 磁盘 , 系统 就 会 根据 最 优 条 件 
自动 创建 。 比 如 尽量 将 组 中 的 磁盘 分 布 在 不 同 的 后 端 适配器 接口 的 不 同 扩展 柜 中 ， 尽 量 平衡 。 

关于 RAID 条 带 化 编 址 。 条 带 化 其 实 有 两 个 含义 ， 第 一 是 逻辑 地 分 割 每 个 磁盘 为 多 个 
Segment， 每 个 磁盘 相同 位 置 的 Segment 组 成 一 个 横向 条 带 ， 然 后 计算 校 验 的 时 候 ， 以 条 带 为 单 
位 。 条 带 的 另 一 个 含义 ， 也 是 最 重要 的 含义 ,是 条 带 把 本 来 的 纵 线 编 址 映射 为 了 横向 编 址 ， 即 整 
个 RAID 组 逻辑 空间 对 应 的 物理 地 址 是 以 条 带 为 单位 向 下 排列 的 , 条 带 内 则 是 以 Segment 为 顺序 
自 左 向 右 的, 而 Segment 内 则 又 是 自 上 而 下 的 顺序 。 这 种 纵横 结合 编 址 的 目的 就 是 为 了 让 某 个 IO 
请 求 的 地 址 段 可 以 跨越 整个 条 带 ， 这 样 ， 每 个 IO 就 会 有 多 个 磁盘 为 它 服务 ， 提 高 速度 。 这 种 设 
计 思 想 对 于 某 些 情况 确实 可 以 提高 性 能 , 但 是 在 另外 一 些 条件 下 ,性 能 不 升 反 降 , 所 以 , 这 种 思 
想 目前 正在 被 逐渐 打破 ， 各 种 新 模式 正在 逐渐 出 现 。 

关于 存储 系统 使 用 的 XOR 芯片 。XOR 芯片 只 是 作为 一 种 外 设 与 存储 系统 机 头 硬件 的 IO 
总 线 所 连接 ， 比 如 完全 可 以 使 用 PCIE 总 线 来 连接 这 个 XOR 芯片 ， 任 何 需要 进行 XOR 的 运算 
操作 ， 系 统 都 会 将 数据 发 送 至 这 个 XOR 芯片 来 计算 ， 计 算 完 成 后 再 放 入 系统 内 存 。 由 于 XOR 
芯片 为 ASIC 设计 而 不 是 普通 CPU 设计 ,运算 方式 有 本 质 不 同 , 所 以 大 大 减轻 了 存储 系统 主 CPU 
的 压力 ， 所 以 可 以 说 XOR 芯片 为 存储 系统 的 一 种 硬 加 速 器 了 。 

RAID 组 划分 本 身 是 一 个 非常 迅速 的 过 程 ， 因 为 它 并 不 涉及 很 多 实际 数据 的 IO 操作 ， 只 是 
将 分 组 信息 数据 写 入 磁盘 同 定位 置 即 可 。 最 耗费 时 间 的 是 划分 之 后 的 RAID 组 初始 化 过 程 。 关于 
RAID 初始 化 的 细节 请 参考 本 书 前 面 的 章节 。 

最 后 ， 创 建 好 的 RAID 组 可 能 还 需要 为 其 指定 一 个 首选 控制 器 ， 即 选择 由 哪个 机 头 控 制 器 
来 负责 对 组 内 所 有 磁盘 的 数据 IO 操作 。 由 于 高 可 用 的 存储 系统 一 般 都 具有 双 控 制 器 机 头 ， 每 个 
机 头 都 连接 到 同一 串 或 者 几 串 扩展 柜 , 为 了 避免 发 生 数据 一 致 性 问题 ,同一 个 磁盘 任何 时 刻 一 般 
只 允许 由 一 个 机 头 访问 ， 所 以 机 头 一 般 会 向 对 应 的 磁盘 发 起 SCSI Reservation 操作 。 创 建 RAID 
组 之 后 ， 所 有 组 中 的 磁盘 只 能 同时 被 一 个 机 头 来 Reserve， 当 一 个 机 头发 生 故障 之 后 ， 另 一 个 机 
头 会 强行 接管 所 有 的 RAID 组 。 这 种 机 制 的 存储 控制 器 一 般 都 是 松 耦 合 的 ， 比 如 NetApp 的 FAS 
系列 存储 。 但 是 目前 几乎 所 有 双 控 存储 系统 都 允许 双 控 同时 访问 同一 块 磁盘 了 , 而 只 是 将 其 上 的 
LUN 来 分 配给 单独 一 个 控制 器 机 头 管理 ， 另 一 个 作为 元 余 。 同 一 个 磁盘 上 可 能 会 存在 多 个 LUN 
的 数据 部 分 ， 而 这 多 个 LUN 可 能 又 隶属 于 不 同 的 控制 器 管理 ， 所 以 此 时 就 需要 双 控 可 以 同时 访 
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问 同一 块 磁盘 。 

存储 系统 创建 RAID 组 的 目的 有 3 个 : 第 一 个 是 为 了 防止 物理 磁盘 损坏 导致 的 数据 丢失 ; 第 
二 个 是 为 了 提高 数据 访问 速度 ,做 对 应 的 条 带 化 , 提高 并 发 度 ; 第 三 个 是 将 底层 的 大 量 磁盘 再 分 
割 成 较 小 的 逻辑 空间 ， 也 就 是 RAID 组 , 方便 管理 。 


1. RAID 的 Write Hole 现象 及 应 对 方法 


如 图 19-76 所 示 为 Write Hole 现象 的 示意 图 。 某 时 刻 某 条 带 上 正 有 一 个 Segment (D1 ) 以 
及 相应 的 Parity Segment (了 ) 需要 更 新 ， 但 是 在 更 新 过 程 中 ， 突 然 断 电 。 此 时 磁盘 上 的 数据 状态 
可 以 是 以 下 6 种 中 的 一 种 : D1” 以 及 P” 均 被 成 功 地 更 新 到 了 磁盘 上 、 只 有 P'′ 被 更 新 、 只 有 
D1'” 被 更 新 , DI” 只 写 了 一 部 分 、P' 只 写 了 一 部 分 、 D1 以 及 P 均 只 写 了 一 部 分 。 具 体 是 哪 
一 种 ， 系 统 不 得 而 知 。 至 于 “只 写 了 一 部 分 ”是 什么 意思 呢 ? 大 家 知道 磁头 是 要 在 磁盘 上 进行 磁 
化 操作 以 写 入 数据 的 , 所 谓 部 分 写 入 就 是 指 磁头 只 磁化 了 对 应 Segment 中 的 一 部 分 肩 区 ,甚至 断 
电 前 磁头 所 位 于 的 扇 区 本 身 也 只 被 磁化 了 一 人 小段 或 者 一 大 段 ,并 没有 全 部 磁化 ,这 就 是 所 谓 的 “部 
分 写 入 ”。 


图 19-76 Write Hole 现象 示意 图 
上 述 6 种 状态 中 ， 只 有 一 种 是 需要 的 理想 状态 ， 其 他 都 为 不 一 致 状态 ， 比 率 为 15， 所 以 系 


统 突然 断 电 之 后 ,数据 便 会 有 很 大 几率 处 于 不 一 致 状态 , 系统 重启 之 后 必须 对 这 种 情况 进行 处 理 。 
断 电 之 前 未 写 入 成 功 的 数据 ， 磁 盘 不 会 返回 成 功 消息 ， 那 么 控制 器 就 会 感知 到 断 电 之 前 的 状态 。 
在 电力 恢复 之 后 , 控制 器 会 将 上 次 断 电 前 未 写 入 成 功 的 数据 再 次 覆盖 写 到 相同 的 地 址 ， 以 确保 写 
人 入 成 功 。 但 这 样 做 的 前 提 是 控制 器 中 的 数据 缓存 具有 电池 保护 , 或 者 可 以 在 断 电 之 前 将 缓存 中 的 
数据 转 存 到 永久 性 存储 介质 比如 Flash 卡 或 者 磁盘 中 存放 。 同 时 ， 系 统 需要 使 用 某 种 状态 机 来 记 
录 每 次 更 新 条 带 的 结果 ， 更 新 开始 时 将 条 带 标记 为 “no_sync”， 表 示 本 次 更 新 尚未 完成 ， 如 果 
此 时 掉 电 ， 那 么 重启 之 后 系统 可 以 感知 到 这 个 条 带 处 于 no_sync 状态 ， 则 对 其 进行 重新 写 入 ， 写 
入 之 后 将 其 标记 为 mn_sync， 即 条 带 此 时 是 一 致 的 。 每 个 条 带 的 状态 ( no_sync/in_sync ) 都 被 记录 
到 单独 的 元 数据 链 中 保存 。 


2. RAID 层 可 以 考虑 的 一 些 优化 设计 


有 时 候 ， 一 个 RAID 组 的 磁盘 上 可 能 只 承载 了 一 个 或 者 几 个 LOUN， 而 如 果 一 个 RIAD 组 中 
的 所 有 的 LUN 所 占据 的 空间 与 RAID 组 全 部 空间 相差 很 大 的 话 , 那么 当 RAID 组 中 某 盘 故障 后 
插入 新 盘 开始 重 构 的 时 候 ， 就 没有 必要 将 全 部 条 带 都 进行 重 构 ， 完 全 可 以 只 重 构 那些 被 LUN 所 
占据 的 条 带 。 当 然 ， 前 提 是 这 些 LUN 在 RAID 组 成 员 盘 上 的 位 置 都 是 固定 的 ， 而 不 是 随时 变化 
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的 。 这 样 就 需要 RAID 管理 层 与 LUN 管理 层 相 互 配 合 来 实现 这 个 目的 ， 这 样 就 会 大 大 降低 重 构 
时 间 ， 延 长 设备 寿命 。 目 前 已 经 有 一 些 产品 实现 了 这 个 功能 。 

RAID 层 在 管理 RAID 0 时 可 以 采用 更 加 灵活 的 方式 。 如 图 19-77 左 侧 所 示 ， 有 三 块 容量 各 
不 相同 的 磁盘 ， 如 果 用 它们 来 组 成 RAID 3/4/5/6 这 种 校 验 型 的 RAID ， 那 么 系统 必定 会 以 容量 
最 小 的 盘 为 准 ， 其 他 盘 容 量 比 这 大 的 部 分 将 会 被 截断 而 不 用 。 但 是 对 于 RAID 0， 无 须 校 验 ， 所 
以 也 就 不 受 这 个 限制 。 图 19-77 右 侧 所 示 的 RAID 0 布局 方式 中 ， 有 三 大 块 区域 , 被 称 为 Zone。 


磁盘 1 


磁盘 3 
磁盘 2 


图 19-77 灵活 布局 的 RAID 0 系统 
此 外 ，RAID 管理 层 还 负责 扇 区 重 定向 等 操作 ， 详 见 本 书 之 前 章节 。 


19.2.5 LUN 管理 层 


RAID 组 划分 之 后 , 操作 系统 对 待 每 个 RAID 组 就 是 一 个 逻辑 上 的 连续 地 址 的 存储 空间 , 如 
果 用 操作 系统 驱动 链 的 眼光 来 看 , 那么 每 个 RAID 组 也 都 会 有 一 个 驱动 程序 , 这 个 驱动 程序 负责 
将 RAID 组 逻辑 空间 地 址 翻译 映射 为 底层 物理 磁盘 的 物理 地 址 ， 然 后 将 对 应 的 IO 请 求 传递 给 磁 
盘 控 制 器 驱动 程序 。 

在 RAID 组 之 上 , 存储 系统 还 会 生成 另 一 层 逻 辑 层 次 , 即 LUN，LUN 也 是 存储 系统 最 终 虚 
拟 出 来 的 最 后 一 层 东 西 。LUN 会 被 直接 映射 给 客户 端 主机 使 用 ， 客 户 端 主机 在 其 自身 存储 适 配 
器 总 线 扫描 的 过 程 中 会 发 现 一 个 Target 中 的 若干 LUN。 

前 文中 提 到 过 ， 存 储 系统 会 将 每 个 RAID 组 视 作 一 个 连续 地 址 的 逻辑 存储 空间 ， 也 就 相当 
于 一 个 大 逻辑 磁盘 。 那 么 LUN 在 这 个 逻辑 空间 之 内 到 底 是 怎么 分 布 的 呢 ? 是 像 普 通 操作 系统 分 
区 一 样 , 按照 连续 的 地 址 一 段 一 段 地 来 分 割 , 还 是 可 以 像 文件 系统 一 样 , 每 个 块 可 以 分 布 在 逻辑 
空间 内 的 任何 区 域内 , 然后 用 一 个 复杂 的 数据 结构 来 将 这 些 分 散 的 块 组 合 起 来 形成 逻辑 上 连续 的 
LUN 呢 ? 这 个 问题 并 没有 严格 的 答案 ,每 个 厂商 的 实现 方法 都 不 同 。 有 些 厂商 就 是 使 用 前 者 的 
方式 ， 即 每 个 LUN 在 RAID 组 空间 内 都 是 连续 的 一 大 块 ; 而 有 些 厂商 为 了 获得 极 高 的 灵活 性 ， 
直接 采用 了 某 个 文件 系统 来 管理 LUN， 也 就 是 说 ，LUN 在 这 个 文件 系统 下 面 就 是 一 个 文件 ， 这 
个 文件 可 以 存放 在 底层 逻辑 空间 内 的 任何 区 块 中 ,可 以 连续 ,当然 也 可 以 随机 分 布 。 使 用 文件 系 
统 来 管理 LUN 的 一 个 典型 例子 就 是 NetApp 的 WAEL 文件 系统 ， 这 里 就 不 做 过 多 描述 了 。 所 以 
说 , 存储 系统 内 部 也 有 卷 管理 系统 或 者 文件 系统 , 这 两 个 模块 将 底层 逻辑 空间 再 映射 分 割 为 上 层 
的 逻辑 空间 ， 也 就 是 LUN。 

下 面 还 是 用 几 张 示意 图 来 描述 LUN 在 RAID 组 内 的 分 布 方式 吧 。 总 结 了 一 下 共有 4 种 分 布 
方式 。 虽 然 在 具体 设计 实现 的 时 候 又 会 有 细节 的 不 同 ， 但 是 总 体 的 思想 就 是 这 4 种 。 
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1. 纵向 非 条 带 化 LUN 分 布 方式 


这 种 模式 下 ， 每 个 LUN 的 逻辑 地 址 是 纵向 分 布 的 ， 即 用 完了 第 一 块 磁盘 再 用 第 二 块 磁盘 ， 
但 是 底层 的 RAID 组 还 是 以 Stripe 方式 来 做 逻辑 分 割 并 且 计算 校 验 值 的 ,所 以 这 种 方式 下 的 LUN 
与 条 带 是 垂直 的 。 这 种 LUN 分 布 方式 在 一 定 条 件 下 是 非常 合适 的 ， 具 体 见 下 文 。 如 图 19-78 左 
半 部 分 即 为 这 种 方式 的 示意 图 。 


Lun4 Lun2.1| Lun2.2 Lun2.6 


A Parity 


.2 Lun3.3 un5.1 Dl 


Lun5.1 


Disk0 Disk1 Disk2 Disk3 Disk4 Disk5 Disk6 Disk0 Disk1 Disk2 Disk3 Disk4 Disk5 Disk6 
图 19-78 条 带 和 非 条 带 LUN 分 布 方式 


2. 横向 条 带 化 LUN 分 布 方式 


这 种 LUN 分 布 方式 是 大 多 数 产品 都 在 使 用 的 设计 。LUN 与 Stripe 平行 。 这 种 分 布 方式 在 一 
定 条 件 下 会 显示 出 非常 低 的 性 能 ， 具 体 见 下文 。 如 图 19-78 中 右 半 部 分 即 为 这 种 方式 的 示意 图 。 
注意 ， 图 中 的 Parity 磁盘 只 是 示意 图 ， 对 于 RAID 5 来 讲 Parity 是 分 布 式 的 。 

另外 值得 一 提 的 是 ， 有 些 产品 设计 要 求 LUN 在 磁盘 上 的 分 布 必须 连续 , 不 可 打 断 。 比 如 上 
图 中 的 例子 ， 如 果 删 除了 某 个 LUN， 那 么 对 应 的 这 块 空间 将 会 被 标记 为 空 闻 ， 而 如 果 随 后 需要 
创建 一 个 LUN, 但 是 这 个 LUN 却 比 空余 的 这 块 空间 要 大 , 那么 就 不 能 够 直接 使 用 这 块 空间 ,而 
必须 在 整个 空间 尾部 划分 一 块 新 的 空间 给 这 个 LUN; 如 果 整 个 空间 内 已 经 没有 连续 的 空余 空间 
来 容纳 这 个 LUN， 但 是 零散 的 空余 空间 加 起 来 却 可 以 容纳 这 个 LUN,， 那 么 此 时 系统 会 做 类 似 文 
件 碎片 整理 的 动作 ， 将 某 个 或 者 全 部 的 LUN 前 移 或 者 后 移 ， 将 缝隙 合并 ， 空 出 连续 的 空间 。 这 
样 做 的 根本 原因 就 是 因为 这 些 产 品 所 设计 的 LUN 映射 管理 系统 并 没有 足够 的 智能 来 在 不 连续 的 
底层 空间 来 做 映射 。 而 有 些 产品 则 可 以 做 到 。 


3. 类 文件 系统 LUN 分 布 方式 


这 种 分 布 方式 与 文件 系统 无 异 ， 只 不 过 每 个 文件 可 能 比较 大 ， 比 如 几 十 GB， 几 百 GB， 甚 
至 上 TB。LUN 其 实 本 来 就 是 一 个 Block 集合 ， 逻 辑 上 连续 ,物理 上 可 以 不 连续 。 这 种 LUN 分 
布 方式 其 实 就 是 Filedisk 思想 ， 再 比如 经 常用 的 光盘 文件 镜像 ISO 格式 。 如 图 19-79 所 示 即 为 这 
种 方式 的 示意 图 。 
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Parity 


Disk0 Disk1 Disk2 Disk3 Disk4 Disk5 Disk6 
图 19-79 类 文件 系统 LUN 分 布 方式 


当然 , 这 张 图 所 表示 的 分 布 情况 并 不 一 定 就 是 实际 情况 ,而 是 一 个 极端 情况 。 可 以 看 到 每 个 
LUN 的 碎片 都 很 多 ， 而 且 都 是 随机 分 布 的 ， 这 种 情况 可 不 是 好 现象 ， 过 于 随机 的 分 布 会 导致 当 
执行 连续 地 址 IO 时 性 能 大 打折 扣 ， 而 连续 IO 本 应 该 是 性 能 最 好 的 IO 方式 。 


4. 基于 分 布 式 RAID 的 LUN 分 布 方式 


前 文 介绍 了 存储 系统 划分 RAID 组 的 3 个 目的 。 但 是 我 们 仔细 从 宏观 的 角度 想 一 想 , 如 果 不 
划分 RAID 组 , 又 会 是 一 个 什么 样子 呢 ? 会 不 会 有 本 质 区 别 呢 ? 也 就 是 说 , 如 果 将 系统 中 的 所 有 
物理 磁盘 组 成 一 个 大 的 逻辑 空间 ， 然 后 直接 让 LUN 分 布 到 其 上 ， 是 不 是 也 可 以 呢 ? 

如 图 19-80 所 示 即 为 这 种 分 布 式 RAID 的 示意 图 。 所 谓 “ 分 布 式 ” RAID, 指 的 是 一 个 RAID 
组 无 须 独 占 某 几 块 硬盘 ,可 以 与 其 他 不 同类 型 的 RAID 共享 同一 批 物 理 硬盘 ， 另外, 同一 块 磁盘 
可 以 承载 任何 一 种 RAID 类 型 的 一 部 分 。 
RAID 5 RAID 3 


RAID 5 


Disk0 Disk1 Disk2 pa Dek4 Disk5 
图 19-80 分 布 式 RAID 模式 的 LUN 分 布 
逻辑 空间 映射 管理 的 最 高 修炼 成 果 就 是 文件 系统 ,同样 ， 存 储 系统 中 LUN 映射 管理 的 最 高 
修炼 境界 也 就 是 文件 系统 。 我 们 来 举例 说 明 一 些 厂商 修炼 的 结果 。 


入 门 代 表 : 多 数 常规 设计 ， 即 图 19-78 所 示 的 两 种 LUN 分 布 和 管理 方式 。 
进 阶 代表 : WAFL。WAEL 是 绝对 细腻 的 纯 文 件 系 统 ， 甚 至 实现 了 File In File 的 设计 ， 但 是 
其 底层 仍 未 脱离 RAID Group。 炉 火 纯 青 代表 : XIV、VRAID。XIV 已 经 完全 实现 了 灵魂 脱 壳 而 
游 亏 有余, 它 并 没有 RAID 组 的 概念 。 部 分 原因 是 因为 它 只 能 实现 镜像 式 RAID 10, 只 不 过 是 分 
布 式 RAID 10, 没有 了 RAID 组 的 概念 。 在 物理 磁盘 出 错时 , 它 可 以 只 恢复 被 实际 数据 所 占用 的 
空间 而 不 需要 全 盘 恢 复 , 也 就 是 说 上 层 逻 辑 空间 的 分 布 完 全 游离 于 所 有 物理 磁盘 可 以 任意 映射 而 
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且 也 不 依附 于 磁盘 , 关于 XIV 的 具体 细节 请 参考 本 书 前 面 的 章节 。HP EVA 系列 存储 系统 中 用 的 

VRAID 的 设计 模式 与 图 19-80 所 示 类 似 ， 但 是 它 尚未 做 到 XIV 那样 的 只 恢复 被 占用 的 数据 。 
提示 :目前 市 场 上 的 产品 大 多 数 还 是 使 用 横向 条 带 LUN 分 布 方式 。 纵 向 的 分 布 方式 几乎 
没有 人 如 此 设计 。 分 布 式 RAID 的 LUN 分 布 方式 也 没有 产品 能 做 到 如 图 所 示 的 那 种 灵活 
程度 , HP 公司 VRAID 只 是 一 个 初级 版 。 但 是 类 文件 系统 的 LUN 分 布 方式 , WAFL、 XIV、 
3PAR 等 都 已 经 可 以 做 到 ， 而 且 WAF1 也 是 有 潜力 做 到 以 任何 方式 分 布 LUN 并 且 提 供用 
户 配置 接口 的 潜力 的 。 完 全 块 级 虚拟 化 的 LUN 分 布 方式 是 将 来 的 趋势 。 


5. 全 打 散 式 LUN 分 布 方式 


上 述 的 几 种 LUN 分 布 方式 都 是 局 限 在 某 个 RAID 组 中 的 。 比 如 系统 中 共有 100 块 盘 , 每 10 
块 做 成 一 个 RAID 5 组 , 然后 在 各 个 RAID 组 中 再 划分 LUN, 每 个 RAID 组 之 间 的 LUN 互 不 影 
响 。 划 分 成 多 个 RAID 组 有 利于 性 能 和 容量 隔离 ,组 与 组 之 间 在 容量 与 性 能 上 不 会 产生 冲突 ( 忽 
略 底层 传输 链 路 以 及 系统 总 线 等 底层 冲突 ) 。 然 而 ， 有 另 一 些 新 型 的 开放 式 存储 ， 比 如 IBM 的 
XIV 以 及 3PAR 等 ， 它 们 的 LUN 是 被 打 散 成 小 块 (比如 XIV 粒度 是 1MB ) 然后 将 这 些 块 均衡 
地 分 散在 系统 中 的 所 有 磁盘 中 。 这 种 分 布 方式 的 优点 是 巨大 的 ， 在 应 对 随机 IO 方面 提速 很 多 。 
理论 上 讲 ， 如 果 将 LUN 均衡 分 散在 所 有 磁盘 中 ， 系 统 中 如 果 有 180 块 磁盘 ， 那 么 系统 理想 状态 
下 最 大 可 以 并 发 针对 这 个 LUN 的 180 个 随机 IO, 实际 中 并 发 几率 也 很 高 (并 发 几率 随 着 盘 数 提 
高 而 提高 ) ， 每 个 盘 同 一 时 刻 都 服务 于 一 个 IO， 而 如 果 只 将 这 个 LUN 分 布 到 比如 10 块 盘 组 成 
的 RAID 5 组 中 , 理论 上 最 大 只 可 以 并 发 5 个 随机 IO， 而 且 并 发 几率 很 低 。 线 性 提升 随机 IO 的 
性 能 是 这 种 全 打 散 的 LUN 分 布 方式 的 最 大 好 处 。 

但 是 这 种 分 布 方式 也 有 一 个 致命 的 缺点 ， 即 在 面 对 大 块 连续 IO 的 情况 下 ， 系 统 很 难受 。 如 
图 19-81 所 示 为 某 采 用 全 打 散 式 LUN 分 布设 计 的 产品 。 假 设 某 LUN 的 物理 块 顺序 为 1234567， 
这 7 个 块 的 分 布 如 图 所 示 ， 系 统 中 会 为 每 个 块 保留 一 份 元 余 块 。 当 某 应 用 发 起 读 取 从 1~7 这 7 
个 块 的 时 候 , 本 应 为 连续 IO, 但 是 此 时 系统 所 做 的 事情 就 完全 不 是 连续 IO 的 行为 了 。 由 于 系统 
并 不 是 按照 严格 横向 条 带 化 方式 分 布 LUN， dot 
同位 置 , 这 样 , 原本 连续 IO 就 变 为 了 随机 IO。 虽 然 此 时 仍然 可 以 多 盘 并 发 提供 服务 ,但 是 
盘 都 要 随机 寻 道 来 读 写 它 所 拥有 的 分 块 。 传 统 意义 上 的 “连续 IO 不 需要 频繁 寻 道 ” ia 
适用 这 个 情况 了 。 


i me] (| 


| Siech Fretherned 


其 un 的 物理 块 顺 序 : 
图 19-81 全 打 散 式 LUN 分 布 模式 
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主机 发 起 对 这 个 LUN 上 的 这 7 个 数据 块 的 连续 读 IO 操作 时 : 
(1) 先 从 一 个 柜子 中 的 磁盘 上 将 1 和 2 数据 块 读 入 缓存 ( 磁盘 需要 多 次 寻 道 ) 。 
(2 ) 再 从 另 一 个 柜子 将 3、4、7 数据 块 读 出 〈 磁盘 需要 多 次 寻 道 ) , 并 且 通 过 内 部 以 太 网 矩 
阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 
(3 ) 再 从 另外 一 个 柜子 中 将 5、6 数据 块 读 出 ( 磁盘 需要 多 次 寻 道 ) ， 并 且 通 过 内 部 以 太 网 
和 矩阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 

(4 ) 接收 主机 IO 请 求 的 柜子 收集 到 所 有 数据 块 之 后 ， 将 数据 块 返回 给 主机 。 

以 上 只 是 在 单 LUN 的 连续 IO 方面 ， 而 在 面 对 多 LUN 并 发 的 大 块 连续 IO 时 ， 整 个 系统 性 
能 又 降 。 本 质 原因 就 是 因为 LUN 被 均衡 打 散 ， 大 块 连续 IO 必定 会 在 单位 时 阶 内 占用 几乎 所 有 
磁盘 为 某 个 LUN 服务 ， 而 此 时 如 果 再 有 第 二 个 LUN 也 接受 大 块 连续 IO， 那么 所 有 的 磁盘 也 同 
时 需要 服务 于 这 个 LUN， 这 样 这 两 个 LUN 就 产生 了 资源 争 抢 ， 系 统 到 底 优先 服务 于 哪个 LUN 
呢 ? 这 就 像 一 个 十 字 路 口 , 红 灯 到 底 亮 几 秒 才 合适 呢 ? 不 管 怎么 样 , 系统 肯定 不 会 以 太 大 的 时 隙 
粒度 来 轮流 服务 每 个 LUN， 这 样 就 必然 导致 雪上 加 霜 。 对 一 个 LUN 的 连续 IO 访问 已 经 牵动 了 
所 有 盘 ， 更 别提 同时 服务 多 个 LUN 的 IO 了。 

所 以 ,全 打 散 的 LUN 分 布 方式 ,最 好 提供 给 用 户 以 可 控 的 接口 ,让 用 户 来 定义 具体 某 个 LUN 
如 何在 系统 中 的 磁盘 上 进行 分 布 。 针 对 不 同 的 应 用 系统 , 选择 不 同 的 分 布 方式 ， 而 不 是 一 竿 子 定 
死 。 目 前 据 笔者 所 知 只 有 中 科 蓝 鲸 的 BWES 提供 横向 条 带 化 与 纵向 顺序 分 布 这 两 种 文件 分 布 方式 
(文件 分 布 与 LUN 分 布 本 质 是 相同 的 ) 。 

另外 ,为 了 避免 磁盘 频繁 寻 道 的 问题 ,全 打 散 式 的 LUN 分 布 可 以 选择 尽量 将 逻辑 上 连续 的 
LUN 块 分 布 到 尽量 连续 的 物理 磁盘 块 中 ， 这 样 最 起 码 可 以 保证 单 LUN 大 块 连续 IO 情况 下 性 能 
不 打折 扣 。 这 样 做 就 相当 于 横向 条 带 化 的 分 布 模式 了 ， 只 不 过 是 横 跨 到 系统 中 的 所 有 磁盘 中 了 ， 
但 是 这 样 做 也 同时 降低 了 LUN 分 布 的 灵活 性 。 但 是 不 要 误解 一 点 ， 横 跨 系统 中 所 有 盘 并 不 意味 
着 所 有 盘 组 成 一 个 大 的 RAID 5 组 , 可 以 组 成 多 个 RAID 5 组 , LUN 分 布 于 底层 传统 RAID 是 分 
开 的 两 个 层面 。 应 始终 牢记 ,不管 LUN 如 何 分 布 ，RAID 只 管 在 组 内 磁盘 的 横向 相同 地 址 上 的 
数据 计算 校 验 并 保存 ，RAID 是 防止 单 盘 失 效 的， 不 要 将 其 与 上 层 的 东西 混淆 。 


6. LUN 分 布 方式 的 设计 对 其 他 阵列 高 级 功能 的 影响 


LUN 分 布 的 方式 直接 决定 着 一 个 产品 后 期 对 Snapshot、RAID 组 扩容 、Thin Provision 以 及 
动态 数据 分 级 ( Dynamic Storage Tiering，DST ) 的 开发 难 易 度 以 及 粒度 。 这 个 问题 很 显然 ， 如 果 
采用 横向 条 带 化 定 死 方式 来 分 布 LUN， 那 么 其 他 一 切 高 级 功能 的 设计 也 就 受到 很 大 局 限 了 。 

RAID 组 扩容 : 首先 来 看 RAID 组 扩容 应 该 怎么 处 理 。 当 RAID 组 内 新 加 了 一 块 磁盘 之 后 ， 
为 了 保持 所 有 LUN 依然 横 跨 所 有 盘 ， 而 且 还 必须 保证 物理 地 址 或 者 逻辑 地 址 的 连续 性 ， 那 么 系 
统 可 以 选择 使 用 两 种 方式 来 填充 新 加 入 的 空余 空间 。 第 一 种 是 完全 策 办 法 ,就 是 将 Segment 一 个 
一 个 地 往 上 移动 ， 从 而 填补 空 阶 ， 这 个 工作 是 耗费 大 量 IO 和 计算 资源 的 ， 读 出 、 写 入 频繁 ， 写 
入 时 还 需要 计算 XOR, 但 是 此 时 的 XOR 计算 读 惩罚 要 相对 少 一 些 ， 因 为 根据 公式 新 数据 的 校 
验 数 据 = ( 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 ， 此 时 老 数 据 =0， 系 统 事先 就 知道 了 ， 不 需 
要 读 盘 操作 ， 但 是 老 校 验 数据 还 是 要 读 出 的 。 进 行 重 构 的 同时 还 需要 继续 接受 上 层 下 发 的 IO 操 
作 , 对 应 用 不 能 有 影响 ( 具体 机 制 可 以 参考 本 书 之 前 章节 以 及 附录 1 中 对 RAID 初始 化 过 程 的 描 
述 ) 。 如 图 19-82 所 示 为 扩容 前 与 扩容 后 的 分 布 图 。 虽然 这 个 办 法 很 笨 而 且 耗 费 大 量 资源 , 但 是 
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其 可 以 保证 LUN 物理 地 址 的 连续 性 ,一 了 百 了 。 


图 19-82 条 办 法 扩容 

第 二 种 办 法 则 是 不 移动 实际 数据 , 磁盘 加 入 之 后 , 首先 进行 重 构 , 将 Parity 重 算 成 一 致 的 ( 由 
于 是 在 线 扩容 ,同时 可 以 接受 主机 IO， 所 以 必须 重 算 Parity; 如 果 是 离线 扩容 ,那么 只 需要 向 磁 
盘 发 送 Zero Disk 指令 让 磁盘 自己 将 自己 的 数据 清 零 ,之 后 就 不 需要 重 算 Parity 了 ,因为 根据 XOR 
算法 ， 加 入 0x00 之 后 ， 原 有 的 Parity 值 不 变 ) ， 之 后 就 放 那 不 管 了 。 因 为 加 入 新 磁盘 对 之 前 的 
LUN 容量 是 没有 影响 的 , 之 前 的 LUN 完全 可 以 选择 不 动 地 方 。 如 果 此 时 用 户 想 在 这 块 剩余 空间 
或 者 原 有 磁盘 的 剩余 空间 内 创建 新 LUN， 首 先 选择 在 原 有 空间 内 横向 分 布 这 个 LUN， 如 果 空 间 
不 够 ， 那 么 拿 这 块 新 加 入 的 纵向 空间 来 补 齐 ， 这 样 会 造成 LUN 的 物理 地 址 并 不 是 按 顺 序 横 跨 在 
物理 磁盘 上 的 ,就 需要 做 一 个 映射 表 来 影射 不 规则 的 物理 地 址 到 规则 的 逻辑 地 址 了 。 如 图 19-83 
所 示 为 这 种 思想 指导 下 的 扩容 前 后 布局 图 , 可 以 看 到 LUN3 已 经 被 分 成 两 部 分 , 横向 部 分 横 跨 原 
有 了 磁盘， 空间 不 够 的 话 就 支出 一 个 分 部 到 新 加 入 磁盘 中 纵向 分 布 。 这 么 做 的 好 处 就 是 除了 重 算 
Parity 外 不 耗费 其 他 资源 ， 但 是 会 永远 维护 一 个 地 址 影射 表 ， 而 且 同 一 个 LUN 的 不 同 部 分 有 不 
同 的 性 能 。 属 于 一 种 野 路 子 。 


图 19-83 地址 映射 方式 扩容 
相对 的 ， 如 果 使 用 类 文件 系统 的 块 级 虚拟 化 方式 来 分 布 LUN， 那 么 应 对 RAID 组 扩容 根本 
不 是 问题 ， 甚 至 可 以 除了 重 算 Parity 外 什么 都 不 用 做 ， 为 何 呢 ? 因为 这 种 LUN 分 布 方式 其 原本 
就 维护 了 比较 复杂 的 块 映射 表 ,而 且 分 块 粒度 恒定 , 分 布 的 有 章法 有 套路 , 虽然 上 面 那个 野 路 子 
也 有 点 这 个 意思 了 ,但 是 毕竟 还 是 野 路 子 。 
同时 ， 如 果 选 择 使 用 纵向 非 条 带 化 模式 ， 那 么 面 对 这 种 情况 也 根本 不 用 做 什么 ， 除 了 Parity 
重 算 之 外 。 
" ”Thin Provision: 对 于 横向 条 带 化 的 LUN 分 布 模式 下 如 何 实现 Thin, 请 参考 本 书 之 前 章 
节 。 类 文件 系统 的 LUN 分 布 方式 虽然 可 以 天 然 地 实现 Thin， 但 是 依然 面临 性 能 问题 ， 
它 的 性 能 问题 与 是 否 开 启 Thin Provision 功能 无 关 ， 而 是 其 这 种 机 制 天 然 就 决定 了 在 大 
块 连续 IO 下 的 性 能 折扣 ( 见 前 文 ) 。 即 使 对 全 打 散 模式 做 了 改进 ， 比 如 前 文 提 到 的 让 
逻辑 连续 的 块 物理 上 也 尽量 连续 ， 那 么 一 旦 开启 Thin 之 后 ， 物 理 上 是 否 连 续 就 不 是 我 
们 所 能 控制 的 了 ， 多 个 LUN 会 互相 挤占 ， 这 样 就 不 连续 了， 此 时 大 块 连续 IO 性 能 无 
法 得 到 保证 。 
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= Snapshot: 我 们 知道 Snapshot 有 两 种 方式 ,CoFW、WR( 或 称 Redirect On Write, ROW )。 
复制 或 者 重 定向 写 是 有 一 个 粒度 的 ,比如 4KB, 甚至 128KB 等 。 对 于 小 块 全 打 散 式 LUN 
分 布 模式 , 这 些小 块 就 可 以 作为 Snapshot 的 复制 粒度 , 另外 , 这 种 模式 下 系统 本 来 就 需 
要 维护 一 份 元 数据 , 比如 各 种 链表 、 位 图 等 来 记录 逻辑 位 置 与 物理 位 置 的 对 应 关系 ,而 
Snapshot 也 需要 类 似 的 元 数据 ， 所 以 元 数据 方面 又 可 以 统一 整合 了 。 这 极 大 方便 了 
Snapshot 的 设计 和 开发 。 而 对 于 横向 条 带 化 或 者 纵向 非 条 带 化 模式 ， 引 入 Snapshot 之 后 
需要 引入 一 套 额 外 的 元 数据 链 ， 增 加 了 开发 难度 和 设计 难度 。 
"DST: 既然 是 块 级 动态 数据 分 级 ， 那 么 天 然 就 可 以 与 全 打 散 的 LUN 分 布 模式 以 及 类 文 
件 系 统 LUN 分 布 模式 相 融 合 了 。 只 需要 增加 基层 Tier 级 别 的 定义 ,比如 SSD Tier0， 
将 热点 块 分 布 到 SSD 中 同时 变更 地 址 映射 表 即 可 ， 另 外 ， 再 加 入 一 层 热 点 判断 和 迁移 
策略 层 即 可 。 底 层 丝毫 无 须 改 变 。 而 对 于 其 他 类 型 的 LUN 分 布 模式 ， 就 需要 引入 全 新 
的 映射 链表 来 处 理 分 布 在 不 同 Tier 中 不 同位 置 的 LUN， 增 加 了 开发 难度 。 
所 以 ，LUN 分 布 方式 直接 决定 了 一 款 产 品 的 前 后 期 开发 难度 、 功 能 、 性 能 、 易 用 性 、 后 期 
新 功能 开发 可 行 性 等 。 阵 列 中 玩 的 就 是 LUN， 除 了 RAID 之 外 ， 其 他 高 级 数据 加 工 功能 都 是 基 
于 LUN 的 ， 底 层 架 构 直接 决定 上 层 实现 方式 和 效率 。 


7. 关于 LUN 的 对 齐 问 题 


所 有 存储 系统 在 创建 LUN 的 时 候 都 会 要 求 用 户 来 选择 这 个 LUN 将 要 被 何 种 主机 操作 系统 
使 用 , 这 样 做 的 原因 其 实 是 因为 不 同 操作 系统 使 用 不 同 的 文件 系统 和 卷 管理 系统 ,而 不 同 的 文件 
系统 或 卷 管理 系统 又 会 从 磁盘 的 不 同 地 址 来 作为 文件 系统 管理 的 空间 的 起 始 地 址 , 比如 , 至 少 不 
可 能 将 LBA0， 也 就 是 MBR 扇 区 作为 文件 系统 的 空间 。 

而 常规 情况 下 ， 存 储 系统 中 所 创建 的 LUN 都 是 Segment 的 整数 倍 ， 即 Segment 对 齐 的 。 但 
是 由 于 文件 系统 或 者 主机 端 卷 管理 程序 会 从 某 个 非 0 的 起 始 地 址 来 作为 自身 空间 的 边界 , 并 不 知 
晓 这 个 LUN 其 实 是 横 跨 在 多 块 物理 磁盘 上 的 , 这 种 使 用 非 0 地 址 为 边界 , 导致 了 FS 或 者 VM 的 
逻辑 Block 也 可 能 横 跨 于 多 个 物理 磁盘 。 那 么 也 就 是 说 ，FS 或 Cache Manager 每 操作 一 个 Block 
或 Page， 就 需要 占用 两 块 磁盘 而 不 是 1 块 , 产生 了 惩罚 ， 如 
19-84 所 示 。 为 了 解决 这 个 问题 ， 存储 系统 会 根据 用 户 在 OKB 4KB 8kB 12kB 16KB 
创建 LUN 时 给 出 的 操作 系统 类 型 来 动态 地 在 LUN 映 射 关系 
式 内 将 对 应 的 起 始 地址 偏 移 量变 量 的 值 向 前 推移 对 应 的 扇 区 
数量 ， 从 而 达到 与 上 层 的 逻辑 起 始 地 址 重合 。 上 下 不 对 齐 会 Of 1 Page Ae) 
导致 严重 的 性 能 问题 ， 存 储 系统 一 般 均 会 判断 这 种 情况 是 否 。 图 19-84 起 始 地 址 不 对 齐 示 意图 
发 生 并 且 通 过 某 些 输出 来 通知 用 户 ， 比 如 当 存 储 系统 向 后 某 
个 LUN 下 发 1 个 IO 请 求 时 ， 到 了 底层 却 变 成 了 两 个 ， 那 么 就 很 容易 判断 发 生 了 Misalign 情况 。 

为 了 解决 这 个 问题 ， 存 储 系 统 都 会 针对 不 同 的 操作 系统 来 分 布 LUN， 将 LUN 中 对 应 FS 起 
始点 的 LBA 地 址 与 底层 卷 的 Block 边界 对 齐 , 也 就 是 类 似 于 将 LUN 在 底层 RAID Group 中 前 移 
一 定 长 度 的 LBA 地 址 ， 这 段 长 度 会 根据 不 同 操作 系统 而 不 同 。 


8. LUN 碎片 整 更 


Strpe 


请 不 要 误会 这 里 所 说 的 “碎片 整理 ”。 主 机 端的 碎片 整理 整理 的 是 LUN 里 的 文件 系统 块 ， 
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而 阵列 段 的 LUN 碎片 整理 指 的 是 阵列 自身 在 底层 物理 磁盘 层面 整理 被 分 裂 成 多 块 的 LUN ,将 其 
合并 成 一 个 物理 上 连续 的 空间 。 为 何 会 出 现 LUN 碎片 ? 这 个 问题 不 得 不 拿 NetApp 的 WAFL 来 
开刀 了 。LUN 在 WAFL 下 就 是 一 个 彻头彻尾 的 文件 ， 与 普通 文件 系统 中 的 文件 别 无 二 致 。 正 因 
如 此 , 不 可 避免 这 个 LUN 会 随 着 时 间 的 增长 就 可 能 被 分 布 到 底层 物理 空间 的 各 个 位 置 , 连续 IO 
到 了 底层 变 为 了 随机 IO, 这 是 谁 都 不 想 看 到 的 。 所 以 WAEFL 提供 了 碎片 整理 程序 。 当 然 , WAFL 
对 LUN 的 分 布 是 最 极端 也 是 最 容易 的 做 法 。 其 他 厂商 对 LUN 的 分 布 没 有 如 此 的 灵活 ， 基 本 上 
都 是 连续 的 横向 分 布 在 底层 RAID 组 之 上 的 。 

比如 EMC 的 Clariion CX4 系列 存储 中 ， 当 在 某 个 RAID 组 中 创建 了 3 个 LUN， 之 后 删除 
了 第 二 个 LUN， 那 么 此 时 便 会 在 RAID 组 物理 空间 上 留 下 一 个 空隙。 如 果 随后 打算 再 次 创建 一 
个 新 LUN， 如 果 待 创建 的 LUN 的 大 小 小 于 等 于 这 个 空隙， 那么 系统 会 将 这 个 LUN 分 布 到 这 个 
空隙 中 , 这 是 最 好 的 状况 ; 如 果 尺 寸 大 于 这 个 空隙 , 那么 系统 就 只 能 选择 其 他 的 更 大 的 空余 空间 
来 创建 这 个 LUN， 这 块 空隙 就 不 能 够 被 利用 ， 这 个 空隙 就 被 称 为 “碎片 ”， 当 然 这 种 碎片 肯定 
不 如 WAEL 的 碎片 粒度 大 。EMC 提供 了 碎片 整理 程序 ， 如 图 19-85 所 示 为 一 个 空隙 碎片 产生 的 
过 程 。 图 19-86 所 示 为 碎片 整理 之 后 的 LUN 分 布 状况 。 


图 19-85 LUN 碎片 的 产生 
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在 Scale-Out 架构 的 存储 系统 中 ， 很 多 厂商 就 希望 LUN 被 打 碎 ， 比 如 IBM 的 XIV、3PAR 
InservT 系列 、EMC 的 Symmetrix V-Max 系列 ， 它 们 的 LUN 分 布 思 想 都 是 打 碎 分 布 到 多 个 节点 
的 存储 空间 中 , 这 样 来 讲 , 相当 于 LUN 被 故意 设计 为 碎片 , 用 多 个 节点 并 行 地 服务 于 这 些 碎片 。 
这 样 做 在 随机 IO 访问 的 情况 下 确实 会 提升 效能 , 但 是 在 多 LUN 并 发 连续 IO 的 情况 下 , 效果 可 
能 适得其反 ， 具 体 分 析 可 见 本 章 后 面 内 容 。 

思考 : LUN 分 布 方式 、ThinProvision 、 自 动 分 级 存储 ， 仔 细 想 来 ， 这 三 者 其 实 是 可 以 融洽 

的 ， 因 为 它们 三 者 的 基础 都 是 块 级 别 粒 度 的 数据 分 布 和 移动 。 比 如 ， 某 个 LUN 以 类 文件 

系统 方式 来 分 布 ， 分 布 粒度 以 1GB 为 单位 增长 ， 利 用 类 似 文件 系统 元 数据 的 方式 来 记录 

整个 LUN 的 映射 链 关系 ， 同 时， 也 可 以 容易 地 实现 数据 的 自动 分 级 ， 以 1GB 为 粒度 ， 构 
建 一 个 数据 库 来 追踪 记录 每 个 1GB 区 域 的 属性 、 访 问 频率 、 当 前 所 处 的 层级 等 信息 ， 然 
后 定时 启动 分 级 迁移 策略 。 

所 以 , 在 设计 LUN 分布 方 式 的 时 候 , 一 定 要 结合 考虑 今后 的 增值 功能 规划 。 如 果 LUN 的 
分 布 方式 过 于 定 死 ， 那 么 就 不 利于 今后 的 Thin 以 及 自动 分 级 的 实现 了 。 


19.2.6 “前端 接口 设备 及 驱动 层 


存储 系统 前 端 接口 用 于 连接 主机 客户 端 。 与 主机 所 不 同 的 是 , 存储 设备 会 有 更 多 种 类 和 数量 
的 网 络 接口 ， 比 如 FC 接口 、 用 于 iSCSI 协议 的 以 太 网 接口 、SAS 接口 等 。 主 机 客户 端 会 通过 前 
端 接口 识别 存储 系统 映射 的 LUN 并 且 对 LUN 做 数据 IO 或 者 控制 IO 操作 。 

注意 : 前 端 接口 处 需要 注意 的 一 个 地 方 就 是 Queue Depth， 在 各 个 层次 都 尚未 产生 瓶颈 的 

时 候 ，Queue Depth 越 大 ， 一 次 接受 和 处 理 的 I0 就 越 多 ， 系 统 表现 出 来 的 IOPS 和 吞吐 量 

就 会 越 高 。 但 是 当 任 何 一 处 达到 瓶颈 的 时 候 ，Queue 就 会 逐渐 开始 积压 IO 请 求 ， 单 个 IO 

的 响应 时 间 会 随 着 积压 严重 程度 而 越 来 越 高 。 


19.2.7 ”缓存 管理 层 


外 部 存储 系统 一 般 都 安装 有 比较 多 的 内 存 来 作为 数据 缓存 ， 并 且 为 了 防止 突然 断 电 或 者 系统 
Down 机 导致 的 内 存 数据 丢失 , 外 部 存储 系统 一 般 都 会 使 用 各 种 方法 来 保存 这 些 尚 未 被 写 入 硬盘 的 
Dirty 数据 。 有 些 直 接 使 用 电池 给 内 存 供 电 ; 有 些 则 使 用 位 于 存储 设备 机 架 内 的 微型 UPS 不 间断 电 
源 在 外 部 电源 故障 时 将 内 存 中 的 Dirty 数据 写 入 硬盘 数据 区 之 后 再 将 系统 Gracefully Shutdown; 或 
者 利用 内 部 微型 UPS 直接 将 内 存 中 的 所 有 数据 Dump 到 硬盘 的 固定 位 置 的 空余 空间 之 后 将 系统 
Shutdown 待 电源 恢复 后 再 读 入 内 存 然后 写 入 硬盘 数据 区 ; 有 些 则 使 用 电池 给 内 存 和 一 个 Flash 卡 供 
电 ， 发生 电 源 故 障 之 后 ， 通 过 某 个 智能 芯片 将 内 存 中 的 数据 Dump 到 Flash 卡 中 存放 。 


1. 关于 缓存 的 分 配 


存储 系统 内 存 分 为 两 大 部 分 :一 是 供 存 储 系统 的 操作 系统 内 核 以 及 其 他 上 层 程序 运行 所 需要 
的 内 存 空间 ; 二 是 用 于 缓存 读 写 数据 的 数据 缓存 。 数 据 缓存 又 可 分 为 读 缓存 和 写 缓存 ， 至 于 读 和 
写 缓存 所 占 的 比例 ,不 同 产品 设计 也 不 同 ， 但 是 一 般 情况 下 ， 写 缓存 所 占 比 例 大 于 读 缓存 。 因 为 
对 于 一 个 大 容量 的 存储 系统 , 缓存 的 大 小 相对 于 磁盘 容量 来 讲 是 九 牛 一 毛 , 读 缓存 在 大 多 数 情况 
下 的 命中 率 都 不 会 很 高 , 所 以 与 其 将 内 存 分 配给 读 缓存 , 不 如 多 分 配 一 些 给 写 缓存 , 因为 在 Write 
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Back 模式 下 , 一 般 情况 下 的 写 总 是 “命中 ”的 (区别 于 “ 写 命中 ”, 后 文 会 介绍 “ 写 不 命中 ”) 。 
然而 请 理解 ， 读 或 者 写 缓存 ， 并 不 一 定 是 物理 上 分 界 的 ， 各自 也 并 不 一 定 是 物理 上 连续 的 , 任何 
一 个 缓存 Page 只 要 被 标记 为 Dirty, 那么 这 个 Page 就 属于 写 缓存 , 一 旦 标记 被 抹 掉 ,那么 它 就 属 
于 读 缓存 了 。 一 些 高 端 产品 具有 很 大 的 缓存 ,这 些 高 端 控制 器 对 读 写 缓存 可 能 会 进行 物理 上 的 分 
界 ， 读 和 写 互 不 干扰 。 


2. 关于 写 缓存 镜像 


对 于 双 控 制 器 架构 的 存储 系统 , 为 了 防止 控制 器 。 ， 
自身 故障 所 导致 的 内 存 数据 丢失 ,两 个 控制 器 之 间 的 。 | kemalwemor | 

写 缓存 是 互 为 镜像 的 关系 , 即 控制 器 A 收 到 一 个 写 IO 

操作 ， 则 会 立即 将 这 个 IO 请 求 及 其 数据 通过 控制 器 ”一 

间 内 部 互联 链 路 发 送 给 控制 器 B 一 份 保留 , 然后 才 可 ee tt 
以 向 主机 客户 端 返回 成 功 信号 。 当 控制 器 A 将 这 个 IO 
写 入 磁盘 之 后 会 通知 控制 器 B 将 它 保 留 的 IO 副本 作 
废 以 便 腾 出 空间 。 如 图 19-87 所 示 为 双 控 制 器 写 缓存 
镜像 的 示意 图 。 缓 存 镜像 的 过 程 会 增加 主机 端的 IO 
响应 时 间 , 并 且 系 统 的 总 体 写 带宽 会 受制 于 控制 器 问 
的 数据 链 路 速率 ,当然 , 设计 优良 的 存储 系统 都 会 消 — 
除 这 个 瓶颈 。 控制 器 间 链 路 速率 至 少 要 与 所 有 前 端 总 19-87 双 控 制 器 写 缓存 镜像 示意 图 
线 带宽 之 和 的 20% 差 不 多 ， 一 般 场景 下 写 与 读 的 比例 可 以 按照 二 八 开 。 


3. 关于 缓存 命中 率 


对 于 连续 IO， 由 于 系统 预 读 的 效应 ， 命 中 率 通常 可 以 保证 比较 高 。 但 是 对 于 随机 度 很 大 的 
IO 请 求 , 命中 率 普 遍 非常 低 。 对 于 随机 IO 命中 率 低 的 问题 目前 没有 什么 特效 解决 办 法 ,除非 使 
用 不 需要 机 械 寻 道 的 存储 介质 比如 SSD。 被 从 磁盘 读 入 缓存 的 数据 在 传输 给 主机 端 之 后 并 不 会 立 
即 作废 ， 而 是 停留 一 段 时 间 来 碰 一 碰 运 气 看 看 是 否 一 段 时 间 内 还 有 IO 请 求 读 取 同 样 的 数据 或 者 
地 址 有 交集 的 数据 。 随 着 数据 被 不 断 的 读 入 ， 系 统 总 要 作废 一 些 老 数 据 而 引入 一 些 新 数据 , 存储 
系统 一 般 使 用 LRU ( Least Recently Used ) 算法 来 决定 缓存 中 哪些 数据 作废 哪些 继续 保留 。 系 统 
会 在 Page Table 中 为 每 个 Page 记录 一 个 最 后 访问 时 间 惟 以 及 Dirty Bit。 

预 读 是 显著 提高 命中 率 的 手段 , 预 读 方式 根据 产品 设计 而 不 同 , 但 是 目前 厂商 采用 的 方法 都 
大 同 小 异 。 有 一 类 Multi Stream Detection 设计 需要 着 重 介绍 一 下 。 假设 主机 端 有 1 个 进程 在 对 某 
个 LUN 发 起 读 IO, IO 属性 为 连续 IO, 地 址 从 0 往 上 逐 1 增加 ,比如 LBAO0、1、2、3、4、5、…… 
此 时 存储 系统 会 感知 到 这 种 连续 性 从 而 做 大 力度 的 预 读 动 作 , 缓存 命中 率 非常 高 ; 但 是 如 果 主 机 
端 有 两 个 进程 对 这 个 LUN 做 读 IO 操作 , 而 且 每 个 进程 发 起 的 IO 属性 也 各 自 都 为 连续 IO, 第 1 
个 进程 从 地 址 0 开始 逐 1 增加， 第 2 个 进程 从 地 址 4 开始 逐 1 增加 ， 由 于 两 股 IO 流 是 混合 发 向 
存储 系统 的 ， 那 么 它们 的 混合 排列 就 可 能 是 类 似 “0 45 1 6 234 78 5 9” 这 种 方式 。 存 储 系统 接收 
到 这 串 IO 流 ， 虽 然 小 范围 内 地 址 是 不 连续 的 、 跳 跃 的 ， 但 是 大 范围 之 内 ， 地 址 还 是 连续 的 ， 并 
且 如 果 将 这 串 被 合并 的 IO 流 智 能 地 监测 分 开 为 两 个 独立 的 流 ( Stream ) 的 话 ， 那 么 就 会 发 现 其 
实 看 似 随机 的 IO 其 实 是 连续 的 ， 那 么 系统 就 可 以 有 针对 性 地 加 大 预 读 力 度 ， 提 高 命中 率 了 。 而 
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不 具有 这 种 Multi Stream Detection 功能 的 系统 ， 面 对 这 种 混合 流 时 ， 其 预 读 力度 就 不 会 大 大 。 实 
际 情况 中 可 能 存在 多 个 Stream 混合 ， 这 就 对 算法 的 效率 有 了 更 高 的 要 求 。 

然而 ， 对 于 大 块 连续 读 IO 来 讲 ， 预 读 就 变 得 没有 意义 了 ， 此 时 前 端 数据 的 需求 处 于 供 不 应 
求 状 态 ， 所 以 哪里 还 会 有 “ 预 ” 读 这 一 说 呢 ? 所 以 ， 有 些 存储 系统 提供 配置 参数 ， 如 果 用 户 确定 
某 个 LUN 所 接受 的 IO 都 是 大 块 连续 IO， 那 么 可 以 关闭 针对 这 个 LUN 的 预 读 以 绕 过 系统 预 读 
代码 流程 ， 节 约 计 算 资源 。 

几乎 所 有 人 都 认为 缓存 命中 率 的 概念 只 对 读 IO 有 意义 而 对 于 写 没有 任何 意义 ， 其 实 这 种 看 
法 是 片面 的 。 在 某 种 特殊 情况 下 ， 写 也 需要 缓存 命中 的 ， 如 果 不 命中 , 则 需要 耗费 一 些 额外 的 惩 
罚 步骤 ,说 到 这 里 大 家 可 能 就 有 所 感觉 了 。 下 文 将 描述 所 谓 真正 的 “ 写 命中 ”是 什么 意思 。 


4. 关于 缓存 管理 单位 


目前 所 有 操作 系统 对 内 存 的 管理 都 是 使 用 Page 为 单位 , 一 个 Page 可 以 是 4KB 、8KB 、16KB 
甚至 更 大 。 存储 系统 内 部 也 运行 着 操作 系统 , 所 以 存储 系统 的 缓存 管理 单位 也 一 样 是 Page。 并 且 ， 
操作 系统 将 文件 、 块 设备 等 皆 映 射 到 Page Cache 中 ， 存 储 系统 一 样 也 是 将 LUN 来 映射 到 Page 
Cache 中 。 既 然 这 样 ， 本 章 前 文中 所 述 的 那些 在 主机 端 发 生 惩罚 现象 ， 在 存储 系统 内 部 一 样 是 存 
在 的 。 如 果 主 机 端 发 向 存储 系统 的 IO 请 求 长 度 不 足 1 个 Page, 而 这 个 Page 在 Cache 中 尚未 被 读 
入 ,那么 此 时 便 会 触发 Page Fault， 需 要 Page In 过 程 。 而 Page In 过 程 几乎 在 所 有 的 操作 系统 中 
都 是 一 个 同步 过 程 ，Page 只 能 一 个 接 一 个 的 被 从 底层 读 入 ,而 这 又 更 拖 慢 了 整体 性 能 ， 如果 主机 
端 采用 的 是 Write Through 模式 ， 那 么 这 个 影响 会 直接 被 联动 到 IO 源头 。 

明白 了 上 面 这 一 点 , 就 可 以 彻底 理解 所 谓 “ 写 命中 ”了 。 本 书 前 面 章 节 提 到 的 “ 写 命中 ”只 
包含 了 一 种 情况 ， 即 先后 多 次 写 IO 针对 同一 地 址 ， 则 所 有 这 些 IO 就 可 以 被 覆盖 为 最 后 所 接收 
到 的 写 IO， 最 终 只 需要 向 下 层 发 起 一 次 IO。 而 写 命中 还 包含 另 一 个 含义 ， 即 一 旦 某 个 写 IO 长 
度 小 于 1 个 Page, 或 者 不 能 被 Page 大 小 除 尽 (比如 4.5KB ) ,那么 除 不 尽 的 那 部 分 所 落 入 的 Page 
的 内 容 如 果 已 经 位 于 Cache 中 , 那么 此 时 这 个 写 IO 就 命中 了 , 可 以 直接 在 对 应 的 Page 中 覆盖 入 
接收 到 的 数据 并 标记 整个 Page 为 Dirty。 但 是 如 果 除 不 尽 的 那 部 分 对 应 的 Page 内 容 并 未 在 Cache 
中 , 需要 Page In 过 程 ,那么 此 时 就 说 这 个 写 IO 未 命中 , 或 者 部 分 命中 ,意味 着 需要 耗费 额外 的 
读 入 过 程 。 不 管 是 否 全 部 命中 ， 只 要 是 IO 长 度 除 不 尽 Page， 还 会 产生 额外 的 数据 写 入 ( 除 不 尽 
的 那 部 分 所 占 的 Page 需要 全 部 被 写 入 底层 介质 ， 而 不 是 仅 写 入 余数 部 分 ) 。 

如 果 遇 到 IO 起 始 地 址 不 对 齐 Page 边界 的 状况 ， 则 后 果 会 更 加 严重 。 如 果 某 个 IO 恰好 横 跨 
在 两 个 相 邻 的 Page 中 间 ， 则 系统 需要 读 入 这 两 个 Page， 如 果 是 写 IO， 则 读 入 之 后 还 要 青 写 入 这 
两 个 Page。 

综 上 所 述 ， 最 好 使 用 4KB 可 除 尽 的 IO 长 度 ， 即 起 始 地 址 和 长 度 皆 为 4KB 的 倍数 ， 否 则 会 
引起 性 能 问题 。 使 用 文件 系统 提供 的 API 一 般 不 会 出 现 4KB 不 对 齐 的 情况 ， 而 如 果 直 接 对 块 设 
备 或 者 RAW 设备 作 IO, 则 尽量 在 IO 源头 就 保证 发 出 的 IO 符合 4KB 对 齐 条 件 。 可 见 对 齐 的 重 
要 性 。 

有 不 少 高 端 存储 系统 可 以 对 Page 的 大 小 进行 调整 以 符合 典型 的 IO 长度- 比如 数据 库 类 程序 ， 
它们 一 般 直接 使 用 RAW 设备 进行 IO, 而 且 它 们 将 数据 以 Extent ( 或 称 segment、block 等 , 叫 法 
不 重要 ) 的 形式 存储 在 LUN 中 ， 它 们 每 次 读 入 或 者 写 出 的 单位 也 是 Extent 的 整数 ， 此 时 ， 存 储 
系统 就 应 当 将 Page 大 小 调节 为 与 Extent 相等 即 可 。 如 果 小 于 Extent， 则 会 因为 更 多 的 Page In 请 
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求 而 影响 性 能 ( 每 个 Page In 都 是 同步 操作 过 程 ) ， 而 且 Page 越 小 ，Page Table 映射 表 的 容量 越 
大 ,浪费 就 越 多 ， 查 找 效 率 也 越 差 ; 如 果 Page 大 于 Extent， 则 可 能 会 产生 读 写 惩罚 ， 得 不 偿 失 。 
所 以 ， 使 二 者 相等 是 最 好 的 办 法 。 


5. 关于 Cache 分 区 技术 


一 些 存 储 系 统 甚至 可 以 对 整个 Cache 进行 分 区 ， 为 不 同 的 LUN 对 应 的 Cache 设 定 不 同 的 
Cache 大 小 以 及 Page 大 小 ， 这 样 做 就 更 加 灵活 了 。Cache 分 区 商业 化 的 典型 代表 是 HDS 公司 的 
USP 以 及 AMS 系列 存储 系统 。 如 图 19-88 所 示 为 针对 不 同 应 用 需求 分 配 不 同 大 小 Page 尺寸 的 
Cache 分 区 的 示意 图 。 


亩 AMS500 Cache 
上 nn 
oe ~“ LU01 | || 8KB 
| | [| Partition 2 
VERITAS 暗 
NetBackup 国 。 国 -…: ~ LU00 
Master 
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Adaptable Modular Storage, 
Model AMS500 


16KB 
Partition 1 
(Master partition) 


图 19-88 为 不 同 应 用 设置 不 同属 性 的 Cache 分 区 
如 图 19-89 所 示 为 对 分 布 在 SATA 盘 RAID 组 中 的 LUN 和 分 布 在 FC 盘 RAID 组 中 的 LUN 
分 配 不 同 的 Cache 分 区 ， 进 行 逻 [] T 过 1 
(For SATA drives: 


辑 隔离 .由 于 SATA 盘 的 低 性 能 ， Dats collects ea 
容易 造成 缓存 积压 ， 影 响 FC 盘 
性 能 的 发 挥 ， 所 以 有 必要 进行 缓 
存 的 逻辑 隔离 ， 这 个 问题 被 称 做 1 | 
“快慢 盘 ” 问 题 ， 随 后 会 介绍 。 
如 图 19-_90 所 示 为 在 HDS 图 19-89 为 SATA 盘 的 RAID 组 和 FC 益 的 RAID 组 隔离 分 区 

的 存储 系统 中 创建 多 个 Cache 分 区 的 界面 。 图 19-91 则 为 分 配对 应 的 Cache 分 区 给 对 应 的 LUN 
的 界面 。 
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6. 关于 Write Back 模式 的 缓存 对 读 和 写 IO 的 影响 


大 家 都 知道 , 在 没有 缓存 的 情况 下 , 读 总 是 比 写 要 快 的 。 但 是 一 旦 有 了 缓存 , 情况 就 彻底 不 
同 了 。 如 果 缓存 是 Write Back 模式 并 上 且 足 够 大 ， 此 时 写 就 可 能 比 读 快 得 多 ， 因 为 读 可 能 不 命中 ， 
但 是 写 一 定 都 会 “命中 ” ( 不 考虑 写 惩罚 ) 。 而 且 Write Back 模式 的 缓存 也 会 弱化 连续 写 与 随机 
写 之 间 的 性 能 差距 , 因为 不 管 是 随机 还 是 连续 , 主机 端 发 送 的 所 有 写 请 求 只 要 一 到 达 存 储 系统 缓 
存 就 被 通知 成 功 。 判 断 是 否 随机 和 连续 是 存储 系统 本 身 的 事情 , 受 影响 的 也 只 是 存储 系统 自身 后 
端的 性 能 ， 但 是 对 主机 端 来 讲 没有 影响 。 所 以 ，WB 模式 下 ， 对 于 主机 端 来 说 ， 随 机 写 总 比 命中 
率 低下 的 随机 读 要 快 得 多 。 综 上 所 述 ， 写 缓存 比 读 缓存 的 收益 更 大 ,这 就 是 为 何 写 缓存 占 的 比例 
比 读 缓存 大 的 原因 。 

但 是 ， 如 果 遇 到 诸如 每 秒 上 百 兆 流量 的 大 块 的 连续 写 IO 的 情况 ， 那 么 此 时 这 些 写 IO 数据 
没有 必要 占用 Cache 不 放 ， 此 时 存储 系统 会 触发 类 似 Write Through 的 直接 写 盘 动 作 ， 从 而 尽量 
快速 地 释放 Cache 空间 以 迎接 后 续 IO 的 到 来 。 

存储 系统 对 IO 的 处 理 像 Linux 上 的 IO Scheduler 一 样 ， 也 会 对 IO 进行 Merge 处 理 ， 一 旦 
遇 到 地 址 连续 或 者 有 重合 交集 的 情况 ， 那 么 这 些 IO 会 被 Merge 成 一 个 大 IO 来 提高 效率 ， 节 约 
后 端 资源 。 


7. 关于 写 缓存 的 Flush 动作 


缓存 不 可 能 无 限 大 , 理所当然， 当 写 缓存 中 的 Dirty Page 达到 一 定 的 比例 的 时 候 ， 系 统 必须 
要 将 这 些 Dirty Page 写 入 对 应 的 LUN 以 腾 出 空间 来 接收 后 续 的 IO 数据 。 在 中 高 端 存储 系统 中 ， 
这 个 比例 一 般 都 是 可 调节 的 。 缓 存 就 像 一 个 薪水 池 ， 当 蘑 水 达到 一 定 水 位 线 的 时 候 ， 就 需要 有 所 
动作 ， 否 则 引起 水 漫 金山 ,后果 不 可 收拾 。 所 以 ， 这 个 写 缓存 Dirty 比例 阔 值 又 被 称 为 “High 
Watermark”。 当 水 位 到 达 HW 之 后 ， 引 发 Fush， 蓄 水 池 放 水 ,水 位 逐渐 降低 ， 当 降低 到 “Low 
Watermark” 时 ， 停 止 放 水 。 这 种 Flush 触发 方式 称 为 “Watermark Flush”， 当 然 不 同 厂商 产品 叫 
法 不 同 。Flush 过 程 毕竟 是 一 个 很 耗费 资源 的 过 程 , 这 期 间 , 主机 客户 端的 IO 会 受到 不 小 的 影响 。 
正 因 如 此 ， 如 果 追 求 稳定 的 写 IO 性 能 ， 则 应 当 适 当 调 低 HW， 让 系统 增加 Flush 的 频率 ,每 次 
Flush 耗费 的 时 间 将 缩短 ,保持 有 一 定 的 空余 Cache 和 尽快 释放 系统 资源 以 用 来 接收 新 到 的 写 IO。 
这 样 ， 对 于 前 端 就 会 表现 为 比较 恒定 的 IO 流 ， 而 不 至 于 每 次 都 到 了 最 后 才 收 拾 烂 瓜子， 导致 剩 
余 Cache 捉襟见肘 ， 前 端 会 表现 为 IO 流 时 大 时 小 时 快 时 慢 不 稳定 。 

如 果 系 统 长 时 间 未 达到 HW, 那么 此 时 系统 也 需要 来 一 次 放水 以 防止 污水 存放 时 间 太 久 , 夜 
长 梦 多 。 比 如 每 10 秒 放 一 次 等 .这 个 靖 值 一 般 是 不 可 调 的 .这 种 Flush 触发 方式 称 为 "Time Flush”。 

如 果 系 统 需要 做 一 些 高 层 的 操作 ， 比 如 做 Snapshot 等 ， 那 么 此 时 务必 需要 将 缓存 Flush 一 次 
而 不 管 是 否 达到 了 时 间 阔 值 或 者 HW。 因 为 只 有 Dirty Page 全 部 写 入 底层 介质 之 后 ，Snapshot 才 
可 以 反映 这 个 时 间 点 硬盘 上 的 数据 。 这 种 Flush 触发 方式 称 为 “Sync Flush”。 

如 果 遇 到 大 流量 的 连续 大 块 IO 写 入 , 那么 HW 会 频繁 的 达到 , Flush 会 连续 进行 , 这 种 Flush 
方式 称 为 “B2B Flush”， 即 Back To Back Flush， 发 生 这 种 情况 表明 存储 系统 已 经 应 接 不 暇 了 。 
但 是 , 并 不 一 定 非 要 遇 到 大 流量 的 IO 写 入 时 才 会 引发 B2B Flush， 有 时 候 由 于 后 端的 瓶颈 , 也 可 
能 引发 。 比 如 在 系统 接收 了 大 量 的 随机 写 IO 之 后 ，Flush 这 些 随 机 分 散 的 IO 会 引起 后 端 磁盘 大 
量 的 寻 道 操作 ， 过 程 会 非常 慢 ， 而 此 时 前 端 如 果 依 然 有 大 量 的 写 IO 到 来 ,那么 HW 又 会 达到 ， 
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系统 将 再 次 触发 Flush，Flush 也 会 连续 进行 ， 整 体 性 能 受到 影响 。 

在 系统 进行 Flush 时 ，Dirty Page 被 描述 为 链 对 象 ， 每 个 对 象 包含 了 一 串 定量 的 Dirty Page， 
每 串 Dirty Page 都 会 尽量 保持 地 址 连续 以 实现 整 条 写 ， 然 后 这 些 对 象 被 传送 给 RAID 层 ，RAID 
层 判断 是 否 需要 读 出 Parity 和 被 覆盖 的 数据 来 进行 XOR 计算 ， 如 果 需 要 则 读 出 ， 如 果 不 需 要 则 
为 整 条 写 ， 则 整 条 数据 间 进 行 XOR 计算 Parity。 然 后 RAID 层 负 责 将 算 好 的 数据 传送 给 底层 设 
备 驱动 从 而 写 入 对 应 的 硬盘 。EFlush 是 一 个 极其 耗费 系统 资源 的 过 程 ， 这 个 过 程 会 动员 全 体 资源 
的 支持 ， 尽 快 地 将 数据 写 入 磁盘 。 


8. 关于 电池 保护 缓存 


对 于 一 些 使 用 电池 保护 缓存 的 产品 ， 当 电池 发 生 故 障 时 , 比如 检测 不 到 电池 输入 端 电压 , 或 
者 电压 降低 到 阅 值 之 后 长 时 间 无 法 充电 恢复 其 电压 , 那么 此 时 系统 就 认为 电池 失效 , 并 且 会 将 缓 
存 设 置 为 Native Write Through 模式 ， 任 何 写 IO 必须 要 写 入 磁盘 之 后 才 会 返回 成 功 信 号 给 主机 
客户 端 ， 此 时 系统 性 能 将 会 受到 很 大 的 影响 ， 写 IO 进行 重 排 合并 优化 的 时 间 几 乎 为 0， 只 能 磁 
运气 。 当 电池 恢复 之 后 ， 又 会 重新 恢复 Write Back 模式 。 

有 些 产品 选择 在 掉 电 或 者 以 意外 宕 机 之 后 将 缓存 中 的 数据 复制 到 一 张 Flash 卡 中 存放 ， 比 如 
IBM DS5000 系列 , 这 个 过 程 只 需要 耗费 很 少 的 电量 , 所 以 只 需 利 用 若干 大 电容 来 储存 电量 即 可 。 
有 些 厂商 则 提供 一 个 小 UPS, 意外 宕 机 或 者 掉 电 之 后 , 将 缓存 中 的 数据 复制 到 后 端 某 几 块 磁盘 中 
存放 ， 这 种 做 法 需要 更 大 的 电量 支持 。 


9. 关于 缓存 LUN 技术 


某 些 情况 下 ， 主 机 对 某 个 LUN 的 IO 性 能 要 求 非常 高 ， 容 不 得 半点 延迟 ， 则 有 些 存储 系统 
可 以 将 整个 LUN 或 者 LUN 的 某 些 部 分 读 入 缓存 并 且 对 应 的 Page 不 会 被 Page Out， 这 些 数据 一 
直 被 保留 在 缓存 当中 ， 以 获得 最 小 的 IO 延迟 。 这 种 情况 下 ， 即 便 是 主机 发 送 大 量 的 随机 IO 操 
作 ， 也 不 会 受到 磁盘 寻 道 的 影响 。 这 种 做 法 的 代价 就 是 耗费 大 量 缓存 空间 。 


10. 资源 均衡 问题 


当 存储 系统 中 有 不 同性 能 的 介质 层 时 ， 慢 速 介质 会 消耗 更 多 的 缓存 和 IO 资源 ， 因 为 慢 速 介 
质 相 比 于 快速 介质 需要 更 长 的 时 间 才 能 完成 一 个 IO 请 求 ， 这 样 就 会 导致 缓存 中 对 应 这 个 IO 操 
作 所 保留 的 资源 将 要 停留 更 长 的 时 间 。 这 些 资源 包括 Page 页 面 空间 、 代码 堆栈 、 状 态 机 、Workers 
进程 等 。 这 样 ， 如 果 系 统 中 同时 存在 慢 速 和 快速 介质 ,那么 快速 介质 的 效果 便 可 能 会 由 于 得 不 到 
所 需 的 资源 而 大 打折 扣 ， 在 极端 条 件 下 ， 这 些 资源 可 能 会 被 耗 尽 ， 导 致 不 管 后 端 采用 何 种 介质 ， 
其 对 外 的 表现 都 会 处 于 同一 个 水 平 。 

此 问题 可 以 扩大 到 任何 对 资源 的 争 抢 问题 。 比 如 ,即使 针对 同一 种 性 能 层级 的 两 个 存储 空间 ， 
对 其 下 发 不 同类 型 的 IO 请 求 ， 也 会 造成 资源 争 抢 。 随 机 IO 总 是 会 占据 更 多 的 资源 ， 而 连续 IO 
本 应 该 是 表现 出 更 快 的 速度 ， 但 是 可 能 受累 于 随机 IO 的 资源 争 抢 ， 连 续 IO 的 效果 可 能 会 被 拖 
下 水 ， 在 极端 条 件 下 可 能 表现 出 与 随机 IO 相同 的 速度 。 

面 对 这 个 问题 ,所 有 厂商 都 需要 考虑 将 资源 进行 合理 划分 ,为 高 速 介质 分 配 一 定 比例 的 资源 ， 
并 且 动态 调整 。 根 据 某 些 测试 结果 来 看 ， 并 不 是 所 有 厂商 都 有 此 实现 的 。 当 混用 EC 与 SATA 盘 
时 , 某 些 存储 设备 针对 FC 磁盘 所 表现 出 来 的 性 能 与 同样 数量 的 SATA 盘 所 表现 出 来 的 性 能 相当 。 
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11. 存储 系统 中 的 QOS 


Cache 分 区 、 资 源 预 留 、 自 动 分 级 存储 等 措施 ， 都 属于 存储 系统 的 QOS 范畴 ， 包 括 上 文中 
所 述 的 解决 资源 均衡 的 问题 , 也 属于 QOS。 不 同 的 主机 、 不 同 的 应 用 系统 其 所 要 求 的 IO 性 能 或 
者 容量 都 是 不 同 的 。 而 一 台中 高 端 存储 系统 往往 同时 为 多 台 应 用 主机 同时 提供 存储 服务 ,这 就 必 
然 要 求 存储 系统 对 这 些 主 机 和 应 用 区 分 对 待 ， 而 不 是 无 序 的 谁 抢 着 算 谁 的 。 正 像 网 络 设备 一 样 ， 
存储 系统 也 需要 利用 网 络 进行 数据 传输 , 那么 就 免不了 多 数据 流 争 抢 资源 的 问题 了 , 存储 系统 完 
全 也 可 以 像 网 络 设备 那样 实现 某 种 加 权 队列 来 控制 不 同 数据 流 的 优先 级 和 带宽 控制 。 但 是 目前 这 
种 技术 尚未 有 获得 厂商 高 度 推广 的 迹象 。 

HDS 公司 在 其 高 端 USP 系列 存储 中 提供 了 多 种 QOS 组 件 ， 包 括 : Cache Partition 、Virtual 
Partition Manager( VPM ) 、Server Priority Manager( SPM ) 和 HiCommand QOS Modules( HQM ) 。 
缓存 分 区 之 前 已 经 介绍 过 ，VPM 则 是 相当 于 把 一 台 物理 的 阵列 逻辑 地 划分 为 多 个 部 分 ， 每 个 部 
分 之 间 不 争 抢 资源 ， 整 个 划分 过 程 通过 两 层 来 实现 : 最 底层 首先 划分 缓存 以 及 磁盘 ， 称 为 Cache 
Logical Partition ( CLPR ) ,每 个 CLPR 中 包含 一 定数 量 的 缓存 以 及 一 定数 量 的 RAID 组 ; 第 二 
层 为 Storage Management Logical Partition ( SLPR ) ， 一 个 SLPR 即 表现 为 一 个 虚拟 逻辑 阵列 ， 每 
个 SLPR 中 可 以 包含 多 个 CLPR。 图 19-92 显示 了 SLPR 与 CLPR 之 问 的 关系 。 


No user defned paritions 
| 区 * CLPR contains 
— Specific cache capacity 
— One or more Parity Groups 


RL 晶 * SLPR contains 
| — ClPRs 
- Ports 


ClpRonly 


SPR and CLPR 


图 19-92 SLPR 与 CLPR 的 关系 

HDS 公司 USP 系列 存储 设备 的 另 一 项 QOS 功能 则 是 Server Priority Manager。 该 软件 的 主要 
功能 是 在 多 台 主 机 使 用 同一 存储 系统 的 情况 下 ,保证 高 优先 级 的 主机 应 用 的 性 能 , 避免 其 受到 其 
他 低 优先 级 主机 的 影响 。 可 以 选择 从 IOPS 或 者 带宽 两 个 角度 来 对 主机 做 优先 级 处 理 ， 二 者 不 能 
同时 选择 ， 可 以 通过 阵列 端口 或 者 主机 FC 卡 的 WWPN 来 对 不 同 主机 进行 分 类 。 此 外 还 提供 
hreshold Control 功能 ， 比 如 当 高 优先 级 主机 的 IO 需求 下 降 到 某 特 定 值 ( 用 户 指定 ) 时 ， 系 统 
动 关闭 对 低 优先 级 主机 的 IO 限制 ， 这 样 可 以 避免 当 高 优先 级 主机 的 IO 负载 自己 下 降 到 很 低 
程度 时 ， 低 优先 级 主机 的 IO 仍然 被 限制 ， 从 而 充分 利用 资源 。 图 19-93 所 示 为 在 Server Priority 
Manager 中 根据 端口 来 配置 IOPS 或 者 带宽 需求 时 的 界面 。 


可 


口 
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图 19-93 Server Priority Manger 配置 界面 

HQM 则 是 针对 一 系列 应 用 程序 ( 包括 Oracle、 Sybase、Exchange Server、File Server ) 所 提 
供 的 一 种 与 应 用 紧密 结合 的 端 到 端的 性 能 监控 统计 软件 模块 。 以 HiCommand QoS for Oracle 为 
例 ， 它 的 功能 主要 包括 : 

， ”自动 发 现 Oracle 应 用 的 下 层 构 件 ， 并 将 其 展现 为 拓扑 结构 ; 

， 识别、 报告 Oracle 应 用 与 SAN 构件 的 依赖 关系 ; 

， ”实时 监控 从 应 用 到 存储 系统 的 性 能 状况 ， 通 过 历史 数据 统计 提供 性 能 需求 及 预测 ; 
， ”自动 发 现 、 监 控 、 分 析 容量 使 用 情况 ， 协 助 制定 未 来 容量 计划 ; 

， ”基于 策略 ， 对 影响 Oracle 的 存储 事件 自动 做 出 响应 。 

类 似 地 ，EMC 公司 的 Navisphere Quality of Service Manager ( NQM ) 也 提供 了 类 似 的 QOS 
功能 。NQM 首先 根据 用 户 的 设置 对 所 有 进入 的 IO 流量 进行 分 类 ,可 以 按照 LUN、 IO Size、IO 
类 型 ( 读 / 写 ) 以 及 未 明确 指定 的 所 有 其 他 类 型 IO ( Background Class 类 型 ) 来 划分 IO 类 型 ， 系 
统 将 持续 监控 这 些 IO 类 别 。 之 后 ， 系 统 根据 用 户 所 设置 的 IO 优先 级 信息 ， 包 括 IOPS、 带 宽 知 
吐 量 、 响 应 时 间 来 对 对 应 类 别 的 IO 实现 优先 级 排序 从 而 实现 QOS。 如 图 19-94 所 示 为 NQM 的 
主 配 置 界面 。 图 19-95 所 示 则 为 定义 IO 类 别 以 及 限制 条 件 的 配置 界面 。 


图 19-94 NQM 的 主 配置 界面 
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图 19-95 Server Priority Manger 配置 界面 
12. 特殊 的 1/O 和 缓存 管理 


不 得 不 提 一 下 NetApp 的 WAFL 对 IO 与 缓存 的 管理 。( 本 书 多 处 介绍 WAEFL 并 不 是 笔者 对 
其 有 崇拜 之 意 ，WAEFL 优势 很 多 ， 劣 势 也 不 少 。 只 是 个 人 比较 了 解 ， 打 算 做 到 知 无 不 言 ) 

大 家 知道 Linux 下 的 EXT3 文件 系统 , 其 可 以 使 用 多 种 日 志 模 式 。 第 一 种 是 只 记录 操作 行为 ， 
而 对 所 操作 的 目标 数据 原 内 容 、 新 内 容 不 记录 ,这 与 数据 库 的 日 志 不 同 ; 第 二 种 则 是 操作 行为 与 
目标 原 内 容 与 新 内 容 都 记录 , 与 数据 库 的 记录 方式 相同 。 默认 方式 下 使 用 前 者 , 既 降 低 资源 消耗 ， 
又 能 够 保证 元 数据 一 致 性 , 但 是 并 不 能 保证 文件 内 容 也 一 致 。 比 如 , 复制 某 超大 文件 到 90% 的 时 
候 , 中 途 断 电 , 重启 之 后 你 可 能 会 发 现 这 个 文件 根本 没有 出 现在 目标 , 或 者 已 经 复制 的 容量 只 有 
50% 而 不 是 90%。 但 是 如 果 使 用 了 全 内 容 记录 模式 的 日 志 ， 那 么 重启 之 后 系统 只 会 将 原子 操作 回 
深 ， 此 时 你 会 发 现 已 经 复制 过 去 的 数据 可 能 也 是 90%， 也 可 能 是 89%, 总 之 回 滚 粒度 会 变 小 , 只 
回 滚 断 电 有 瞬间 不 一 致 的 已 分 配 间接 块 , 此 时 这 份 没 复制 完 的 文件 你 可 以 删 掉 然后 重新 复制 。 第 二 
种 日 志方 式 会 拖 慢 系统 性 能 ， 但 是 却 能 够 获得 最 佳 的 一 致 性 以 及 最 小 的 数据 丢失 。 

WAFI 也 是 一 个 日 志文 件 系统 ， 也 同样 使 用 内 容 + 元 数据 一 起 记录 的 日 志方 式 ， 这 是 理 所 当 
然 的 ， 因 为 作为 一 个 企业 级 存储 系统 来 讲 ， 保 证 数据 一 致 性 和 不 丢失 是 基线 要 求 。 但 是 如 何 解决 
性 能 拖 慢 问题 呢 ? WAEFL 的 办 法 就 是 将 日 志 直 接 保 存在 RAM 中 而 不 是 硬盘 上 , 再 使 用 后 备 电池 
来 防止 掉 电 引发 的 数据 丢失 ,这样 ， 性 能 问题 解决 了 ; 然而 ， 容 量 问 题 并 没 解决 ，WAEFL 用 来 保 
存 日 志 的 RAM (也 就 是 NVRAM， 其 实 就 是 电池 保护 的 普通 RAM ) 只 有 几 GB， 最 大 也 不 过 
4GB， 除 去 镜像 对 方 控制 器 的 部 分 ， 只 有 一 半 ， 再 加 上 刷 盘 的 High Water Mark 被 定 死 为 50%， 
所 以 每 当日 志 量 达 到 1GB 的 时 候 ， 系 统 就 必须 触发 刷 盘 操作 。 

有 人 产生 疑问 了 , 存储 系统 中 不 是 有 几 十 GB 甚至 上 百 GB 的 缓存 么 ? 为 什么 不 能 拿 出 大 部 
分 来 充当 WAEL 日 志 存放 空间 ? 这 样 WAFL 的 性 能 应 该 更 好 啊 ? 是 的 ,但 是 WAFL 有 个 硬指标 ， 
也 就 是 至 少 每 隔 10s 要 做 一 次 刷 盘 动作 产生 一 个 一 致 性 点 (CheckPoint，CP ) 。10s 的 时 间 并 不 
是 空穴来风 ， 有 两 个 原因 。WAEFL 最 怕 的 就 是 不 一 致 ， 由 于 其 是 一 个 彻底 的 文件 系统 ,所 以 为 了 
保障 一 致 性 这 个 基线 要 求 ， 其 刷 盘 的 间隔 相对 其 他 厂商 产品 来 讲 是 最 频繁 的 ， 即 便 有 电池 保护 ， 
WAEFL 也 不 能 够 完全 相信 和 电池。 这 一 点 从 NetApp 在 磁盘 上 使 用 额外 空间 来 存放 Checksum 的 做 
法 就 可 见 一 班 ，NetApp 对 底层 硬件 是 完全 信 不 过 的 ， 因 为 它 自己 不 生产 硬件 ， 这 是 其 中 一 个 原 
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因 。 另 外 一 个 原因 ， 每 次 刷 盘 需要 耗费 巨大 的 系统 资源 ， 所 以 需要 尽量 降低 每 次 刷 盘 的 数据 量 ， 
如 果 每 次 刷 盘 要 几 十 GB 的 数据 ， 那 系统 将 会 顿 卡 ， 前 端 应 用 主机 的 IO 延迟 将 碳 升 ， 这 是 谁 都 
不 想 看 到 的 。 所 以 NetApp 把 NVRAM 的 大 小 进行 了 严格 限制 , 这 样 可 以 让 每 次 CP 的 时 候 能 够 
快速 完成 同时 不 至 于 对 前 端 造成 影响 。WAEFL 这 种 刷 盘 方式 并 不 是 细水长流 型 的 , 是 一 批 一 批 来 
的 ， 属 于 山洪 暴发 型 。 

实际 中 B2B ( Back to Back ) 类 型 的 CP 时 有 发 生 ， 也 就 是 系统 连续 处 于 CP 状态 下 。 特 别 是 
高 带宽 应 用 下 ，NVRAM 快速 充满 ， 造 成 系统 连续 CP， 此 时 也 相当 于 细水长流 方式 的 刷 盘 了 。 
但 是 由 于 NVRAM 总 数据 量 不 大 ， 连 续 CP 不 会 对 前 端 造成 顿 卡 的 影响 。 

NetApp 在 系统 中 除了 NVRAM, 还 配 有 几 十 GB 的 另 一 部 分 RAM。 这 部 分 RAM 主要 用 来 
运行 操作 系统 以 及 各 种 增值 软件 功能 、 存 放 预 读数 据 以 及 用 于 刷 盘 时 的 数据 读 入 、 修改、 写 入 过 
程 所 需要 读 入 的 数据 (从 NVRAM 中 读 出 的 待 写 入 的 内 容 与 RAID 校 验 计算 所 需 从 磁盘 读 出 的 
数据 块 ) 。 

综 上 所 述 ， 对 于 NetApp 的 产品 ， 其 实际 等 效 写 缓存 为 NVRAM 容量 的 四 分 之 一 ， 目 前 最 
大 也 就 是 4= 4=1GB。 至 于 系统 剩余 的 其 他 RAM 的 大 小 会 对 性 能 有 多 大 影响 ， 尚 不 可 乱 猪 ， 但 
是 从 商务 角度 考虑 ， 厂 商 间 都 在 右 规 格 、 兢 参 数 ， 各 家 产品 都 不 会 在 RAM 规格 上 落后 , 管 他 有 
多 少 效果 , 先 配 到 业界 水 平 再 说 。 同时 , 不 了 解 技术 细节 的 用 户 也 时 常 被 厂商 所 忽悠 误导 了 标书 。 
本 书 的 一 个 目的 就 是 让 所 有 人 了 解 存储 底层 细节 。 


19.2.8 ”数据 前 处 理 和 后 处 理 层 


外 部 智能 存储 系统 之 所 以 称 为 智能 ， 并 不 是 由 于 其 能 管理 大 量 的 磁盘 ， 生 成 大 量 的 LUN， 
拥有 众多 的 前 后 端 接口 ， 而 本 质 原因 其 实 是 它们 拥有 一 些 高 附加 值 的 Data Cooker。 这 些 Data 
Cooker 专门 对 原始 数据 进行 预 处 理 或 者 后 处 理 ， 它 们 就 像 大 厨 一 样 对 原始 数据 进行 加 工 处 理 ， 
最 后 实现 一 些 让 人 耳目 一 新 的 功能 ,包括 : Snapshot、LUN Mirror、LUN Clone、Data Migrating、 
Data Tier、Disaster Recovery、CDP、Dedupilcation 、Space Reclaiming、Virtualization 等 。 

这 些 Data Cooker 会 以 各 各 方式 嵌入 到 整个 存储 系统 中 ， 比 如 代 入 到 系统 底层 驱动 链 中 , 或 
者 直接 以 用 户 态 程序 存在 。 它 们 的 插入 会 改变 原本 的 数据 流 路 径 甚至 数据 内 容 。 比 如 Snapshot， 
一 旦 针对 某 个 LUN 生成 了 Snapshot， 那 么 任何 针对 这 个 LUN 的 IO 就 都 会 被 Snapshot 模块 过 滤 
和 处 理 。Snapshot 属于 前 处 理 ， 即 数据 在 被 写 入 介质 之 前 就 会 被 处 理 。 后 台 Deduplication 就 属于 
一 种 后 处 理 ， 即 当 数 据 被 写 入 介质 之 后 ， 当 系统 不 忙 的 时 候 ，Deduplication 模块 对 数据 进行 采集 
和 计算 并 且 消 除 重复 的 数据 块 。 后 处 理 的 例子 还 包括 比如 Space Reclaiming， 这 个 模块 也 是 需要 
在 后 台 来 完成 对 浪费 的 存储 空间 的 回收 。 

关于 数据 前 处 理 和 后 处 理 的 内 容 已 经 在 本 书 之 前 的 章节 中 介绍 过 ， 这 里 就 不 再 多 说 了 。 


19.2.9 ”存储 系统 处 理 一 个 IO 的 一 般 典 型 流程 


下 面 用 一 张 图 来 结束 本 节 。 如 图 19-96 所 示 为 一 个 外 部 存储 系统 处 理 一 个 IO 请 求 的 典型 流 
程 图 。 图 中 所 示 的 仅 为 基本 的 流程 ， 并 未 引入 具体 的 细节 ， 细 节 过 程 可 以 参考 本 节 之 前 的 文字 。 
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图 19-96 存储 系统 10 请 求 典型 流程 图 


19.3 IO 性 能 问题 诊断 总 论 
本 章 前 两 节 已 经 遍历 了 从 IO 起 源 地 到 IO 目的 地 之 间 的 全 部 过 程 。 本 节 将 对 其 做 一 个 总 结 。 


业务 层 , 始作俑者 ! IO 的 源头 是 应 上 


程序 ， 而 程序 是 为 了 业务 需求 而 生 的 。 程 序 对 IO 性 能 


的 需求 直接 反映 了 业务 的 类 型 和 复杂 度 。 如 果 我 们 能 够 精简 业务 , 简化 业务 流程 , 提高 业务 效率 ， 
那么 将 会 从 根本 上 降低 程序 对 IO 性 能 甚至 整个 IT 系统 的 需求 。 

应 用 层 ， 身 不 由 己 ! 人 在 江湖 ， 身 不 由 己 ! 程序 反映 的 是 业务 逻辑 , 业务 逻辑 有 多 复杂 , 程 
序 就 有 多 复杂 ， 相 对 应 的 数据 库 在 查询 或 者 更 改 数据 的 时 候 所 发 出 的 IO 就 有 多 复杂 。 当 然 ， 程 
序 发 起 的 IO 操作 并 不 是 与 业务 逻辑 复杂 度 严格 对 应 的 。 一 些 应 用 程序 或 者 数据 库 执行 脚本 对 底 
层 IO 欠 考 虑 ， 编 程 的 时 候 粗 枝 大 叶 ， 并 没有 调查 底层 的 情况 ， 所 以 并 未 做 到 优化 处 理 。 有 时 候 
应 用 层 只 要 稍微 变 一 变 设计 、 语 句 执行 顺序 或 者 IO 调用 方式 等 ， 就 会 带 来 很 大 的 收益 。 所 以 对 
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IO 要 求 比较 高 的 应 用 程序 在 设计 时 需要 专门 对 IO 模块 进行 设计 。 比 如 SQL 语句 ， 实 现 同样 的 
业务 需求 ， 换 一 种 方式 ， 也 许 就 能 得 到 成 百 上 千 倍 的 速度 提升 。 

操作 系统 , 主 战场 总 指挥 官 ! 操作 系统 平台 提供 了 所 有 程序 的 运行 环境 , 直接 操作 底层 硬件 ， 
提供 多 种 IO 调用 模式 以 满足 不 同 需求 。 在 Windows 下 ，IO Manager 使 用 IRP 作为 信使 来 将 所 
有 驱动 链 连 接 了 起 来 ; 在 Linux 下 ， 系 统 使 用 bio 作为 信使 也 将 各 个 驱动 层 联 系 了 起 来 。 

物理 磁盘 ， 葛 躬 尽 阅 死 而 后 已 ! 存储 系统 中 最 受 尊敬 者 : 物理 磁盘 ! 它们 勇往直前 ,前 仆 后 
继 ， 从 不 偷懒 ,永远 勤劳 工作 于 第 一 线 ! 存储 系统 最 受伤 的 劳动 者 : 物理 磁盘 ! 为 什么 受伤 的 总 
是 我 ， 为 什么 如 此 辛劳 最 后 却 还 是 成 为 众矢之的 ?只 怪我 独 臂 难 挡 重 兵 啊 ! 

网 络 传输 层 , 我 怎么 感觉 不 到 你 ! 底层 链 路 层 是 很 容易 被 忽视 的 一 个 地 方 , 不 过 好 在 这 一 层 
出 问题 或 者 出 现 配置 不 当 导致 的 瓶颈 的 几率 相对 其 他 层次 来 说 是 很 低 的 ,只 要 链 路 速率 匹配 , 线 
费 接 触 良 好 ， 一 般 都 不 会 引发 性 能 问题 。 


19.3.1 所 谓 “ 优 化 ”的 含义 


本 章 前 半 部 分 对 系统 IO 路 径 进行 了 解剖 , 形成 了 一 张 IO 路 径 图 , 并 且 洞 察 了 IO 请 求 在 整 
个 系统 路 径 中 的 流向 以 及 每 个 层次 对 IO 的 处 理 方式 ， 并 且 引出 了 一 些 需要 注意 的 地 方 ， 可 以 这 
么 说 ,所谓 “优化 ”， 其 实 应 该 是 一 个 消除 瓶颈 和 问题 的 过 程 ， 如 果 各 处 都 没有 瓶颈 或 者 问题 ， 
那么 优化 是 没有 意义 的 。 整 个 主机 和 存储 系统 就 像 生物 体 一 样 ,是 一 个 造化 产物 ， 其 本 来 就 具有 
完美 的 自我 优化 功能 ， 这 是 生命 之 本 能 ,但 是 总 会 有 一 些 收 恶 势力 入 侵 导 致 系统 功能 紊乱 , 或 者 
一 些 原 发 的 系统 自身 功能 紊乱 。 我 们 需要 做 的 ， 就 是 消除 这 些 导致 功能 紊乱 的 问题 ， 让 系统 恢复 
如 初 。 

诊断 可 以 在 两 个 层次 上 进行 ,一 层 是 在 主机 操作 系统 内 核 或 者 存储 系统 内 核 设计 的 时 候 所 做 
的 优化 ， 即 原生 的 优化 ， 这 种 优化 不 但 要 考虑 普遍 情况 , 还 需要 考虑 特殊 情况 ， 也 就 是 说 需要 提 
供 足 够 的 参数 设置 让 用 户 根据 不 同 的 IO 属性 和 要 求 来 调整 这 些 参数 。 第 二 是 在 主机 操作 系统 或 
者 存储 系统 中 进行 瓶颈 探测 和 消除 的 工作 , 这 种 工作 为 表面 优化 , 即 尽 最 大 所 能 让 系统 原 有 的 能 
力 发 挥 出 来 。 表 面 优化 又 有 两 层 ， 第 一 是 做 到 参数 的 设置 与 系统 设计 思想 以 及 当前 的 IO 属性 相 
匹配 而 不 是 背道而驰 ; 第 二 是 做 到 平衡 负载 、 按 需 分 配 ( 注意 , 不 是 负载 均衡 , 平衡 不 等 于 平均 ) ， 
将 资源 最 大 化 平衡 地 利用 。 

这 便 是 性 能 优化 的 含义 了 。 性 能 优化 既 不 是 魔术 也 不 是 魔法 , 它 不 可 能 让 不 存在 的 东西 变 得 
无 中 生 有 (但 可 能 将 有 的 东西 弄 丢 ) ， 对 于 生物 体 来 讲 ， 可 以 服用 一 些 药物 来 暂时 性 的 激发 各 器 
官 功能 , 但 是 这 样 做 是 有 害 的 , 损害 器 官 功能 , 它 违 背 了 自然 和 谐 的 本 质 , 并 且 也 不 能 维持 长 久 。 


本 质 上 的 优化 ,只 能 从 造物 时 的 设计 入 手 , 不 同 生 物体 有 着 不 同 的 设计 ， 有 的 力 大 无 穷 , 有 的 可 
以 飞行 , 存储 系统 也 一 样 , 不 可 能 让 老虎 长 出 翅膀 。 我 们 能 够 做 的 只 是 治病救人 ， 而 不 是 去 改造 
人 ， 改造 是 造物 主 的 事情 。 

性 能 优化 的 本 质 包含 四 个 字 : 合适 合理 。 比如 用 一 个 低 性 能 的 存储 系统 来 承载 一 个 对 性 能 要 
求 很 高 的 应 用 ， 而 又 要 求 进行 性 能 优化 , 变 想 让 存储 系统 “ 超 水 平 发 挥 ”， 这 是 不 可 能 的 。 能 做 
的 只 有 将 各 种 参数 调节 成 与 这 个 存储 系统 底层 设计 相合 适 的 值 , 而 且 合 理 设置 分 配 存 储 资 源 , 好 
钢 用 在 刀 丸 上, 榨 干 整个 系统 性 能 。 这 样 做 了 之 后 , 合适 合理 就 完成 了 ,那么 性 能 优化 也 就 完成 
了 ,如 果 结 果 不 理 想 , 那 只 能 说 明 存 储 系统 整体 性 能 不 能 满足 应 用 需求 ， 需 要 根据 情况 扩充 硬盘 
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数量 或 者 更 换 更 强大 的 存储 系统 。 
19.3.2 ”如 何 发 现 系 统 症状 


当然 ,下药 须 对 症 ,而 要 判断 症状 就 需要 望 闻 问 切 。 对 于 存储 系统 , 一 样 需要 一 番 望 闻 问 切 
过 程 。 要 分 析 路 径 中 哪里 出 了 问题 ， 就 一 定 要 在 整 条 路 径 中 都 来 进行 跟踪 。 

对 于 用 户 程序 所 发 起 的 IO，Windows 下 的 Filemon 和 Linux 下 的 Strace 是 跟踪 程序 发 起 的 
IO 的 好 工具 。 当 IO 进入 内 核 层 之 后 , 在 Windows 下 可 以 使 用 性 能 监视 器 ，Linux 下 则 可 以 使 用 
iostats 等 ，AIX 系统 下 这 方面 的 工具 更 多 ， 比 如 topas 、flemon 、nmon 等 。 

利用 这 些 工具 来 查看 IO 在 内 核 层 是 否 被 分 解 或 者 合并 ， 是否 产 生 了 读 写 惩罚 ， 产 生 的 惩罚 
本 身 是 读 还 是 写 等 ， 在 这 一 层 都 可 以 判断 出 来 。 而 当 IO 出 了 主机 操作 系统 内 核 进入 外 部 存储 系 
统 控制 器 之 后 ， 就 必须 在 存储 控制 器 端 使 用 IO 监测 工具 来 探测 了 。 理 论 上 讲 ， 主 机 端 所 监测 到 
的 内 核 层 IO, 应 该 与 外 部 存储 端 所 接收 到 的 IO 一 一 对 应 , 但 是 并 不 排除 中 途 的 智能 网 络 传输 设 
备 会 对 IO 进行 诸如 合并 、 分 解 、 复 制 等 操作 。 一 般 情况 下 ， 非 智能 网 络 设备 并 不 会 改动 任何 数 
据 IO， 所 以 主机 内 核 层 的 下 部 发 起 的 IO 其 实 也 可 以 通过 外 部 存储 系统 上 的 监测 工具 来 查看 。 

IO 流入 外 部 存储 系统 内 核 之 后 所 经 历 的 处 理 过 程 ， 也 可 以 使 用 存储 设备 所 提供 的 监测 工具 
来 查看 ,一 直到 IO 流出 后 端 适配器 最 终 靶 向 目标 磁盘 之 前 的 IO 行为 都 可 以 被 监测 到 。 最 后 ， 
通过 分 析 这 整 条 路 径 中 所 有 层次 上 的 IO 监测 数据 ， 就 可 以 得 出 大 致 的 症状 。 

提示 : 不 到 万 不 得 已 ， 最 好 别 使 用 工具 来 直接 检测 应 用 程序 发 起 的 IO， 因为 这 些 10 监测 

工具 一 般 是 第 三 方 开 发 并 且 都 是 插入 驱动 链 中 来 作用 的 , 和 弄 不 好 会 对 程序 产生 影响 , 更 其 

至 可 能 引起 系统 崩溃 。 所 以 ， 高 层 的 监测 工具 是 最 后 的 救命 稻草 


19.3.3 ”六 剂 良药 治愈 IO 性 能 低下 


由 于 本 章 前 面 的 部 分 已 经 对 IO 路 径 有 了 详细 的 分 析 , 相信 大 家 在 阅读 了 之 后 都 会 对 如 何 优 
化 IO 性 能 有 了 自己 的 宏图 ， 所 以 本 节 就 不 再 详细 介绍 ， 只 做 一 下 大 方面 的 总 结 ， 总 结 出 六 剂 治 
愈 IO 性 能 低下 的 良药 。 面 对 大 多 数 莫名 其 妙 的 性 能 低下 问题 ， 只 要 对 症 下 药 ， 那 么 十 之 八 九 都 
会 药 到 病 除 。 

症状 1: 存储 系统 每 秒 接收 到 的 I0 数 远 未 达到 系统 标 称 值 ， 链 路 带宽 也 远 未 达到 ， 前 端 接 
口 的 Queue Length 远 小 于 Queue Depth， 并 没有 严重 积压 现象 ， 存 储 系统 后 端 磁盘 繁忙 度 很 低 。 
主机 端 程序 的 I0 延迟 很 低 ， 但 是 吞吐 量 以 及 IOPS 并 未 满足 要 求 。 

可 能 病因 : 阳 火 不 旺 ， 不 能 自 举 。 调 用 方式 欠 火候 。 

病因 判断 : IO 源头 的 并 发 度 不 够 ,程序 使 用 了 单线 程 同步 IO。 在 这 种 情况 下 ,程序 无 法 利 
用 全 部 的 存储 系统 性 能 ， 虽 然 每 个 IO 的 延迟 很 低 ， 同 步调 用 的 程序 也 会 获得 一 定 的 性 能 ， 但 是 
毕竟 没有 异步 调用 或 者 多 线程 同步 调用 时 所 显现 的 性 能 。 

药方 : 生发 阳 气 。 修 改 程序 使 用 异步 IO 调用 或 者 多 线程 设计 。 

症状 2: 存储 系统 每 秒 接收 到 的 I0 数 远 未 达到 系统 标 称 值 ， 链 路 带宽 也 远 未 达到 ， 前 端 接 
口 的 Queue Length 值 接近 Queue Depth 值 ， 显 示 有 积压 的 10， 存 储 系统 后 端 磁盘 繁忙 度 很 低 。 
主机 端 程序 的 I0 延迟 很 低 ， 但 是 吞吐 量 以 及 I0PS 并 未 满足 要 求 。 

可 能 病因 : 经 络 不 通 ， 气 滞 淤 阻 。Queue Depth 过 低 。 
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病因 判断 : 可 以 判断 此 时 程序 发 起 IO 的 并 发 度 依然 不 够 ， 因 为 程序 的 IO 延迟 很 低 ， 如 果 
是 并 发 的 IO 造成 底部 积压 ， 那 么 对 于 程序 来 讲 其 IO 的 响应 时 间 会 很 高 而 不 是 低 。 正 因为 程序 
发 起 的 IO 是 一 个 接 一 个 的 ， 所 以 每 个 IO 的 响应 时 间 才 会 保持 较 低 的 值 ， 但 是 底部 的 Queue 依 
然 造成 了 积压 ， 由 于 存储 系统 标 称 值 远 未 达到 ,后 端 也 不 繁忙 ， 所 以 这 种 积压 一 定 不 是 由 于 存储 
系统 后 端 磁盘 资源 或 者 计算 资源 耗 尽 导致 的 。 所 以 问题 就 在 于 Queue Depth 不 够 。Queue Depth 
有 两 处 可 调节 ,一 是 主机 端 存储 控制 器 驱动 程序 处 ， 二 是 存储 系统 前 端 接口 适配器 驱动 处 。 

药方 : 下 通 经 络 ， 通则 不 痛 。 调 节 以 上 两 处 Queue Depth， 使 其 增 大 到 一 个 合适 的 值 ， 根 据 
本 章 前 文 所 述 的 Queue Depth 的 一 些 规则 来 确定 。 另 外 ， 本 病例 中 如 果 主 机 端 程序 的 IO 延迟 很 
高 , 其 他 症状 不 变 , 那么 就 表明 程序 可 能 在 使 用 异步 IO 或 者 多 线程 并 发 同步 IO , 治疗 方法 相同 。 

症状 3: 存储 系统 检测 到 Cache Hit 率 极 低 ， 磁 盘 几 乎 百 分 百 繁忙 ， 而 前 端 I0PS 和 带宽 很 
低 ， 业 务 所 要 求 的 响应 时 间 无 法 满足 。 

可 能 病因 : 急 火 攻心 ， 阴 虚火 旺 。IO 随机 读 过 大 。 

病因 判断 : IO 的 随机 度 过 大 ， 严 重 增加 了 存储 系统 磁盘 寻 道 时 间 ， 性 能 跟 不 上 。 

药方 : 降 火 凉 心 ， 滋 阴 养 阴 。 向 RAID 组 内 加 入 更 多 磁盘 ， 或 者 更 换 高 转速 高 规格 的 磁盘 ， 
或 者 使 用 缓存 LUN 等 类 似 技 术 , 或 者 直接 将 对 应 磁盘 更 换 为 SSD 等 存储 介质 ， 滋 阴 养 阴 ， 此 为 
治标 。 改 善 程序 的 IO 设计 或 者 降低 业务 的 复杂 度 ， 也 就 降低 了 IO 的 随机 度 ， 降 火 凉 心 ， 此 为 
治本 。 

症状 4: 从 主机 端 或 者 存储 系统 端 监测 到 的 主机 内 核发 出 的 I0 从 数量 和 容量 上 都 表现 为 较 高 
的 值 ， 通 过 计算 理论 上 可 以 满足 程序 的 需求 ， 但 是 程序 层 却 表 现 得 很 迟缓 ，I0 延迟 、I0PS、 带 宽 
等 尼 达 不 到 从 存储 端 监测 到 的 数据 所 体现 的 指标 ， 那 么 此 时 可 以 判断 在 主机 内 核 中 产生 了 惩罚 。 

可 能 病因 : 心神 不 宁 ,， 心 烦 意 乱 。 主 机 端 发 生 惩罚 现象 。 

病因 判断 : 此 症 为 心病 , 判断 起 来 非常 难 , 因为 不 管 是 从 主机 端 内 核 底部 还 是 从 存储 端 表现 
出 来 的 IO 行为 是 无 法 判断 是 否 在 主机 内 核 处 产生 了 惩罚 的 。 唯 一 判断 方法 是 在 用 户 程序 下 方 使 
用 IO 跟踪 工具 来 监测 本 层 的 IO ， 然 后 与 内 核 层 发 出 的 IO 做 对 比 ， 如 果 发 现 不 匹配 ， 比 如 底层 
的 IO 在 数量 和 容量 上 为 程序 发 起 IO 的 数 倍 ， 则 可 能 引发 了 惩罚 。 但 是 对 于 多 程序 并 发 访问 外 
部 存储 的 情况 下 ， 很 难 判断 是 哪个 程序 引发 的 惩罚 ， 此 时 可 以 使 用 差 量 法 判断 : 在 一 个 IO 流 恒 
定 的 时 间 范 围 内 ， 让 程序 提升 一 定 倍数 的 IO 并 发 度 或 者 IO 发 送 速率 ， 同 时 监测 底层 发 出 的 IO 
情况 ,不 引发 惩罚 的 程序 对 底层 的 IO 浮动 影响 绝对 值 较 小 ， 这 个 浮动 值 基本 等 于 程序 层 的 浮动 
值 ， 而 引发 惩罚 的 程序 会 引起 底层 IO 浮动 上 升 一 个 较 大 的 值 。 利 用 这 一 点 可 以 初步 判断 到 底 是 
哪个 程序 引发 了 惩罚 ， 之 后 ， 可 以 单独 部 署 这 个 程序 进一步 调查 其 IO 惩罚 情况 ， 从 而 做 出 改正 
措施 。 

药方 : 静心 安神 。 对 于 主机 端 内 部 产生 惩罚 ， 导 致 的 原因 有 两 种 。 

第 1 种 是 因为 程序 发 起 的 IO Size 不 等 于 Page Size 的 整数 倍 或 者 IO Size 平均 值 远 小 于 Page 
Size。 第 1 种 情况 可 以 通过 更 改 Page 大 小 来 解决 ， 不 过 修改 Page 大 小 一 定 要 经 过 深思 熟 虑 。 因 
为 OS 内 的 Page 是 全 局 的 ， 如 果 只 是 某 个 程序 的 IO Size 过 小 ， 则 不 能 因 哮 废 食 而 影响 了 其 他 程 
序 。 如 果 程 序 的 IO Size 虽 不 为 Page 整数 倍 但 是 规则 ， 比 如 512B、1KB 等 ， 则 尽量 使 用 DIO 模 
式 来 越过 Page Cache。 但 是 一 定 要 注意 DIO 的 对 象 ， 如 果 是 文件 或 者 块 设备 ， 那 么 在 某 些 OS 
之 下 (比如 AIX ) , 这 些 目标 对 象 依然 需要 使 用 Page Cache, 而 只 是 越过 了 文件 系统 Page Cache， 
并 未 越过 块 设备 的 Page Cache。 所 以 在 这 类 系统 下 ,使 用 DIO 的 时 候 最 好 是 针对 字符 设备 ， 也 
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就 是 RAW 设备 。 此 外 ， 也 并 不 一 定 非 要 使 用 DIO 或 者 RAW， 如 果 程 序 偏 要 使 用 内 核 缓存 来 
IO 文件 或 者 块 设备 ,那么 务必 在 调用 时 不 要 使 用 Write Through 参数 , 因为 这 样 会 加 重 惩罚 力度 。 
如 果 程 序 发 起 的 IO Size 并 不 是 512B 对 齐 的 , 而 又 因为 惩罚 而 产生 了 性 能 问题 , 那么 此 时 解决 办 
法 也 是 尽量 不 要 使 用 Write Through 模式 来 进行 IO 调用 。 

第 2 种 是 因为 程序 发 起 的 IO 的 起 始 地 址 并 没有 落 在 Page 的 边界 ,导致 额外 的 读 入 或 者 写 出 
1 个 或 者 多 个 Page。 对 于 第 2 种 情况 ， 应 当 尽量 去 修改 应 用 程序 ， 别 无 他 法 。 总 之 ， 修 改 应 用 程 
序 让 其 发 出 的 IO Size 即 为 Page 的 倍数 ， 起 始 地 址 又 落 在 Page 边界 ， 这 是 最 理想 的 状况 ， 此 为 
治本 。 

症状 5: 主机 端 并 未 发 出 大 量 的 I0 请 求 ， 但 是 存储 系统 却 忙 得 不 可 开交 ， 同 时 存储 系统 上 
并 没有 诸如 Deduplication 等 Data Cooker 的 后 台 操作 ， 主 机 端 I0 延迟 偏 高 。 

可 能 病因 : 心神 不 宁 ， 心 烦 意 乱 。 存 储 端 发 生 惩罚 现象 。 

病因 判断 : 这 种 症状 属于 更 加 隐秘 的 心病 , 是 最 难 判断 的 一 种 。 这 种 症状 只 是 一 个 极端 的 状 
况 , 实际 中 很 少 会 有 惩罚 严重 到 通过 监测 数据 就 可 以 观察 到 的 地 步 , 加 之 多 主机 共同 访问 存储 系 
统 造 成 的 混合 因素 ,更 加 难以 判断 。 但 是 一 些 存储 系统 会 对 这 种 内 部 惩罚 加 以 监控 和 输出 ， 用户 
只 需要 根据 输出 值 来 判断 惩罚 的 力度 即 可 。 造成 存储 系统 内 部 发 生 惩罚 的 原因 除了 主机 端的 两 种 
原因 之 外 , 还 有 第 3 种 ， 即 LUN 起 始 地 址 的 不 对 齐 ( 见 本 章 前 文 ) 。 一 旦 发 生 这 种 情况 ， 纵 使 
主机 端的 IO 再 规则 和 对 齐 ， 那 么 存储 端 也 会 出 现 惩罚 现象 。 

药方 : 静心 安神 。 对 于 LUN 不 对 齐 引发 的 惩罚 ， 多 半 是 因为 在 创建 LUN 的 时 候选 择 了 不 
匹配 的 操作 系统 类 型 ,此 时 则 需要 做 LUN 迁移 动作 , 或 者 删 掉 重建 。 对 于 主机 端 IO Size 不 能 被 
Page 整除 的 情况 ， 可 以 说 这 种 情况 对 于 程序 发 起 的 IO 是 比较 常见 的 ， 但 是 对 于 主机 内 核发 起 的 
IO， 一 般 很 少见 。 程 序 发 起 的 不 规则 IO 经 过 主机 内 核 之 后 一 般 都 会 经 过 Page Cache， 所 以 会 被 
映射 为 规则 的 Page 对 齐 的 IO 之 后 被 发 向 存储 系统 处 理 。 但 是 不 排除 一 些 特殊 情况 , 比如 程序 使 
用 了 DIO, 或 者 直接 操作 RAW 设备 , 同时 又 没有 让 IO Size 为 存储 端 Page 的 整数 倍 ， 这 就 比较 
常见 了 。 对 于 这 种 情况 的 解决 办 法 ， 需 要 综合 考虑 。 存 储 端的 Page Size 一 般 是 可 以 调节 的 ， 如 
果 存 储 端的 Page Size 与 主机 端的 平均 IO Size 相差 太 大 的 话 , 那么 需要 考虑 将 存储 端 Page Size 设 
置 为 所 有 主机 端 IO Size 的 平均 值 。 对 于 主机 端 发 送 的 IO 起 始 地 址 与 存储 端 Page 边界 不 重合 的 
情况 ， 也 是 很 少见 的 ， 如 果 排 除了 LUN 不 对 齐 导致 的 因素 ， 问 题 依然 存在 ， 那 么 只 能 说 明 主机 
端 不 按 常 理 出 牌 ， 这 种 情况 必须 要 修改 应 用 程序 的 IO 设计 。 

症状 6: 存储 系统 单个 RAID 组 中 硬盘 很 多 ， 转 速 也 很 快 ， 存 储 系统 控制 器 处 理 能 力也 强大 ， 
这 个 RAID 组 中 有 多 个 LUN 分 配给 了 多 个 主机 使 用 。 就 是 不 知道 为 什么 ， 当 一 台 主 机 访问 其 上 的 
LUN 时 ， 性 能 很 好 ， 但 是 一 旦 有 另 一 台 主机 同时 访问 这 个 LUN， 或 者 访问 这 个 RAID 组 上 其 他 LUN 
的 时 候 ， 性 能 又 降 ， 两 台 主机 获得 的 性 能 之 和 还 不 如 之 前 单 台 主 机 所 获得 的 性 能 。 

可 能 病因 : 筋骨 劳损 ， 不 堪 重 负 。 多 LUN 共享 同一 RAID 组 IO 冲突 。 

病因 判断 : 磁盘 最 怕 什 么 呢 ? 寻 道 。 一 个 RAID 组 中 的 磁盘 数量 是 一 定 的 ， 这 也 就 注定 了 
它 能 够 提供 的 性 能 是 个 定量 ， 如 果 将 多 个 LUN 放 在 同一 个 RAID 组 之 上 ， 那 么 这 多 个 LUN 就 
要 来 瓜分 整个 RAID 组 的 性 能 ， 分 配 的 方法 是 有 讲究 的 。 正 如 本 章 前 文 所 述 ，LUN 在 RAID 组 
内 的 分 布 有 多 种 方式 ,可 以 按照 纵向 顺序 的 分 布 , 也 可 以 按照 横向 横 跨 所 有 磁盘 分 布 ,可 以 混合 
型 分 布 ， 甚 至 可 以 完全 随机 分 布 。 

简单 纵向 顺序 分 布 的 LUN， 由 于 每 个 LUN 只 占用 1 块 或 者 几 块 硬盘 ( 根据 LUN 大 小 和 磁 
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盘 大 小 而 定 ) ， 所 以 每 个 LUN 的 性 能 都 是 固定 的 ， 不 同 的 LUN 之 间 不 会 相互 影响 ， 除 非 它们 
占用 的 磁盘 有 相交 。 但 是 这 样 的 分 布 方式 也 注定 了 每 个 LUN 的 性 能 有 限 , 如 果 使 用 146GB 硬盘 ， 
而 LUN 的 大 小 小 于 146GB， 那 么 这 个 LUN 所 拥有 的 性 能 容量 只 等 于 单 块 磁盘 的 性 能 。 

简单 横向 顺序 分 布 的 LUN， 由 于 每 个 LUN 都 横 跨 了 所 有 硬盘 ,所 以 每 个 LUN 都 能 享受 到 
整个 RAID 组 的 性 能 容量 ,但 前 提 是 一 段 时 间 内 只 有 和 针对 其 中 1 个 LUN 的 IO 被 处 理 。 如 果 一 
且 其 上 的 多 个 LUN 都 在 接受 IO， 那 么 由 于 每 个 LUN 是 横向 排 布 在 所 有 硬盘 上 的 ， 同 时 读 写 为 
不 同 的 LUN 中 的 数据 ， 就 要 求 磁盘 不 断 地 寻 道 ， 磁 头 臂 时 而 摆动 到 LUNI1 的 区 域 ， 时 而 摆动 到 
LUN2 的 区 域 。 这 就 好 比 一 个 十 字 路 口 , 任意 时 刻 只 能 有 一 条 路 的 车 辆 处 于 行进 状态 ， 另 一 条 路 
车 辆 必须 等 待 ,一 个 绿灯 周期 结束 的 时 候 ， 另 一 条 路 的 车 辆 开始 发 动 ， 发 动 过 程 是 很 慢 的 ， 就 类 
似 磁 盘 寻 道 过 程 。 如 果 遇 到 特殊 堵车 情况 ,可 能 一 个 绿灯 周期 只 能 过 1 辆 车 。 所以， 由 于 十 字 路 
口 的 存在 , 造成 了 两 条 路 的 车 辆 都 无 法 维持 高 速 行进 , 单位 时 间 内 两 条 路 的 行进 里 程 之 和 远 小 于 
没有 红绿灯 时 的 正常 行进 里 程 。 

所 以 说 , 被 寻 道 打 断 的 滋味 是 极其 难受 的 , 存储 系统 内 部 在 面 对 这 种 情况 的 时 候 , 或 许 会 做 
一 些 特殊 的 考虑 。 比 如 类 似 Linux 下 的 IO Scheduler 中 的 CFQ 的 思想 , 将 所 有 LUN 平等 地 对 待 ， 
并 且 做 一 个 比较 合理 的 周期 ， 如 内 核 可 以 依次 从 每 个 LUN 的 Queue 中 取出 一 定量 的 IO 充 入 后 
端 适配器 驱动 的 Queue 中 ,每 次 充 入 的 IO 数 就 决定 了 每 个 LUN 得 到 服务 的 周期 。 这 个 周期 是 
有 考究 的 ， 就 像 红 绿灯 一 样 ， 如 果 你 设 定 红绿灯 周期 为 10s， 那 可 能 有 些 车 还 没 启动 利索 呢 ， 红 
灯 已 经 到 了 。 相 应 地 ， 如 果 内 核 依 次 轮流 地 从 每 个 LUN 的 Queue 中 只 拿 出 1 个 IO 充 入 到 底层 
Queue 中 ， 那 么 底层 磁盘 所 做 的 动作 就 是 每 执行 一 个 IO ， 就 寻 道 一 次 将 磁头 定位 到 很 远 处 的 下 
一 个 LUN 的 区 域 ， 执 行 完 后 再 寻 道 ， 每 个 IO 都 需要 寻 道 ， 一 段 时 间 内 ， 大 跨度 寻 道 所 耗费 的 
时 阶 比 例 远 远大 于 传输 , 那 其 效率 可 想 而 知 。 所 以 这 个 周期 需要 根据 实测 结果 和 理论 推导 一 同 确 
定 。 同 一 个 RAID 组 内 越 多 的 LUN 同时 接受 IO, 那么 整体 性 能 就 越 差 , 磁盘 寻 道 造成 的 浪费 比 
例 也 就 越 大 ， 整 体 性 能 差 到 无 可 救 药 。 

注意 : 以 上 所 描述 的 性 能 损失 只 针对 连续 地 址 IO0 ， 因 为 连续 IO 之 所 以 本 应 该 性 能 良好 是 

因为 寻 道 开 销 很 小 ， 而 多 LUN 横向 分 布 导致 了 针对 每 个 LUN 的 连续 IO 整体 表现 为 了 随 

机 IO， 所 以 性 能 会 大 打折 扣 (也 就 是 前 文 所 述 的 “将 原本 有 的 东西 弄 丢 ”) 。 而 原本 针 

对 每 个 LUN 的 随机 IO 却 并 不 会 打折 ， 因 为 随机 IO 本 来 就 需要 频繁 寻 道 ， 所 以 多 LUN 并 

发 的 随机 ID0， 和 单个 LUN 的 随机 IO 相 比 , 在 磁盘 数量 相等 的 时 候 , 并 不 会 损失 这 一 组 磁 

盘 所 提供 的 整体 性 能 ， 每 个 LUN 获得 的 性 能 之 和 接近 于 RAID 组 整体 性 能 。 但 是 多 LUN 

相对 于 单 LUN 来 讲 ， 每 个 LUN 所 获得 的 性 能 是 下 降 了 ,但 是 整体 来 讲 却 没有 浪费 。 


对 于 分 布 式 RAID 模式 的 LUN 排列 以 及 类 文件 系统 模式 的 LUN 排列 方式 ， 其 本 质 与 上 面 
所 述 的 两 种 方式 类 似 ， 只 不 过 是 上 述 两 种 方式 的 一 种 结合 后 的 产物 。 所 以 这 里 就 不 再 过 多 分 析 这 
两 种 模式 对 性 能 的 影响 了 。 

另外 , 不 管 何 种 方式 分 布 的 LUN， 如 果 同 一 个 主机 上 有 多 个 程序 同时 访问 这 个 LUN, 并 且 
如 果 每 个 程序 各 自 访问 LUN 的 不 同 区 域 , 那么 这 些 程序 就 会 瓜分 这 个 LUN 所 拥有 的 性 能 容量 。 
比如 ， 有 两 个 程序 , 一 个 在 对 某 个 LUN 做 连续 IO, 而 另外 一 个 则 对 同一 个 LUN 做 随机 IO, 那 
么 连续 IO 所 获得 的 性 能 将 会 被 严重 拉 低 。 只 要 引入 了 磁盘 寻 道 的 任何 操作 都 会 将 连续 IO 性 能 
严重 拉 低 ， 甚 至 拉 低 到 与 随机 IO 一 个 等 级 上 。 

症状 样 例 : 某 视频 监控 系统 ， 用 户 200 路 摄像 头 数 据 同时 以 1Mb/s 的 速度 通过 千 兆 网 写 入 
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视频 主机 ， 主 机 和 存储 设备 通过 IP-SAN ( 千 兆 ) 连接 ， 存储 的 卷 是 3 个 14 块 1TB 的 SATA 盘 组 
成 的 RAID 5 组 ， 共 42 块 盘 ，3 个 RAID 5 组， 然后 3 组 卷 直 接 组 合成 一 个 大 磁盘 再 分 配给 主机 。 
这 时 候 直接 在 主机 上 打开 视频 文件 的 速度 很 慢 ， 慢 的 时 候 需 要 10 多 秒 甚至 无 法 响应 。 

症状 分 析 : 把 所 有 盘 组 成 一 个 大 盘 ， 所 有 文件 都 分 布 在 所 有 磁盘 上 ， 那 么 小 范围 顺序 IO 就 
会 变 为 整体 性 随机 IO, 性 能 显然 是 无 法 保证 的 。200 路 至 少 对 应 200 个 文件 , 同时 对 200 个 文件 
进行 IO， 整 体 来 讲 就 是 一 种 随机 IO， 本 身 速度 就 是 很 慢 的 。 再 加 上 随后 的 读 入 文件 进行 播放 的 
操作 ， 读 + 写 + 随 机 ， 这 就 更 加 重 了 磁盘 的 负担 。 解 决 办 法 是 将 文件 分 开 存放 ， 最 好 是 每 个 文件 
只 占用 一 个 物理 盘 ， 然 而 这 样 做 需要 修改 应 用 程序 ， 临 时 的 做 法 只 能 是 增加 存储 端的 条 带 深度 ， 
增加 到 最 大 ， 即 便 这 样 做 也 不 能 从 根本 上 解决 问题 。 

药方 : 放松 筋骨 ， 按 需 平 衡 负 载 。 根 据 具 体 需 求 ， 确 定 使 用 何 种 LUN 分 布 方式 。 比 如 ， 如 
果 不 计 成 本 ， 则 完全 可 以 为 每 个 LUN 单独 创建 一 个 有 足够 性 能 容量 的 RAID 组 ， 并 日 主机 端 程 
序 所 操作 的 文件 也 尽量 放 到 不 同 的 LUN 中 ,做 到 从 上 到 下 都 是 独 享 一 组 底层 磁盘 的 性 能 容量 ， 
这 样 做 是 最 好 不 过 的 , 也 是 最 完美 的 。 但 是 实际 中 不 可 能 不 考虑 成 本 , 所 以 每 个 RAID 组 上 一 般 
都 会 有 多 个 LUN 存在 ， 那 么 此 时 就 需要 进一步 规划 : 是 采用 纵向 分 布 ， 还 是 横向 分 布 ， 或 者 还 
是 自 定义 比例 的 纵横 结合 的 分 布 。 可 惜 的 是 ,正如 本 章 前 文 所 述 , 目前 市 场 上 的 产品 能 否 做 到 让 
用 户 来 选择 如 何 分 布 LUN 的 产品 几乎 没有 ,大 多数 产品 都 使 用 横向 LUN 分 布 方式 ， 所 以 用 户 
只 能 在 这 种 分 布 方式 上 来 做 文章 了 。 

而 如 上 文 所 述 , 横向 分 布 的 LUN 在 面 对 多 LUN 并 发 的 连续 IO 方面 可 谓 是 出 尽 洋 相 , 性 能 
差 得 一 塌 糊 涂 。 但 是 总 归还 是 有 一 些 死 马 当做 活 马 医 的 缓解 的 办 法 。 解决 的 办 法 : 将 RAID 组 的 
Stripe Depth， 也 就 是 Segment， 调 整 到 所 允许 的 最 大 值 。 这 样 做 就 会 加 大 每 个 Segment 所 包含 的 
连续 地 址 范围 ， 使 得 单 块 磁盘 包含 更 长 的 连续 地 址 段 ， 所以， 每 个 IO 所 占用 的 磁盘 数量 也 将 会 
随 之 减少 。 

不 过 通常 情况 下 ， 由 于 大 多 数 产品 可 供 配置 的 最 大 Stripe 有 限 , 假设 为 256KB， 如 图 19-97 
所 示 。 如 果 是 8 块 数据 盘 ， 那 么 Stripe Depth 就 相应 为 32KB ， 如 果 每 个 IO 平均 为 32KB 大 小 ， 
那么 这 个 IO 就 只 占用 这 块 磁盘 。 但 是 如 果 主 机 端 使 用 异步 并 发 IO 调用 方式 ， 那 么 单位 时 间 会 
有 多 个 IO 同时 被 这 组 磁盘 执行 。 假 如 8 个 32KB 的 连续 地 址 IO 同时 执行 ,那么 正好 就 占用 了 8 
块 磁盘 , 另 一 个 LUN 在 这 个 过 程 中 只 能 等 待 接 下 来 的 磁盘 寻 道 至 自己 的 区 域 从 而 为 自己 执行 IO 
操作 。 

如 果 将 Stripe Depth 进一步 加 大 , 比如 256KB, 也 就 是 说 Stripe 宽度 为 2048KB ， 如 图 19-98 
所 示 。 如 果 此 时 IO 还 是 并 发 8 个 32KB， 那 么 这 8 个 IO 其 实 都 落 入 同一 个 Segment， 只 需要 底 
层 针对 对 应 的 物理 磁盘 的 一 次 IO 即 可 读 出 或 者 写 入 这 8 x 32KB 的 数据 , 而 其 他 7 块 磁盘 都 是 空 
闲 的 。 如 果 还 有 额外 7 个 LUN， 那么 如 果 碰巧 的 话 ,每 个 LUN 均 可 以 同时 被 执行 8 个 32KB 的 
IO， 每 个 LUN 都 会 得 到 不 错 的 性 能 。 如 果 将 Stripe Depth 继续 增 大 ， 那 么 到 了 最 后 其 实 就 相当 
于 纵向 分 布 的 LUN 了 , 整个 LUN 都 分 布 在 一 块 硬盘 上 ( 硬盘 足够 大 ) , 到 了 这 时 候 , 每 个 LUN 
之 间 就 是 真 的 井 水 不 犯 河水 了 ， 但 同时 每 个 LUN 的 性 能 容量 最 大 值 也 就 等 于 单 块 磁盘 的 性 能 容 
量 了 。 其 实 , 增加 Stripe Depth 的 做 法 正 是 从 RAID 3 一 RAID 4 一 RAID 5 的 进化 路 线 中 关键 的 一 
步 ，Stripe Depth 越 大 ， 并 发 几率 也 就 越 高 ， 对 于 LUN 分 布 来 讲 ， 也 一 样 是 这 个 思想 。 
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Lun1 
Supet |E 


Lun2 
Stripe1| pae 


DISK1 DISK2 DISK3 DISK4 DISK5 DISK6 DISK7 DISK8 DISK1 DISK2 Dr: 
图 19-97 Stripe Depth=Segment=32KB 图 19-98 Stripe Depth=Segment=256KB 

当然 了 , 以 上 的 解决 方法 只 能 是 乱 放 枪 碰 运 气 , 要 从 根本 解决 , 还 需要 目前 的 存储 产品 设计 
上 更 加 入 性 化 ,提供 更 多 可 设置 的 LUN 分 布 方式 了 。 当 然 ， 最 终 的 治本 的 方法 ， 还 是 要 淘汰 机 
械 硬 盘 ， 使 用 无 机 械 寻 道 的 存储 介质 。 

到 此 ，6 个 典型 症状 已 经 介绍 完毕 了 。 实 际 中 所 遇 到 的 情况 很 有 可 能 是 以 上 几 个 症状 并 存 ， 
或 者 由 一 个 症状 引发 了 另 一 种 症状 的 连锁 反应 , 使 得 问题 的 解决 更 加 复杂 化 , 但 是 只 要 掌握 了 每 
种 症状 的 治疗 方法 ， 再 加 上 仔细 的 判断 和 分 析 ， 相 信和 总 会 药 到 病 除 。 


19.3.4 面向 SSD 的 IO 处理 过 程 优化 


SSD 使 用 的 NAND Flash 是 个 特殊 的 介质 ， 本 书 前 面 章 节 也 充分 描述 过 。SSD 所 表现 出 来 的 
性 能 确实 强劲 ， 那 么 当 SSD 被 用 在 外 置 磁盘 阵列 中 ， 与 机 械 硬 盘 混 用 时 ， 而 且 多 块 SSD 再 次 被 
组 成 RAID 组 时 ， 这 样 性 能 又 会 得 到 加 成 。 有 没有 一 些 针 对 SSD 的 优化 措施 呢 ? 有 不 少 ， 有 些 
恐怕 我 们 之 前 压根 没 想到 过 有 什么 相关 性 的 东西 ， 可 能 都 与 SSD 有 关 。 

"元 数据 结构 优化 : 由 于 无 须 考虑 IO 的 重 排 等 动作 , 针对 SSD RAID 组 的 内 存 中 元 数据 
结构 可 以 大 大 简化 ， 提 高 执行 效率 。 

"WB 可 以 改 WT 了: 由 于 SSD 响应 时 间 很 快 , 所 以 没有 必要 先 缓存 在 珍贵 的 RAM 中 ， 
然后 再 刷 盘 了 ， 直 接 透 写 到 SSD 中 即 可 ， 让 更 多 的 RAM 空间 用 于 缓存 机 械 硬盘 的 脏 
数据 ,SSD 盘 片 自身 有 大 容量 的 RAM 用 来 缓存 脏 数据 , 自身 可 以 对 数据 进行 合并 操作 ， 
并 且 使 用 超级 电容 来 防止 掉 电 ,所 以 可 以 放心 的 WT 到 SSD。SSD 对 进入 的 写 IO 属于 
WB 模式 , 因此 先 WB 到 阵列 全 局 RAM 还 是 直接 WB 到 SSD 中 的 RAM, 效果 相差 不 
大 ， 所 以 直接 WB (对 于 阵列 控制 器 来 讲 是 WT 到 SSD ) 到 SSD 中 即 可 。 

， ”不 用 双 控 镜像 了 : 由 于 针对 SSD RAID 组 对 于 阵列 来 讲 是 WT 操作 ， 所 以 阵列 的 双 控 制 
器 之 间 不 需要 对 WT 的 数据 进行 缓存 镜像 操作 ， 节 约 了 镜像 通道 带宽 ， 更 重要 的 是 降低 
了 写 IO 延迟 。 

" ”Queue 可 以 加 大 了 : 见 上 文 。 

= 阵列 控制 器 需要 支持 Trim 了 : 由 于 SSD 机 制 决定 ， 最 好 能 对 SSD 做 Trim 操作 以 提高 
性 能 。 但 是 SSD 插 到 阵列 中 之 后 ， 不 直接 面 对 主机 操作 系统 了 ， 它 们 之 间 相 隔 了 一 层 
阵列 控制 器 ， 所 以 此 时 如 果 依 然 要 支持 Tim， 那 么 就 需要 直接 面向 主机 操作 系统 的 阵 
列 控制 器 支持 Trim, 阵列 控制 器 将 Trim 指令 再 次 根据 SSD RAID 组 的 地 址 映射 信息 转 
换 为 针对 每 个 SSD 的 翻译 映射 之 后 的 Trim 指令 然后 下 发 到 每 个 SSD 中 ,一 个 主机 Trim 
指令 会 被 转换 为 多 个 Trim 指令 。 


873 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


874 


19.4 小结 : 再 论 机 器 世界 与 人 类 世界 


各 位 ,请 醒 来 , 我 们 现在 又 回 到 人 类 世界 了 。 我 们 所 看 到 的 这 些 机 器 ， 只 不 过 就 是 一 台 台 黑 
潜 潜 的 落 在 那儿 ,不 会 动 不 会 说 话 。 但 是 刚才 的 那 场 机 器 世界 的 游历 , 我 们 发 现 机 器 世界 是 如 此 
美妙 ， 每 一 步 都 精确 无 比 ， 每 一 步 都 井井有条 ， 鬼 径 神 工 般 地 运行 着 。 

再 来 看 看 人 类 世界 ， 一 个 生物 ， 其 内 在 的 一 切 生理 过 程 ， 与 机 器 的 处 理 过 程 是 极其 相似 的 ， 
每 一 步 都 精确 无 比 ， 每 一 步 都 巧夺天工 。 而 完成 这 些 生 理 过 程 所 依附 的 物质 ， 包 括 蛋白 质 分 子 、 
DNA 等 ， 也 是 非常 精妙 的 分 子 机 器 ， 分 子 由 原子 组 成 ， 原 子 由 更 小 的 粒子 组 成 ， 那 么 物质 世界 
的 基石 是 什么 呢 ? 可 能 到 头 来 所 发 现 的 “基石 ”根本 就 不 是 实 实在 在 的 东西 ， 而 可 能 就 是 一 种 正 
反 逻 辑 ， 即 “ 有 ”和 “无 ”， 就 好 像 计算 机 世界 的 基石 是 0 和 1。 而 由 这 些 基 石 所 组 成 的 高 层 逻 
辑 ， 其 实 也 不 是 物质 ， 而 是 一 种 刺激 ， 所 以 人 才 会 感知 到 这 些 “ 物 质 ”的 存在 。 也 就 是 说 所 谓 原 
子 和 分 子 等 并 不 是 一 种 实 实在 在 的 “物质 ”, 而 只 是 一 种 由 底层 基本 人 逻辑 经 过 排列 积累 而 组 成 的 
高 层 逻 辑 的 刺激 罢了 ， 触摸、 听觉 、 感 观 其 实 都 是 一 种 刺激 ， 包 括 机械 波 本 身 。 计 算 机 业 同 样 依 
托 0 和 1 不 断 地 产生 高 层 逻 辑 ， 一 层 层 累 加 直到 最 后 复杂 的 程序 。 是 谁 创造 的 这 些 造 化 呢 ? 


第 20 音 
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" IAAS、 PAAS、 SAAS 
"集群 与 虚拟 化 

，” 云 计算 、 云 存储 、 云 服务 
， 计算、 传输 、 存 储 


ERP、ITIL、Could， 这 是 21 世纪 伊始 从 西方 发 达 国 
家 兴起 的 次 时 代 IT 新 概念 。 如 今 ，ERP 并 未 获得 广泛 的 
推广 和 应 用 ，ITIL 仍 是 空中 楼 阁 ，Cloud 又 出 来 了 。 实 话 
实说 , 没有 经 济 腾飞 催生 大 批 信息 化 发 展 到 一 定 程度 的 企 
业 , 没有 迫切 的 需求 , 没有 达到 一 定 的 积累 和 高 度 ， 这 些 
特别 高 层 的 代 管 理 运 营 方 法 论 是 很 难 获得 推行 的 。 

而 Cloud 这 两 年 刚刚 兴起 并 又 从 国外 炒 到 了 国内 , 秀 
的 是 乌 烟 疗 气 ， 众 说 纷 颖 ， 你 说 你 的 ， 我 说 我 的 ， 各 地 争 
相 搞 云 。 搞 起 来 之 后 却 好 像 鲜 有 人 买账 。 搞 云 是 要 来 满足 
用 户 需 求 的 , 而 不 是 为 了 搞 而 去 搞 , 后 者 背后 有 一 定 的 不 
良 因 素 推动 

然而 ，Cloud 与 ERP 和 ITIL 还 是 有 一 些 区 别 的 。 云 
是 直接 为 盈利 而 催生 的 , 相对 于 前 两 者 来 讲 还 是 显得 比较 
实在 。 前 两 者 属于 一 种 管理 者 角色 , 务虚 ; 而 云 属于 一 种 
执行 者 角色 , 务实 。 虚 的 东西 落地 非常 难 ， 而 实 的 东西 很 
容易 落地 ， 这 也 是 云 为 何 快速 兴起 的 原因 。 有 人 头疼 了 ， 
说 我 怎么 每 次 听 到 人 讲 云 , 就 发 现 很 虚幻 呢 ? 那 是 因为 给 
你 讲 云 的 那 人 自己 也 虚 , 是 带 有 一 定 目 的 来 忽悠 的 , 而 不 
是 来 给 你 传道 授 业 的 。 本章, 笔者 将 会 站 在 中 立 角 度 为 大 
家 通俗 演绎 到 底 去 是 什么 。 
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20.1 太 始 之 初 一 一 “ 云 ” 的 由 来 


目前 , 云 计算 、 云 存储 、 云 备份 等 云 技术 可 谓 是 铺天盖地 地 袭 来 。 这 其 中 不 乏 有 一 些 浑 水 摸 

鱼 者 ， 其 本 身 并 不 具备 多 少 云 性 质 ， 却 也 在 打 着 云 的 旗号 想 在 市 场 炒作 中 分 一 杯 闭 。 目 前 市 场 对 
款 产品 是 否 为 云 产 品 并 没有 一 个 明显 的 界定 ， 因 为 云 这 个 东西 本 身 的 定义 就 没有 一 个 标准 ， 各 

种 机 构 纷 经 其 说 , 莫 囊 一 是 。 好 在 SNIA ( 存储 网 络 工 业 协 会 ) 在 不 久 前 发 布 了 CDMI( Cloud Data 
Management Interfice， 云 数据 管理 接口 ) 标准 用 来 规范 在 云 系统 中 实现 数据 传输 、 存 储 和 管理 的 
一 系列 规范 ， 这 个 标准 只 是 针对 一 个 云 系统 中 的 数据 存储 和 管理 部 分 而 制定 的 接口 标准 。 对 于 云 
系统 中 的 其 他 部 分 ， 比 如 用 户 接口 、 硬 件 管理 接口 等 ， 目 前 并 没有 一 个 标准 来 遵循 。 

正 因 如 此 ， 判 断 一 个 产品 是 否 为 云 产 品 ， 也 没有 什么 标准 可 循 。 

说 道 “ 云 ”这 个 词 , 其 由 来 显得 有 些 不 可 思议 。 我 们 都 知道 微软 Office 软件 中 的 PowerPoint， 
其 中 有 一 个 图 形 ， 如 图 20-1 所 示 。 我 们 在 制作 PPT 的 时 候 ， 经 常会 用 到 这 个 云 状 的 图 形 来 指 代 
一 堆 网 络 设备 、 存 储 设备 或 者 服务 器 设备 。 


图 20-1 云 一 词 的 由 来 

然而 ,在 国内 好 像 人 们 都 习惯 把 这 一 堆 设 备 称 之 为 “网 络 设备 群 ”、“ 服 务 器 和 群 ”， 也 就 是 
用 “和 群 ”这 个 字 ,， 起 因 是 因为 国外 在 指 代 这 堆 设备 的 时 候 ， 一 般 都 是 用 “Cluster ”这 个 词 。 而 
Cluster 中 文 一 般 被 翻译 为 “ 簇 ” 或 者 “集群 ”， 所 以 “和 群 ”就 这 么 出 现 了 。 某 一 天 ， 也 是 国外 某 
人 在 讲授 某 PPT 的 时 候 ， 顺 口 说 了 一 名 比如 “The server in the cloud”，“Cloud” 一 词 就 这 样 诈 
生 了 。 至 于 到 底 是 谁 第 一 次 说 出 这 个 概念 的 ， 之 后 通过 什么 途径 流行 开 的 ， 又 是 谁 率先 用 云 来 指 
代 大 规模 IT 基础 架构 的 ， 尚 无 从 考证 。 

云 诞生 并 且 被 公之于众 之 后 ， 人 们 对 云 基本 上 产生 了 4 种 理解 : 云 即 设备 、 云 即 集群 、 云 即 
IT 系统 、 云 即 服务 。 


20.1.1 观点 1 : 云 即 设备 


这 种 观点 也 是 最 原始 的 观点 , 它 仅 仅 指 代 某 一 堆 设 备 , 也 就 是 PPT 中 的 云 状 图 形 所 圳 括 的 那 
些 设备 。 此 时 ， 云 不 具有 任何 意义 ， 仅 仅 是 一 个 指 代词 ， 为 了 表达 方便 而 已 。 这 种 对 云 的 认 知 目 
前 依然 存在 ， 一 些 对 云 不 太 了 解 的 人 ， 往 往 一 开始 都 是 这 样 认为 云 的 。 然 而 ， 你 不 能 就 说 这 种 认 
知 是 错误 的 。 这 个 认 知 只 是 云 发 展 的 一 个 阶段 ， 也 确实 是 云 的 组 成 部 分 ， 因 为 没有 设备 支撑 ， 哪 
来 的 云 呢 ? 任何 概念 都 要 有 实 实在 在 的 支撑 。 
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20.1.2 观点 2 : 云 即 集群 


在 第 一 个 观点 ， 也 就 是 “ 云 即 设备 ”的 基础 上 ， 人 们 的 认 知 开始 逐渐 发 展 ， 如 果 云 仅仅 是 一 
堆 设备 的 话 ， 那 么 这 堆 设备 也 只 是 一 堆 设 备 而 已 ， 那 么 云 这 个 概念 也 就 就 此 罢了 了 ， 没 有 什么 发 
展 了 。 然 而 事物 总 是 要 不 断 向 前 发 展 ， 给 自己 开拓 新 道路 。 一 堆 设 备 肯定 不 是 这 个 事物 发 展 的 尽 
头 ， 如 果 再 向 前 进一步 会 变 为 什么 呢 ? 

当然 是 集群 了 ， 这 就 像 多 个 人 组 成 社会 一 样 ， 一 堆 人 放 在 一 起 便 会 自行 发 展 成 社会 ,一 推 设 
备 放 在 一 起 ， 其 高 级 形态 就 是 一 个 集群 。 设 备 之 问 是 有 机 联系 起 来 的 ， 共 同 协作 的 。 那 么 云 在 这 
个 认 知 和 发 展 阶段 ， 就 表现 为 一 个 集群 ， 不 管 是 计算 集群 还 是 存储 集群 。 


20.1.3 观点 3 : 云 即 IT 系统 


然而 ,一 个 集群 能 做 什么 呢 ? 集群 只 是 一 个 有 机 结合 可 以 写作 的 设备 集合 ,那么 如 果 云 只 表 
示 到 这 一 层 的 话 , 显然 也 是 没有 任何 生命 力 的 。 云 要 发 展 , 就 必须 再 往 上 走 。 集群 之 上 是 什么 呢 ? 
赋予 一 堆 硬 件 灵魂 的 ， 是 软件 。 软 件 和 硬件 组 合 起 来 才 是 一 个 完整 的 有 机 系统 ， 也 就 是 云 即 IT 
系统 ， 比 如 某 企业 的 IT 系统 ， 就 是 一 朱云 ; 某 运 营 商 的 IT 系统 ， 也 是 一 休 云 。 对 云 的 认 知 发 展 
到 这 一 层 ， 就 快要 露出 本 来 面目 了 。 


20.1.4 观点 4 : 云 即 服务 


那么 ， 云 即 IT 系统 这 个 观点 还 能 继续 再 发 展 么 ? 还 可 以 的 。 问 一 问 ，IT 系统 是 用 来 做 什么 
的 呢 ? 

答 1: “运行 程序 用 的 。” 

答 2: “支撑 和 服务 于 企业 生产 的 。” 

答 3: “用 来 盈利 的 。” 

这 三 种 答案 ,一 个 比 一 个 高 级 。 第 一 个 答案 显然 太 过 技术 化 ,没有 实际 直接 意义 ; 第 二 个 则 
很 靠 谱 ， 企 业 运 营 过 程 中 需要 借助 IT 系统 来 做 支撑 和 服务 ; 第 三 个 则 更 加 激进 了 ， 直 接 使 用 IT 
系统 来 便利 ， 暗 指 这 家 企业 靠 的 就 是 出 售 或 者 出 租 其 IT 系统 。 

我 们 着 重 来 看 第 三 个 回答 。 如 果 想 直接 拿 某 个 IT 系统 来 盈利 ， 换 了 你 ， 你 会 怎么 来 盈利 ， 
采取 什么 样 的 盈利 模式 呢 ? 

答 1: “直接 卖 掉 ， 拿 钱 ， 多 省 事 ! ” 

答 2: “我 搞 出 租 ， 把 整个 系统 租 给 别人 用 ， 我 收 租 ! ” 

答 3: “我 开发 个 网 络 游戏 ， 然 后 用 这 个 IT 系统 来 运营 这 个 游戏 ， 谁 想 玩 的 就 交 钱 ! ” 

咱们 来 分 析 一 下 这 三 种 盈利 方式 ， 第 一 种 最 直截了当 ， 盈 利 最 快 ， 直 接 卖 掉 数 钱 去 了 ， 但 是 
他 再 也 无 法 用 这 个 IT 系统 赚钱 了 ; 第 二 种 则 稍微 聪明 点 ， 虽 然 盈利 慢 , 但 是 资源 还 是 掌握 在 他 手 
里 ; 第 三 种 则 非常 精明 ， 但 是 需要 前 期 很 大 的 投入 来 开发 游戏 ， 然 而 一 旦 成 功 运营 ， 所 获得 的 收 
益 将 是 巨大 的 。 

比较 一 下 这 三 各 方式， 第 一 种 受众 面 将 会 很 小 ， 因 为 需要 购买 一 整个 IT 系统 的 人 几乎 很 少 
有 ; 第 二 种 受众 面 稍 大 一 些 ， 因 为 需要 租用 服务 器 租用 存储 空间 的 人 还 是 比较 多 的 ， 但 是 也 非常 
有 限 ; 第 三 种 呢 ， 受 众 面 则 非常 之 大 ， 几 乎 所 有 人 都 是 潜在 的 受众 ， 因 为 所 有 人 都 会 对 游戏 娱乐 
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有 基本 和 需求。 受众 面 直接 影响 到 利润 。 
题 外 话 : 笔者 个 人 极度 讨厌 网 游 , 尤其 是 最 近 充 斥 互联 网 的 黄色 网 游 , 属于 一 种 精神 毒品 ， 
本 人 坚决 抵制 网 游 。 有 空 学 学 谷歌 地 球 、 百 度 地 图 ， 搞 点 真正 能 产生 社会 价值 的 业务 ， 而 
不 要 像 国 内 某 运营 商 一 样 搞 些 虚拟 垃圾 来 俘虏 一 大 批 人 ， 浪 费 电 ， 浪 费 劳动 力 ， 全 民 玩 虚 
拟 网 游 ， 这 样 下 去 很 危险 。 


话说 回来 ， 这 第 三 种 一 利 方式 ,就 属于 一 种 用 服务 来 赚钱 的 模式 ， 提 供 游 戏 服务 。 还 有 众多 
服务 表现 形式 ， 比 如 邮箱 、 网 页 、 博 客 、 音 乐 、 影 视 等 。 这 些 都 是 大 众 最 基本 的 需求 ， 所 以 盈利 
面 很 大 。 在 一 套 IT 系统 之 上 可 以 同时 提供 多 种 服务 ， 那 么 可 以 最 终 认为 ， 能 够 提供 某 种 形式 IT 
服务 的 一 整套 IT 系统 ， 这 就 是 云 。 

从 这 个 角度 上 来 讲 ， 所 有 的 互联 网 运营 商 ， 比 如 各 大 网 站 ， 全 部 都 是 云 运营 商 ， 它 们 后 台 的 
IT 系统 从 建立 之 初 就 已 经 有 了 云 化 的 性 质 了 ， 但 是 离 真正 的 云 还 稍 有 差别 。 


20.1.5 云 目前 最 主流 的 定义 


可 以 从 上 文中 体会 到 ,设备 组 成 集群 ,集群 组 成 IT 系统 ，IT 系统 用 来 服务 。 这 一 串 的 理解 
恰恰 就 是 对 IT 系统 运营 的 理解 。 那么 是 否 可 以 将 这 四 个 理解 组 合 起 来 , 形成 一 个 最 终 的 观点 ? 云 
是 一 个 可 运营 的 IT 系统 。 但 是 , 这 个 定义 少 了 某 些 关键 的 东西 , 就 是 资源 迅速 灵活 地 部 署 和 回收 。 
也 就 是 说 , 云 当 前 的 主流 定义 是 : 一 个 可 运营 的 、 迅 速 灵 活 部 署 和 回收 资源 的 智能 IT 系统 。 云 为 
何 会 有 这 个 关键 点 ? 下 一 节 中 会 给 出 答案 。 

笔者 对 目前 业界 普遍 被 承认 的 云 性 质 做 了 总 结 。 云 应 当 具有 如 下 性 质 : 云 必须 体现 为 一 种 服 
务 交 易 而 不 是 实物 交易 ; 云 提供 商 拥有 一 定 规模 的 硬件 基础 ( 比如 足够 的 网 络 以 及 服务 器 和 存储 
设备 ) ; 云 提供 商 对 客户 提供 一 种 资源 的 租用 服务 而 不 是 资源 本 身 的 易 主 买卖 。 

凡是 具备 以 上 三 个 特性 的 系统 ， 都 可 以 称 其 为 云 系 统 ,或 者 云 服务 。 比 如 一 些 域名 公司 出 租 
的 网 页 空间 ， 其 包含 了 如 下 服务 : 服务 器 硬盘 上 的 空间 租用 、Web 服务 程序 运行 资源 租用 、 网 络 
带宽 流量 租用 、 域 名 维护 服务 。 这 些 服务 到 期 将 自动 回收 ， 比 如 网 页 空间 到 期 不 续费 ， 那 么 服务 
器 有 权 将 其 网 站 内 容 删除 ， 所 以 这 不 是 一 个 易 主 买 卖 ， 所 有 的 资源 都 归 供 应 商 所 有 ， 你 得 到 的 只 
是 服务 而 已 。 

对 于 “域名 供应 商 也 是 云 提供 商 ” 这 个 说 法 ， 可 能 有 些 人 并 不 同意 ， 因 为 他 们 认为 只 有 一 些 
高 端的 、 让 人 望尘莫及 的 大 型 的 运营 商 ， 比 如 Amazon 、Goosle 等 所 提供 的 服务 才 是 去 服务。 他 
们 还 认为 只 有 底层 使 用 了 硬件 集群 和 虚拟 化 技术 的 系统 ， 才 具备 最 基本 的 云 资格 ， 这 些 观点 都 是 
比较 狭隘 的 。 


20.2 ”混沌 初 开 一 一 是 谁 催生 了 云 


20.2.1 “一切 名 以 需求 为 导向 


任何 事物 的 出 现 、 发 展 状态 、 衰 落 , 都 有 其 底层 因素 。 云 这 个 词 从 PPT 中 被 衍生 出 来 ， 如 果 
没有 肥沃 的 土壤 ， 那 么 它 充其量 也 只 能 乖 于 地 被 用 来 指 代 “ 一 堆 设备 ”了 ， 或许 根本 不 会 为 人 所 
知 。 这 些 肥沃 的 土壤 ， 就 是 日 益 壮 大 的 用 户 需求 。 “互联 网 时 代 的 用 户 需求 ”， 如 果 把 这 个 当做 
一 个 课题 来 讲 的 话 ， 那 真 的 是 永远 也 讲 不 完 ， 太 多 了 ! 互联 网 以 及 接 入 终端 (PC、 手 机 等 ) 的 广 
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泛 普及 ,使 得 大 众 的 交流 渠道 产生 质 的 改变 ， 以 前 通过 书信 或 者 电话 才能 传达 的 信息 ， 现 在 可 以 
通过 互联 网 用 各 种 形式 来 实现 了 ， 比 如 传统 的 语音 、 图 像 视频 、 论 坛 、E-mail、 博 客 等 ,之 前 大 
众 之 间 的 大 量 交 流 需 求 被 一 下 子 爆发 了 出 来 。 

这 种 需求 的 爆发 , 其 直接 效应 就 是 信息 爆炸 , IT 系统 的 底层 支撑 设施 快速 被 饱和 。 就 像 一 个 
被 大 量 人 口 所 充斥 的 城市 一 样 ， 其 交通 系统 ( 网 络 ) 、 教 育 医疗 等 公共 服务 机 构 ( 各 种 应 用 服务 
器 ) 、 基 本 的 饮食 供应 ( 电力 供应 ) 以 及 住房 ( 存储 系统 ) 等 就 会 被 大 量 饱 和 ， 导 致 拥堵 不 堪 ， 
效率 低下 。 

面 对 互 联网 时 代 的 需求 爆炸 ,传统 的 IT 系统 已 经 显得 无 法 满足 了 。 为何 呢 ? 看 看 传统 IT 系 
统 是 怎么 运作 的 。 比 如 ， 某 运营 商 市 场 部 门 分 析出 未 来 一 年 内 网 页 游戏 业务 将 会 有 20% 的 增长 ， 
而 目前 支撑 网 页 游戏 的 IT 子 系统 的 利用 率 已 经 接近 100%， 需 要 对 现 有 的 系统 进行 扩容 ， 包 括 增 
加 Web Server 节点 的 数量 、 增 加 数据 库 服务 器 节点 的 数量 以 及 扩大 存储 系统 的 容量 。 系 统 扩容 就 
需要 采购 新 设备 ， 需 要 遵循 一 系列 流程 ， 耗 费 的 周期 很 长 ， 甚 至 已 经 可 能 慢 于 业务 的 变化 周期 。 
也 就 是 说 可 能 一 个 业务 当 你 忙活 着 部 署 的 这 段 周期 内 ， 市 场 需求 可 能 慢 慢 消失 了 ， 部 署 业务 的 速 
度 慢 于 市 场 需 求 变化 的 速度 。 此 外 ， 技 术 层面 还 存在 停机 的 风险 。 

而 这 个 运营 商 的 另外 一 项 业务 一 一 在 线 视频 聊天 室 ， 由 于 经 营 惨淡 ,支撑 这 项 业务 的 IT 子 
系统 利用 率 不 足 60%， 有 40% 的 余 量 没有 被 充分 利用 。 如 果 能 够 将 这 40% 的 余 量 用 于 支撑 网 页 游 
戏 业 务 的 扩充 需求 ， 那 么 就 是 最 好 不 过 的 了 。 但 是 这 样 做 在 技术 层面 风险 很 大 ， 如 果 将 两 套 业务 
系统 部 署 在 同一 个 操作 系统 中 ， 会 大 大 增加 两 种 业务 的 粘 合 度 ， 不 利于 后 期 的 运 维 管理 ;另外 ， 
将 同一 个 业务 分 布 在 两 个 资源 孤岛 上 ， 更 加 不 利于 维护 。 最 后 ， 由 于 整个 数据 中 心 的 服务 器 与 存 
储 设备 繁多 ， 各 种 协议 、 各 种 不 同 厂商 的 设备 混 存 ， 架 构 复杂 ， 这 种 情况 下 ， 单 靠 手 动 来 部 署 、 
管理 和 回收 各 种 资源 已 经 变 得 非常 有 挑战 性 了 ， 一 是 效率 低 还 容易 出 错 ， 二 是 速度 慢 到 可 能 影响 
业务 上 线 ， 尤 其 是 在 一 个 承载 多 项 业务 的 数据 中 心中 ， 各 种 业务 对 底层 的 要 求 都 不 同 。 

以 上 这 个 场景 可 以 总 结 为 以 下 3 个 问题 : 

， 业务 部 署 周 期 太 长 ; 

" 资源 不 能 充分 回收 利用 ,资源 孤岛 林立 ; 

， 手动 部 署 已 经 无 法 满足 要 求 。 

这 3 个 问题 已 经 成 为 所 有 互联 网 运营 商 的 痛 点 。 如 何 解 决 ? 请 继续 阅读 下 面 的 章节 。 


20.2.2 ” 云 对 外 表现 为 一 种 商业 模式 


笔者 恰恰 不 这 么 认为 ,或 者 说 ， 上 面 这 些 观点 只 属于 狭义 范围 内 的 对 云 的 定义 。 而 广义 范围 
内 的 云 ， 其实 并 不 局 限于 硬件 或 者 软件 的 技术 或 者 架构 ， 最 初 的 、 广 义 上 的 云 ， 其 实 是 一 种 商业 
模式 ， 而 当 商 业 模式 与 具体 的 计算 机 技术 相 结合 之 后 ， 便 产生 了 云 这 个 代名词 。 所 以 说 ， 云 既是 
一 种 商业 模式 的 指 代 ， 又 是 一 种 计算 机 技术 的 大 集合 。 
正 因为 云 本质 上 起 源 于 一 种 商业 模式 而 不 是 技术 模式 ,那么 云 当然 也 就 没有 一 个 外 在 的 像 技 
术 一 样 严格 的 标准 了 。 为 何 这 么 说 呢 ? 举 个 例子 , 有 10 个 人 , 每 人 都 想 开 一 家 餐馆 ， 那 么 其 结果 
一 定 是 这 10 个 人 开 的 餐馆 , 每 个 都 是 不 同 的 。 首 先 就 是 店面 布局 不 同 , 其 次 是 价格 不 同 , 再 次 是 
管理 方式 和 管理 所 用 的 工具 不 同 ， 最 后 就 是 菜肴 种 类 和 口味 也 不 同 。 那 么 我 们 回 到 计算 机 领域 ， 
比如 还 是 这 10 个 人 ,每 人 都 有 10 台 服 务 器 ， 现 在 想 让 这 10 个 人 用 这 10 台 服 务 器 来 获取 最 高 能 
利润 ， 其 结果 肯定 也 是 不 同 的 。 比 如 有 人 选择 直接 卖 掉 它们 ， 易 主 交易 ; 有 人 则 想到 了 另外 的 方 
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法 ， 比 如 有 人 做 起 了 网 站 空间 出 租 业 务 ， 还 附带 一 系列 的 诸如 域名 、 网 盘 等 其 他 业务 ; 也 有 人 在 
其 上 开发 了 一 个 软件 平台 ， 做 起 了 文档 阅读 服务 ; 还 有 人 则 利用 这 些 服 务 器 开办 了 计算 业务 。 选 
择 出 租 空间 的 ， 就 可 以 叫 它 云 存储 ; 而 选择 出 租 计算 资源 的 ， 就 可 以 叫 它 云 计算 了 。 

云 虽然 没有 一 个 外 在 标准 ， 但 是 基于 同一 种 商业 模式 所 诞生 的 不 同 产品 ， 它 们 显然 是 有 共性 
的 ， 比 如 都 拥有 自己 的 硬件 基础 架构 ， 包 括 网 络 、 服 务 器 、 存 储 设备 和 软件 平台 ; 都 提供 特定 的 
用 户 接口 , 比如 通过 网 页 方式 来 享受 服务 , 或 者 通过 客户 端 程序 连接 到 云 供应 商 处 来 获取 资源 等 。 

这 种 共性 不 代表 标准 ， 也 无 法 被 标准 化 。 自 古 到 今 从 来 没有 人 或 者 机 构 对 其 他 人 的 商业 模式 
来 制定 标准 ， 就 像 并 没有 人 规定 ， 所 有 的 餐馆 必须 是 两 层 楼 ， 必 须 以 某 某 规 格 来 装修 一 样 。 对 于 
装修 简陋 的 餐馆 ， 它 依然 还 是 一 家 餐馆 ， 你 不 能 因为 它 简陋 就 认为 它 不 是 餐馆 了 。 正 如 有 些 域名 
商 只 用 一 台 服 务 器 就 承载 了 多 个 网 站 一 样 ， 虽然 只 有 一 台 服 务 器 ,但 是 它 的 商业 模式 已 经 是 云 模 
式 了 。 

云 商 业 模式 中 又 可 以 细 分 为 多 种 具体 的 商业 模式 ， 比 如 IAAS、PAAS 或 SAAS 等 。 这 就 好 比 
有 些 餐 馆 只 卖 炒菜 ， 而 有 些 只 卖 面条 一 样 。 关 于 这 三 个 服务 模式 ， 下 文 会 有 介绍 。 


20.3 ”落地 生根 一 一 以 需求 为 导向 的 系统 架构 变化 


20.3.1 云 对 内 表现 为 一 种 技术 架构 


正如 20.2.1 节 中 的 那个 场景 ， 传统 IT 系统 的 技术 架构 已 经 对 商业 需求 产生 了 制约 效应 。 而 
解决 那 两 个 痛 点 的 技术 手段 ， 自 然而 然 的 非 虚拟 化 莫 属 。 服 务 器 虚拟 化 ， 即 虚拟 机 系统 ， 充 分 地 
利用 了 资源 ， 辅 以 诸如 VMware 虚拟 机 系统 中 的 VMotion 、DRS ( Distributed Resource Scheduler ) 
等 技术 ， 极 大 地 增加 了 部 署 灵 活性 和 资源 均衡 性 。 如 果 那 个 运营 商 已 经 部 署 了 虚拟 机 系统 ， 那 么 
之 前 那个 痛 点 就 自然 解决 了 ， 旧 业务 的 余 量 将 会 被 自动 回收 ( 对 物理 服务 器 的 资源 消耗 降低 ) ， 
新 业务 所 需 的 应 用 主机 可 以 直接 以 虚拟 机 的 方式 被 部 署 在 物理 机 上 ， 可 以 与 日 业务 使 用 同一 台 物 
理 机 ， 但 是 操作 系统 却 是 各 用 各 的 ， 避 免 了 粘 合 影响 。 另 外 ， 部 署 虚 拟 机 比 部 署 物理 机 所 耗费 的 
时 间 大 大 减少 ， 极 大 地 提升 了 针对 新 业务 的 响应 速度 。 最 后 ， 使 用 一 种 资源 自动 化 分 配 与 回收 平 
台 来 解决 自动 化 部 署 的 问题 。 这 样 ， 那 3 个 痛 点 就 这 样 被 轻松 地 解决 了 。 

传统 的 数据 中 心 “ 太 硬 ”， 需 要 在 其 上 增加 一 个 弹性 层 ， 让 其 “ 变 软 ”， 成 为 软 数据 中 心 或 
者 称 其 弹性 数据 中 心 。 而 实现 弹性 软化 的 一 个 方法 就 是 使 用 虚拟 化 技术 ， 包 括 计算 资源 和 存储 资 
源 的 虚拟 化 。 

大 家 知道 ， 古代 的 马车 ， 近 代 的 汽车 ， 都 是 使 用 实心 轮子 ， 这 样 是 无 法 跑 快 和 跑 稳 的 。 后 来 
人 们 发 明了 充气 轮胎 ， 最 终 使 得 现代 的 汽车 可 以 高 速 行驶 ， 并 且 保 证 平稳 。 对 于 一 个 数据 中 心 也 
是 一 样 的 , 早期 , 没有 任何 虚拟 化 措施 , 买 了 多 少 台 服务 器 ,就 是 多 少 台 , 不 能 变 多 也 不 能 变 少 ， 
当然 , 除非 你 关 掉 几 台 ; 同样 , 你 买 了 多 少 存储 就 有 了 多 少 空 间 , 这 些 空间 不 会 变 多 也 不 会 变 少 。 
那 时候 ， 人 们 根本 想象 不 到 ， 如 今 可 以 利用 虚拟 机 技术 将 一 台 服 务 器 虚拟 化 为 几 十 台 虚 拟 机 ， 也 
不 会 想到 Thin Provision 以 及 Deduplication 技术 可 以 让 存储 空间 像 变 魔术 一 样 从 小 变 大 或 者 从 大 
变 小 ， 正 如 古代 人 的 飞天 梦想 如 今 早已 实现 一 样 。 如 果 说 硬 数 据 中 心 是 早期 的 实心 轮胎 的 话 ， 那 
么 软 数据 中 心 就 是 充气 轮胎 了 。 如 图 20-2 所 示 ， 在 传统 的 数据 中 心 硬 核心 之 外 ， 被 包 诸 了 一 层 
软 外 壳 层 , 增加 了 弹性 , 这 层 软 外 壳 可 看 作 是 虚拟 机 管理 系统 、 分 布 式 文件 系统 、 集 群 /Scale-Onut 
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架构 的 NAS/SAN， 以 及 Thin、Dedup 等 将 硬 计算 与 存储 资源 进行 虚拟 化 和 灵活 化 处 理 的 层次 ， 
这 一 层 形成 之 后 ， 整 个 数据 中 心 就 变 为 了 软 数 据 中 心 了 。 再 向 上 走 一 步 ， 如 果 还 能 做 到 部 署 回 收 
自动 化 、 可 度量 化 、 服 务 化 、 可 运营 的 数据 中 心 ， 那 么 这 也 就 是 个 云 数据 中 心 了 。 


硬 数据 中 心 与 软 数据 中 心 ”一 一 一 


回 


图 20-2 给 数据 中 心 增加 弹性 

再 比如 之 前 用 服务 器 办 计算 业务 的 那个 例子 ， 他 只 有 10 台 服 务 器 ， 如 果 来 找 他 买 计算 服务 
的 人 越 来 越 多 ， 已 经 超过 10 个 客户 了 ， 那 么 第 11 个 客户 就 只 能 等 待 么 ? 不 能 等 ， 否 则 他 会 找 其 
他 供应 商 的 。 那 怎么 办 ? 他 自然 而 然 地 想到 了 虚拟 化 技术 。 他 在 这 10 台 服 务 器 上 部 署 了 虚拟 机 平 
台 ， 每 台 物 理 机 器 可 以 虚拟 出 多 台 虚拟 机 器 ， 这 样 他 就 可 以 接 更 多 的 订单 了 。 再 之 后 ， 他 发 现 每 
次 客户 都 是 通过 FTP 方式 来 上 传 需要 计算 的 数据 , 而 每 次 他 收 到 之 后 都 要 手动 转换 格式 然后 载 入 
计算 ， 为 了 解决 这 个 问题 ， 他 开发 了 一 种 自动 转换 格式 的 程序 ， 而 且 还 做 了 一 个 网 页 接口 ， 客 户 
每 次 只 要 通过 网 页 方式 上 传 ， 并 选择 对 应 的 参数 ， 那 么 服务 器 会 自动 把 这 些 数 据 转换 成 对 应 的 格 
式 ， 自 动 计算 ， 并 且 最 后 将 计算 的 结果 自动 通知 客户 ， 大 大 节省 了 人 力 成 本 ， 人 所 要 做 的 工作 只 
是 管理 和 收费 即 可 。 再 后 来 ， 连 收费 系统 都 变 成 了 自动 的 ， 利 用 网 络 支付 平台 实现 了 自动 支付 ， 
其 服务 器 的 规模 也 日 益 增 大 ， 最 后 发 展 成 为 一 个 底层 为 大 规模 集群 的 、 中 层 通过 虚拟 化 技术 抽象 
虚拟 化 的 、 表 层 全 自动 业务 处 理 的 大 型 云 计 算 系 统 。 

对 于 云 存 储 ， 也 是 一 样 的 道理 。 从 最 简单 的 存储 空间 租用 ， 到 最 后 变 成 底层 大 容量 的 存储 设 
备 集群 、 中 层 加 入 存储 虚拟 化 层 以 及 各 种 数据 管理 功能 层 ( Thin 、 分 级 、 快 照 、 容 灾 等 ) 、 表 层 
实现 全 自动 业务 处 理 的 云 系 统 。 

综 上 所 述 ， 虚 拟 化 和 集群 化 是 云 系统 中 两 个 重要 的 角色 。 另 外 ， 云 系统 中 还 需要 另外 一 个 重 
要 的 角色 ， 也 就 是 一 个 负责 资源 自动 部 署 、 调 度 、 分 配 和 回收 的 管理 者 角色 ， 它 表现 为 一 套 软件 
模块 ， 这 个 模块 对 内 与 整个 云 中 的 各 个 资源 部 分 通信 以 达到 对 资源 的 管理 ， 对 外 则 负责 响应 业务 
部 署 的 需求 , 将 这 些 需求 转化 为 对 内 的 资源 调度 分 配 和 管理 。 这 个 模块 综合 来 讲 , 就 是 “自动 化 ”。 

用 合适 的 技术 架构 来 承载 互联 网 时 代 的 商业 需求 ， 云 对 内 表现 为 一 种 技术 架构 。 集 群 化 、 虚 
拟 化 、 自 动 化 是 作为 一 个 云 来 讲 所 必需 的 特性 ， 然 而 ， 有 了 这 些 还 不 够 。 一 个 云 想 要 达到 可 运营 
的 状态 ， 还 必须 做 到 可 度量 化 ， 任 何 用 户 使 用 了 何 种 资源 ， 为 期 多 长 时 间 ， 耗 费 多 少 成 本 ， 毛 利 
率 几 何 ， 报 价 几何 ， 这 些 都 要 经 过 精确 的 度量 、 定 价 过 程 。 
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20.3.2 ” 云 到 底 是 模式 还 是 技术 


云 到 底 表示 一 种 商业 模式 ,还 是 表示 为 一 种 技术 架构 呢 ? 可 以 说 这 是 个 鸡 生 蛋 和 和 蛋 生 鸡 的 问 
题 。 前 者 是 先 有 了 云 的 思想 ， 然 后 才 在 对 应 的 技术 架构 上 来 实现 了 这 种 思想 ; 而 后 者 则 是 先 有 了 
大 量 的 物质 基础 ， 有 了 对 应 的 技术 架构 ， 比 如 虚拟 化 和 集群 架构 ， 然 后 自然 想到 了 如 何 利用 这 些 
物质 基础 来 获取 最 大 利润 ， 于 是 便 催 生 了 云 这 种 商业 模式 。 我 们 已 经 很 难 追 溯 云 的 发 展 史 了 ,所 
以 到 底 是 谁 催生 了 谁 ， 可 能 永远 也 说 不 清 ， 道 不 明了 。 但 是 有 一 点 是 肯定 的 ， 两 者 结合 之 后 ， 一 
定 是 相互 催生 ， 相 辅 相 成 ， 一 直到 今天 被 炒 的 如 此 火热 的 程度 。 


数据 的 存储 、 管 理 、 运 营 


数据 可 回溯 
价值 与 价格 平衡 


， 稳 定 高 可 靠 
的 存储 空间 
图 20-3 数据 的 存储 、 管 理 与 运营 

大 家 看 一 下 图 20-3。 最 早期 的 时 候 ， 存 储 系统 只 注重 数据 存储 ， 只 给 你 提供 一 块 空间 ， 数 
据 怎么 管 ， 怎 么 用 ， 底 层 存储 不 关心 。 后 来 随 着 人 们 需求 的 增长 ， 这 种 心态 已 经 完全 落伍 了 。 存 
储 系 统 开始 注重 数据 管理 ， 针 对 各 种 需求 开发 了 各 种 数据 管理 功能 ， 比 如 数据 保险 ， 也 就 是 快照 
或 者 CDP， 重 删 以 及 Thin， 数据 容 灾 、 克 隆 、 迁 移 等 。 再 后 来 ， 存 储 系统 除了 关心 怎么 存 、 怎 
么 管 ， 还 开始 关心 怎么 用 的 问题 了 ， 也 就 牵扯 到 数据 运营 了 。 存 储 系 统管 得 越 来 越 多 ， 越 来 越 上 
层 了 ， 越 往 上 走 ， 就 已 经 不 是 存储 系统 这 个 子 系统 所 能 掌控 的 了 ， 此 时 需要 贴近 用 户 的 应 用 , 会 
注重 业务 展现 ， 针 对 传统 存储 厂商 来 讲 是 个 很 大 的 挑战 。 由 于 互联 网 日 益 莲 勃发 展 ， 越 来 越 多 拥 
有 IT 资源 的 机 构 都 想 通 过 互联 网 来 进行 运营 ,包括 ISV、NSP、 传 统 电 信 运 营 商 ， 这 就 注定 了 云 
的 发 展 。 

有 人 认为 云 的 本 质 是 虚拟 化 技术 或 者 集群 技术 ， 这 一 点 也 比较 偏颇 。 应 当 说 云 的 本 质 是 一 种 
由 虚拟 化 和 集群 技术 支撑 的 以 服务 为 模式 的 可 运营 的 IT 系统 ,也 就 是 商业 模式 与 技术 架构 共同 组 
成 了 云 系统 。 云 只 是 利用 了 很 多 技术 来 实现 商业 模式 和 目的 而 已 。 云 包含 的 技术 不 仅仅 是 虚拟 化 
和 集群 技术 ， 还 有 其 他 各 种 技术 ， 比 如 并 行 计 算 技 术 等 。 可 以 说 只 要 存在 的 技术 ， 都 可 以 融入 到 
云 中 ， 但 是 虚拟 化 和 集群 技术 是 大 规模 云 所 必需 的 。 

云 就 是 一 个 可 以 提供 某 种 模式 服务 的 、 可 以 根据 业务 迅速 响应 并 且 自 动 地 、 迅 速 而 灵活 地 部 
署 和 回收 资源 的 智能 IT 系统 。 至 于 到 底 要 多 么 智能 才 算是 云 ， 没 有 一 个 固定 标准 。 可 以 这 么 说 ， 
传统 的 数据 中 心 如 果 叫 它 云 1.0。 那 么 目前 兴建 的 这 些 融 入 了 新 技术 的 可 灵活 部 署 的 数据 中 心 可 以 
叫做 云 2.0。 
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如 图 20-4 所 示 为 从 用 户 需求 到 最 终 业务 展现 的 流程 示意 图 。 这 张 图 概括 了 之 前 章节 所 表达 


的 所 有 观点 。 
针对 这 些 需求 能 提供 什么 服务 ? 


如 何 更 好 更 快 的 提供 [1 服务 ? 


推出 业务 


| 灵活 快速 的 业务 运营 、 优 良 用 户 体验 , 谁 来 支撑 ? 


20.3.3 ”公有 云 和 私有 云 


此 时 我 们 已 经 有 了 一 个 云 数据 中 心 了 ,那么 这 个 数据 中 心 是 打算 只 对 企业 内 部 开放 服务 ,还 
是 对 互联 网 之 外 的 任何 人 开放 服务 呢 ? 有 时 候 某 个 企业 的 私有 数据 中 心 想 转变 为 云 模式 ， 只 对 企 
业内 部 提供 云 服务 , 比如 存储 空间 申请 、 桌 面 备份 和 恢复 ,以 及 企业 内 部 应 用 系统 的 快速 部 署 等 ， 
那么 这 个 云 就 属于 私有 云 的 范畴 。 而 如 果 某 个 数据 中 心 如 果 想 要 对 外 营业 ， 通 过 互联 网 提供 各 种 
云 服务 ， 那么 这 个 云 就 属于 公有 云 的 范畴 了。 其实 叫做 公用 云 和 私 用 云 更 准确 ， 用 户 并 非 拥 有 这 
个 云 而 只 是 在 使 用 这 个 云 。 公 有 云 数据 中 心 一 般 都 属于 运营 商 ， 运 营 商 更 懂得 运营 之 道 。 


1. 私有 云 让 企业 IT 部 门 的 角色 彻底 转变 


对 于 一 个 企业 来 讲 , 其 IT 部 门 的 角色 往往 是 比较 尴 座 的， 甚至 对 于 一 个 搞 IT 的 公司 也 是 这 
样 。 企 业 的 IT 部 门 在 传统 观念 下 被 定义 为 一 个 底层 支撑 部 门 , 但 却 基本 上 没有 自己 的 话语 权 , 话 
语 权 被 掌握 在 业务 部 门 手中 。 比如 某 制造 企业 需要 上 一 个 新 产品 生产 线 , 这 个 项 目 对 IT 部 门 的 要 
求 则 是 提供 足够 性 能 的 服务 器 、 存 储 等 以 用 来 承载 新 业务 系统 。IT 部 门 在 接 到 这 个 任务 之 后 ， 就 
必须 进行 调研 之 后 发 起 招标 采购 等 流程 。 我 们 看 看 这 个 过 程 中 存在 的 一 些 特征 和 问题 。 

首先 , IT 部 门 在 整个 过 程 中 始终 处 于 业务 部 门 的 牵引 之 下 , 一 切 围绕 业务 需求 来 开展 , 所 有 
的 采购 、 经 费 申请 等 必须 以 业务 需求 为 前 提 ， 业 务 没有 需求 就 基本 上 申请 不 到 大 批 经 费 和 资源 。 

其 次 ,传统 的 IT 架构 中 ,不同 的 业务 一 般 不 会 运行 在 同一 台 物 理 服 务 嚣 中 ， 这 就 导致 每 上 
一 个 业务 ， 基 本 上 就 要 采购 一 批 新 设备 。 而 如 果 之 前 某 个 业务 下 线 了 ， 或 者 企业 根据 市 场 状 况 决 
定 将 某 业 务 缩 量 生产 候 旗 息 鼓 ， 那 么 此 时 IT 系统 中 用 来 支撑 这 些 业务 的 设备 负载 就 会 随 之 降低 ， 
释放 了 资源 ， 但 是 这 些 被 释放 的 资源 却 得 不 到 利用 。 
基于 上 面 两 个 因素 , IT 部 门 有 潜在 的 意愿 来 将 自己 的 角色 进行 彻底 转变 , 之 前 被 业务 部 门 牵 
着 走 ， 现 在 它 想 提高 自己 的 地 位 ， 不 说 跑 到 业务 前 面 去 ， 也 要 与 业务 部 门 处 于 平等 地 位 。 怎 么 实 
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现 这 种 角色 转变 呢 ? 

“服务 ”这 两 个 字 恰 好 满足 了 这 种 转变 的 需求 。 比 如 ，IT 部 门 采 取 了 一 系列 措施 将 自己 彻底 
打造 为 一 个 以 服务 为 导向 的 部 门 ， 这 些 措施 包括 : 建立 规范 的 资源 申请 流程 ， 不 管 是 从 日 常 桌面 
维护 还 是 新 业务 上 线 方面 ,建立 电子 工 单 审批 系统 ,任何 人 想 要 获得 任何 IT 服务 都 必须 填写 工 单 ， 
审批 之 后 IT 部 门 输出 对 应 的 服务 ; 另外 还 建立 了 一 套 可 度量 的 资源 使 用 记录 统计 系统 , 比如 可 以 
统计 某 其 他 部 门 在 某 段 时 间 内 使 用 了 多 少 IT 资源 ， 这 些 资源 等 价 于 多 少 成 本 。 

这 套 东 西 被 推行 之 后 , IT 部 门 这 个 独立 服务 角色 就 定型 了 。 既然 是 服务 , 那么 其 就 有 了 一 定 
的 话语 权 , 并 不 是 “用 户 ”( 企业 其 他 业务 部 门 ) 说 什么 IT 部 门 就 要 干什么 的 。 这 样 也 就 在 向 企 
业 申 请 各 种 资源 方面 有 了 更 大 的 弹性 和 主动 权 。 这 样 ， 业 务 部 门 在 向 IT 部 门 申请 IT 资源 的 时 候 
就 是 以 一 种 协商 态度 而 不 是 强势 的 牵制 态度 了 。 另 外 ， 由 于 资源 的 使 用 变 得 可 度量 ,IT 部 门 就 会 
随时 掌握 整个 企业 对 IT 部 门 资源 的 使 用 程度 , 并 做 出 合理 的 预测 , 在 申请 后 续 经 费 等 资源 时 变 得 
更 有 说 服 性 。 

好 ， 既 然 IT 部 门 已 经 成 为 一 个 独立 的 可 服务 型 的 部 门 了 ， 那 么 下 一 步 就 势必 要 考虑 到 它 自 
身 运营 的 成 本 问题 。 最 大 的 成 本 来 自 于 哪里 呢 ? 

当然 是 设备 购置 成 本 。 上 文中 所 述 的 那个 资源 得 不 到 充分 利用 的 场景 ， 已 经 成 为 最 令 IT 部 
门 头 疼 的 问题 ， 人 迫切 需要 技术 手段 来 解决 ， 而 解决 这 个 问题 的 最 佳 技术 就 是 虚拟 机 技术 ， 这 也 是 
为 何 目 前 越 来 越 多 的 企业 打算 部 署 虚 拟 化 IT 环境 与 虚拟 桌面 环境 的 原因 之 一 。 另 外 ，IT 数据 中 
心 还 有 更 多 一 系列 的 其 他 问题 ， 比 如 扩容 费用 高 昂 、 扩 容 维护 停机 、 迁 移 困 难 等 ， 而 这 些 都 有 对 
应 的 技术 手段 解决 ， 比 如 使 用 Scale-Onut 集群 与 虚拟 化 技术 等 。 总 之 ， 集 群 和 虚拟 化 包括 虚拟 
存储 与 虚拟 计算 ) 这 两 大 技术 手段 可 以 为 数据 中 心 解决 很 多 琼 手 的 问题 。 引 入 虚拟 化 与 集群 之 后 ， 
IT 数据 中 心 将 变 得 更 加 有 弹性 , 比如 原本 规划 的 时 候 , 考虑 一 台 物 理 设备 可 以 承载 100 台 虚拟 机 ， 
那么 承载 105 台 是 否 可 以 ? 某 些 场景 下 可 能 也 没有 问题 。 这 样 ，IT 部 门 在 申请 建设 资金 时 也 就 更 
加 有 弹性 了 。 

是 什么 可 以 让 IT 部 门 地 位 提升 ? 它 想 提升 就 提升 了 么 ? 没有 这 样 的 事情 。 本 质 是 因为 现代 
企业 越 来 越 依靠 IT， 任 何事 情 都 离 不 开 IT 部 门 , 所 以 它 的 地 位 自然 就 会 升 高 ,到 了 一 定 的 程度 ， 
加 上 一 些 促 发 因素 比如 虚拟 化 、 集 群 技术 的 支撑 ， 那 么 IT 部门 角色 转型 也 就 顺理成章 了 。 


2. 共有 云 受 制 于 互联 网 网 络 带宽 发 展 受 限 


想 让 某 个 云 数据 中 心 提 供 服务 ， 就 要 满足 一 个 基本 条 件 ， 即 网 络 带宽 要 够 。 网 络 带宽 直接 限 
制 了 一 个 数据 中 心 能 够 提供 的 服务 的 种 类 和 级 别 。 如 果 一 个 云 数据 中 心 是 面向 企业 内 部 提供 服务 
的 ， 即 私有 云 ， 那 么 就 不 必 担 忧 网 络 带宽 的 问题 ， 因 为 企业 内 部 的 网 络 带宽 是 非常 充足 的 ， 其 可 
以 支撑 任何 种 类 和 层面 ( IaaS、Paas 、Saas ) 的 服务 ， 比 如 IaaSs， 比 如 用 户 可 以 直接 申请 一 块 存储 
空间 而 使 用 对 应 的 协议 (比如 iSCSI、NFS、CIFS 等 ) 进行 挂 载 使 用 ， 速 度 也 不 慢 ; 再 比如 用 户 
可 以 申请 一 台 虚 拟 机， 通过 远程 桌面 来 登录 使 用 ， 可 以 上 传 各 种 应 用 程序 并 安装 运行 。 

而 对 于 共有 云 ， 问 题 就 来 了 。 如 今 互联 网 接 入 带宽 偏 低 ， 除 了 像 日 韩 等 国之 外 ， 其 他 国家 宽 
带 接 入 速率 远 未 达到 可 以 承载 Iaas 服务 的 可 容忍 程度 。 大 量 的 用 户 还 是 通过 1Mb/s 或 者 2Mb/s 
的 宽带 来 接 入 。 这 种 只 有 100KB/s 或 者 200KB/s 吞吐 量 的 接 入 速度 ， 你 让 用 户 购买 什么 服务 呢 ? 
给 他 个 iSCSI 协议 访问 的 存储 空间 是 不 现实 的 。 充 其 量 提 供 一 些 诸如 网 盘 之 类 的 上 传 下 载 服务 ， 
网 页 服务 就 不 用 说 了 ，1Mb/s 基本 上 已 经 够 用 。 视 频 服务 呢 ? 标清 码 率 的 视频 2Mb/s 速率 勉强 可 
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以 承载 。 总 之 ， 常 用 的 Saas 服务 〈 网 页 、 聊 天 、 视 频 、 网 盘 、 在 线 游戏 、 基 于 Web 的 信息 管理 
系统 等 ) 基本 上 可 以 承载 于 低速 网 络 上 。 大 部 分 Paas 服务 也 可 以 通过 互联 网 来 提供 ,比如 微软 的 
Azure 等 。 而 Iaas 就 有 些 困难 了 ， 比 如 你 购买 了 一 台 虚 拟 机 的 使 用 权 ， 运 营 商 给 了 你 一 个 虚拟 桌 
面 连接 地 址 ， 此 时 1Mb/s 速率 基本 上 很 勉强 ， 如 果 你 要 想 在 其 上 安装 一 些 应 用 程序 的 话 ， 那 基本 
上 很 慢 ， 因 为 你 得 先 把 安装 包 上 传 上 去 。 所 以 有 些 Iaas 提供 商 一 般 都 会 预先 装 好 必要 的 软件 比如 
数据 库 、 中 间 件 等 ， 打 包 在 虚拟 机 磁盘 映像 中 ， 根 据 用 户 的 选择 将 对 应 的 映像 制作 成 虚拟 机 。 另 
外 , Saas 有 着 更 广泛 的 用 户 基 群 和 更 长 的 历史 , 而 Paas 与 Iaas 是 伴随 着 云 的 兴起 而 逐渐 被 引出 的 
概念 ，Saas 会 借助 云 的 兴起 而 获得 持续 发 展 ，Paas 和 Iaas 则 会 随 着 云 而 加 速 发 展 。 

综 上 所 述 , 云 目前 最 能 够 被 广泛 推进 的 地 方 就 是 新 建 的 数据 中 心 ， 几 乎 所 有 新 建 的 数据 中 心 
都 会 被 向 云 方面 引导 和 建设 ， 不 管 是 企业 数据 中 心 还 是 运营 商 数据 中 心 。 企 业 兴 建 私有 云 数据 中 
心 ， 而 运营 商 则 兴建 混合 云 数据 中 心 ， 也 就 是 同时 对 内 和 对 外 服务 的 云 数 据 中 心 。 


20.4 ” 拨 云 见 日 一 一 云 系 统 架 构 及 其 组 成 部 分 


如 图 20-5 所 示 为 一 个 云 数据 中 心 系统 中 的 关键 层次 。 经 过 前 文 的 描述 ， 大 家 此 时 应 该 对 去 
的 由 来 、 发 展 和 表现 形式 ， 云 能 干什么 ， 有 什么 特点 ， 由 什么 技术 堆 稍 而 成 等 方面 有 了 一 个 框架 


式 的 了 解 了 。 这 一 节 带 领 大 家 再 深入 一 层 ， 从 概念 深 挖 到 具体 的 架构 层 。 


图 20-5 云 基础 架构 层次 
20.4.1 ”物理 支撑 层 


云 是 一 种 方法 ,但 是 它 也 必须 承载 于 物质 之 上 。 对 于 一 个 云 数 据 中 心 来 讲 ， 供 电 、 散 热 、 安 
防 和 维护 等 都 是 必 不 可 少 的 ， 这 些 元 素 构成 了 云 的 最 底层 ， 也 就 是 物理 支撑 层 。 


20.4.2 ”基础 IT 架构 层 


数据 中 心 一 定 要 有 支撑 其 运营 的 IT 系统 设备 ， 包 括 基本 的 网 络 、 服 务 嚣 和 存储 系统 ， 还 需 
要 一 个 网 络 /设备 管理 系统 。 然而, 这些 服务 器 与 存储 设备 并 不 是 一 个 个 的 孤岛 。 上 文中 说 过 , 集 
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群 、 虚 拟 化 、 自 动 化 ， 是 一 个 大 规模 的 纯正 的 云 所 应 当 具 有 的 技术 特征 。 

云 底层 的 集群 架构 可 以 有 两 种 实现 方式 ; 第 一 种 途径 是 利用 现 有 的 网 格 ， 网 格 技术 是 把 现 有 
的 、 零 散 的 、 非 专用 的 所 有 资源 整合 起 来 ,在 其 上 加 入 虚拟 化 层 ， 形 成 一 个 计算 和 存储 的 分 布 式 
集群 ， 在 这 个 集群 之 上 再 来 实现 云 服务 层 ， 第 二 种 途径 是 专门 的 集中 式 并 行 集群 数 据 中 心 ， 加 上 
虚拟 层 ， 然 后 再 加 上 云 服务 层 。 但 是 一 般 新 兴建 的 数据 中 心 都 是 采用 后 者 ， 也 就 是 直接 使 用 专用 
的 集群 系统 来 充当 基础 IT 架构 层 。 

说 明 : 利用 大 规模 网 格 来 实现 云 计算 的 例子 也 是 有 的 , 最 为 成 功 的 一 个 莫 过 于 SETI@Home 

寻找 外 星人 项 目 , 利用 Internet 上 的 计算 机 为 其 计算 。 这 个 程序 作为 一 个 屏幕 保护 程序 存 

在 ,每 当 屏保 激活 时 ,程序 便 连 接 服务 器 端 来 获取 一 段 需要 计算 的 数据 ， 然 后 开始 计算 ， 

并 且 将 结果 存储 在 本 地 。 每 次 屏保 被 激活 ， 程 序 便 开 始 计算 ， 直 到 算出 结果 为 止 ， 将 结 

果 传 输 到 服务 器 端 然后 再 次 下 载 需要 计算 的 数据 来 计算 。 这 样 ， 整 个 互联 网 中 的 电脑 就 

组 成 了 一 个 超大 规模 的 网 格 集群 。 而 这 个 场景 确实 非常 真实 和 准确 地 反映 了 “ 云 计算 ” 


个 字 。 


这 三 
这 似乎 又 矛盾 起 来 了 , 网 格 计算 是 一 种 分 布 式 计算 , 而 云 又 应 当 是 一 个 集中 式 计 算 提 供 者 ， 
仔细 想来 其 实 不 矛盾 ， 这 就 是 一 种 虚拟 化 的 表现 ， 即 先 用 网 格 计算 整合 所 有 计算 资源 ， 然 
后 再 用 虚拟 化 的 方式 将 这 些 资源 出 售 或 者 出 租 。 


20.4.3 ”基础 架构 /集群 管理 层 


有 了 集群 还 不 够 ， 还 必须 在 这 个 集群 之 上 覆盖 一 层 或 者 几 层 虚 拟 化 层 来 增加 整个 系统 的 弹 
性 , 将 所 有 资源 虚拟 化 为 资源 池 。 对 于 计算 资源 , 也 就 是 集群 中 的 服务 器 节点 , 通过 使 用 VMware、 
Citrix 等 虚拟 机 平台 可 以 完成 这 个 工作 。 而 对 于 存储 节点 呢 ? 也 需要 有 这 么 一 种 虚拟 化 平台 ， 而 
目前 来 看 ， 能 够 满足 这 种 需求 的 存储 空间 虚拟 化 平台 ， 只 有 分 布 式 文件 系统 或 者 分 布 式 卷 管理 系 
统 才能 满足 。 

另外 ， 网络、 服务 器 以 及 存储 集群 基础 架构 需要 一 个 管理 模块 ， 负 责 整个 集群 的 监控 、 硬 件 
资产 管理 、 硬 件 故障 更 换 管理 等 。 


20.4.4 ”资源 部 署 层 


有 了 基本 的 网 络 、 服 务 器 和 存储 集群 ， 还 是 远 远 不 够 的 ， 需 要 一 个 用 来 管理 和 驱动 这 个 集群 
的 角色 。 上 文中 说 过 ， 集 群 硬件 之 上 是 虚拟 化 的 弹性 包 庄 层 ， 比 如 VMware 的 Vsphere4 ( 计算 资 
源 包 庄 ) 以 及 分 布 式 /集群 文件 系统 或 者 分 布 式 /集群 卷 管理 系统 ( 存储 资源 包 误 ) 。 利 用 Vsphere 
所 提供 的 VMotion 与 DRS ( Distributed Resource Scheduler ) ， 可 以 将 虚拟 机 在 集群 节点 中 灵活 移 
动 ， 而 且 可 以 做 到 资源 动态 分 配 与 回收 。 然 而 ， 一 个 云 数 据 中 心中 并 不 一 定 只 有 一 种 虚拟 层 ， 可 
以 有 多 种 不 同 种 类 的 虚拟 层 , 这 样 , 就 需要 一 个 独立 的 虚拟 机 与 虚拟 存储 资源 调度 分 配 软件 模块 ， 
它 通 过 调用 这 些 虚拟 化 模块 所 提供 的 接口 来 完成 整体 的 资源 调度 与 分 配 回收 。 


20.4.5 ”中 间 件 层 


当 有 了 物理 环境 、IT 基础 架构 、 基 础 架构 监控 管理 、 资 源 分 配 部 署 回收 层 之 后 , 一 个 充实 的 
基 座 就 有 了 。 在 这 个 基 座 之 上 ， 就 可 以 完成 各 种 业务 的 部 署 了 。 应 用 层 与 资源 层 之 间 可 能 需要 一 
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个 中 间 层 来 适 配 。 这 个 层次 不 仅 位 于 应 用 引擎 和 资源 部 署 引擎 之 间 ， 云 架构 中 所 有 层次 之 间 可 能 
都 需要 各 种 适 配 。 


20.4.6 应 用 引擎 层 


应 用 引擎 层 则 是 产生 各 种 业务 应 用 的 温床 了 ， 这 一 层 提 供 一 个 通用 的 业务 开发 平台 , 或 者 将 
其 他 平台 所 开发 的 应 用 适 配 进来 ， 然 后 统一 发 布 。 


20.4.7 ”业务 展现 与 运营 层 


现在 万 事 俱 备 ， 只 欠 东 风 了 。 数 据 中心 的 硬件 、 软 件 、 架 构 都 已 经 被 打造 为 集群 化 、 虚 拟 化 
和 自动 化 的 形态 ， 各 种 业务 也 可 以 随时 部 署 和 撤销 ， 底 层 资源 得 到 最 大 化 的 利用 ， 降 本 增 效 。 那 
么 还 欠缺 什么 呢 ? 刚 才 所 列 出 的 这 些 ， 都 只 是 对 你 自己 有 意义 的 事情 ， 是 为 了 让 你 自己 更 好 地 去 
应 这 个 市 场 ， 适 应 不 断 膨胀 的 用 户 需 求 。 那 么 这 些 东 西 对 用 户 来 讲 ， 没 有 任何 意义 。 用 户 不 关 
心底 层 用 不 用 集群 或 者 虚拟 化 ， 更 不 关心 底层 是 人 工 部 署 还 是 自动 部 署 和 管理 。 用 户 只 关心 他 能 
得 到 最 快 的 服务 与 响应 ， 更 关心 提供 服务 的 方式 、 界 面 、 操 作 便 捷 性 、 展 现 的 如 何 、 收 费 是 否 合 
理 等 。 对 于 一 个 云 来 讲 ， 业 务 展现 于 运营 层 是 最 终 关 系 到 这 个 云 盈利 模式 及 利润 的 关键 。 

云 服 务 是 让 数据 中 心 实现 盈利 的 另外 一 种 商业 模式 ， 说 白 了 ， 就 是 卖 数 据 中 心 ， 把 数据 中 心 
的 所 有 资源 整合 起 来 ， 虚 拟 化 ， 然 后 再 分 配 ， 再 以 租用 和 服务 的 方式 出 租 。 大 规模 的 云 之 内 必须 
要 有 虚拟 化 层 ， 一 是 用 来 榨 干 物理 设备 的 资源 ， 二 是 用 来 整合 成 大 的 资源 池 ， 如 果 没 有 虚拟 化 ， 
则 将 无 法 管理 一 个 个 的 孤岛 ,资源 分 配 的 灵活 性 达 不 到 要 求 。 

我 们 可 以 把 云 分 为 云 存储 、 云 主机 、 云 计算 这 三 大 块 服务 。Iaas 属于 云 存储 或 者 云 主 机 范畴 ， 
Paas 和 Saas 则 属于 云 计算 范畴 。 

笔者 总 结 了 一 个 云 服务 架构 简 图 ， 如 图 20-6 所 示 。 


启 


Virtualization Points 


0 
图 20-6 IaaS、PaaS 和 SaaS 
出 租 数据 中 心 可 以 在 下 面 的 几 个 层次 上 进行 。 


1. 基础 设施 即 服务 ( Iaas ) 


卖 存储 空间 ， 卖 虚拟 机 ， 卖 计算 服务 。 所 谓 Infrastructure As A Service， 或 称 硬件 即 服务 
( Hardware as a Service，HAAS ) ， 其 中 的 1 就 代表 了 云 系 统 中 的 硬件 设施 ， 诸 如 服务 器 、 网 络 、 
存储 系统 等 。 如 上 图 所 示 ， 云 提供 商 的 存储 集群 和 计算 集群 ， 皆 可 以 出 租 。 可 以 只 卖 存 储 ， 也 可 
以 只 卖 计 算 , 或 者 买 计算 的 赠 一 定 容量 的 存储 空间 ， 当 然 笔者 在 此 只 是 开放 地 设想 而 已 。Iaas 并 


887 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


888 


不 算是 云 计算 的 一 种 ， 因 为 Iaas 并 不 直接 负责 用 户 的 计算 ,而 只 是 提供 硬件 平台 ,具体 计算 的 细 
节 由 用 户 自行 部 署 。 

1 ) 如 何 卖 存储 空间 

可 以 有 多 种 方式 ， 如 卖 裸 空间 、 卖 文件 存储 空间 等 。 裸 空间 就 是 说 最 终 用 户 的 操作 系统 看 到 
的 是 一 块 硬盘 ， 所 用 到 的 协议 当然 首选 iSCSI 方式， 以 便于 跨越 卫 网 络 ， 即 用 户 终端 通过 iSCSI 
Initiator 连接 云 提供 商 处 的 iSCSI Target 从 而 获得 一 个 或 者 几 个 LUN。 文 件 存储 空间 方式 又 包含 两 
种 方式 : 一 个 是 基于 传统 NAS 协议 的 访问 方式 ， 另 一 种 是 基于 HTTP 协议 或 者 服务 商 专用 的 其 
他 协议 访问 方式 。 基 于 NAS 协议 的 存储 空间 需要 使 用 NEFS 或 者 CIFS 协议 来 挂 载 服务 商 处 的 
Volume， 基 于 HTTP 方式 访问 则 是 更 高 一 层 的 实现 方式 ， 比 如 网 络 硬盘 等 大 部 分 都 是 用 HTTP 
方式 。 基 于 裸 磁盘 和 NAS 协议 的 Volume 来 存储 数据 ， 在 操作 系统 层面 具有 一 定 的 通用 性 ,可 以 
实现 各 种 应 用 程序 透明 访问 分 配给 它 的 空间 。 而 基于 HTTP 协议 的 访问 方式 ,不 具 通 用 性 ， 只 在 
定制 的 情况 下 才 使 用 。 

对 于 云 中 的 存储 系统 ， 诸 如 Thin Provision 、 Deduplication 、Dynamic Tiering 等 特性 应 该 说 是 
必须 的 。 云 的 一 个 作用 就 是 高 效 和 成 本 降低 , Thin 与 Dedup 这 两 种 数据 缩减 技术 可 以 降低 不 必要 
的 存储 空间 占用 ; 而 动态 分 级 则 可 以 进一步 节省 存储 成 本 。 

2 ) 如 何 卖 服务 器 /虚拟 机 

这 里 说 到 的 依然 是 la$， 即 卖 的 是 基础 设施 而 不 是 更 高 层级 别 的 服务 。 服 务 器 资源 该 如 何 出 
租 呢 ? 总 不 可 能 卖 给 用 户 一 整 台 物理 服务 器 吧 ， 那 样 就 没有 任何 意义 了 ， 用 户 很 大 可 能 根本 用 不 

台 物 理 服务 器 所 能 提供 的 最 大 资源 。 

然而 ， 更 不 可 能 把 一 台 服 务 器 分 割 成 几 半 来 出 租 ， 除 非 有 一 种 虚拟 化 的 方式 ， 将 物理 服务 器 
虚拟 成 多 台 虚 拟 服务 器 。 的 确 是 这 样 的 ， 这 正 是 云 服务 中 的 服务 器 资源 的 虚拟 和 出 租 方式 。 提 供 
商 通过 某 种 虚拟 化 解决 方案 比如 Vmware、Citrix Xen 等 。 比 如 用 户 需要 1 台 运行 Linux 系统 的 
DB2 数据 库 服务 器 ，1 台 运 行 Windows 2003 系统 的 Exchange 服务 器 ，2 台 运 行 Windows 2003 系 
统 的 Web 服务 器 , 每 台 服务 器 需要 3 个 网 络 接口 , 则 提供 商 通过 某 种 图 形 界面 生成 这 个 配置 ， 然 
后 发 送 到 云 服务 管理 端 ， 云 自动 在 现 有 的 虚拟 机 平台 上 按照 配置 要 求 创建 好 对 应 的 4 台 虚拟 机 。 
至 于 这 些 虚拟 机 最 后 是 不 是 落 在 同一 台 物 理 机 器 上 ， 需 要 根据 更 多 的 因素 来 决定 了 ， 襄 且 虚 拟 机 
可 以 动态 地 在 物理 机 器 之 间 迁 移 ， 资 源 也 可 以 按 需 分 配 ， 这 些 在 技术 上 都 可 以 实现 。 生 成 的 虚拟 
机 ， 可 以 给 用 户 提供 一 种 方式 ， 比 如 Telnet、SSH 或 者 远程 桌面 等 管理 方式 像 在 本 地 管理 一 样 来 
管理 用 户 从 云 提供 商 处 购 得 的 虚拟 机 ， 在 其 上 安装 用 户 自己 需要 的 操作 系统 和 软件 等 。 而 服务 器 
的 硬件 维护 、 供 电 、 网 络 等 则 可 以 全 部 交 由 云 提供 商 解 决 。 

虚拟 机 平台 需要 考虑 的 几 个 功能 ,一 是 动态 迁移 ， 即 虚拟 机 可 以 不 影响 应 用 系统 而 在 物理 机 
器 之 间 迁 移 ， 二 是 强劲 的 资源 动态 分 配 调度 ， 三 是 管理 方便 。 

Amazon 在 Iaas 方面 提供 了 两 个 产品 : 弹性 计算 云 ( Elastic Compute Cloud，EC2 ) 和 简单 存 
储 服务 ( Simple Storage Service，S3 ) ， 分 别 对 应 了 主机 计算 集群 和 存储 集群 。 除 了 Amazon， 提 
供 IAAS 服务 的 还 有 3tera、GoGrid、 Rackspace Mosso 和 Joyent 等 。 


2. 平台 即 服务 ( Paas ) 


卖 中 间 件 服务 ， 卖 软件 平台 服务 ， 卖 开发 定制 服务 。 相 对 于 Iaa$，PaaS 则 屏蔽 掉 而 且 不 出 租 
Infrastructure， 转 而 出 租 更 高 一 层 的 软件 平台 ,在 这 个 平台 上 ， 用 户 可 以 制作 并 测试 符合 自己 要 求 
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的 网 络 应 用 程序 。 在 对 应 厂商 提供 的 Paas 平台 上 开发 的 应 用 程序 一 般 只 能 在 这 个 厂商 的 云 基础 架 
构 中 运行 ， 也 就 是 说 ，Paas 是 一 个 孕育 各 种 应 用 程序 的 平台 ,但 是 这 些 应 用 程序 又 只 能 在 当初 孕 
育 它 的 平台 上 运行 。Paas 属于 一 种 云 计算 服务 ， 因 为 这 个 平台 是 一 种 运行 于 硬件 集群 上 的 软件 ， 
用 户 租 用 了 这 个 平台 其 实 就 等 于 租用 了 计算 业务 。 目 前 几 个 比较 知名 的 Paas 平台 有 “Windows 
Azure 、Force.com、Google AppEngine、Zoho 和 Facebook 等 。 


3. 软件 即 服务 ( SaaS ) 


卖 内 容 , 卖 结果 。Saas 是 云 服 务 中 的 最 外 层 业 务 。 云 提供 商 直 接 向 用 户 出 售 业 务 级 别 的 内 容 ， 
而 与 业务 相关 的 数据 计算 ， 都 在 云 内 部 完成 。Saas 是 目前 互联 网 上 非常 普遍 的 一 种 服务 ， 比 如 我 
们 最 常用 的 Web 网 页 服务 、QQ 等 及 时 聊天 服务 ， 都 属于 Saas 的 范畴 。 目 前 比较 知名 的 大 型 的 
企业 级 Saas 提供 商 有 Epicor、 NetSuITe、Salesforce.com 和 Zoho 的 客户 关系 管理 ( CRM ) ，SAP 
Business ByDesign 和 Workday 的 ERP 套件 等 。 

至 此 , 我 们 就 清晰 地 看 到 了 一 个 数据 中 心 是 如 何 被 分 层 出 租 的 。 值 得 说 明 的 是 ，Paas 提供 商 
可 以 租用 Iaas， 而 Saas 提供 商 也 可 以 租用 Ilaas 和 Paas， 从 而 实现 不 同 层次 的 逻辑 分 割 和 耦合 。 


20.5 ”真相 大 白 一 一 实例 说 云 


在 我 们 冲 出 这 团 云 之 前 , 笔者 想 用 两 个 具体 的 实例 来 向 大 家 展示 一 个 具体 的 Iaas 提供 商 到 底 
是 如 何 向 用 户 提供 Iaas 服务 的 。 读 者 在 看 完 下 面 的 一 些 具体 细节 之 后 , 会 彻底 理解 云 服 务 的 本 质 。 


20.5.1 3Tera Applogic 


3tera 公司 通过 两 种 方式 来 提供 云 服务 : 一 是 直接 提供 公共 云 Iaas 服务 ; 第 二 种 是 将 云 平台 软 
件 授权 给 第 三 方 ,第 三 方 在 自己 的 Infrastructure 上 部 署 云 服 务 平台 。 日 本 老牌 的 电信 运营 商 KDDI， 
就 将 其 部 分 业务 迁移 到 了 3Tera 的 Applogic 云 中 运行 。KDDI 并 非 租用 3Tera 的 公共 云 ， 而 是 直 
接 购 买 了 3Tera 提供 的 Applogic 云 虚 拟 化 层 ， 将 其 部 署 在 自己 的 硬件 Infrastructure 上 ， 形 成 了 自 
己 的 云 系 统 对 内 或 者 对 外 提供 Iaas 服务 ; 同时 ,在 Iaas 之 上 再 使 用 自己 的 Paas 和 Saas 平台 层 为 
其 用 户 提 供 Paas 和 Saas 云 服务 。 

3Tera 的 Iaas 平台 名 为 2 
“Applogic”。Applogic 是 一 个 可 以 和 ComplexHostng 
实现 fas 功能 的 软件 虚拟 化 平台 ， | 


Utility Computing 
或 者 按照 官方 的 说 法 , 是 一 个 网 格 
操作 系统 。 咱们 拒绝 一 上 来 就 忽悠 
一 些 摸 不 着 边 的 东西 (往往 就 是 因 
为 这 样 才 让 人 晕 的 ) ,还 是 先 来 看 


My Application 


一 下 它 的 底层 架构 , 然后 再 说 明 这 Disposable Infrastructure 
sn 人。 
张 图 就 是 整个 Applogic 系统 的 总 


体 架构 图 ， 共 分 4 个 大 层次 。 


人 


图 20-7 Applogic 架构 简 图 
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1. 第 一 层 : 硬件 层 


本 层 包 括 主机 服务 器 、 存 储 系 统 (SAN 和 DAS 均 可 ) 、 网 络 设施 。 值 得 一 提 的 是 ，Applogic 
并 不 要 求 底层 存储 系统 必须 是 基于 SAN 架构 ， 其 可 以 用 本 地 IDE 或 者 SATA 硬盘 来 作为 存储 空 
间 。 若 干 主机 服务 器 通过 干 光 以 太 网 连接 起 来 ， 形 成 一 个 集群 ， 或 者 叫 它 网 格 也 可 以 。 我 们 就 是 
要 在 这 些 有 限 并 且 分 配 很 不 灵活 的 资源 池 之 上 ， 实 现 一 种 管理 方便 、 使 用 方便 、 资 源 分 配 灵活 的 
虚拟 化 层 。 


2. 第 二 层 : 分 布 式 核心 虚拟 化 层 ( Applogic OS ) 


本 层 由 3 个 子 层 组 成 ， 分 别 是 DVM、GVS 和 LCM 层 。 
， 对 计算 资源 的 虚拟 : Distributed Virtual Machine Manager ( DVM ) 子 层 
本 层 的 核心 是 虚拟 机 技术 , 即 在 物理 主机 上 通过 Hypervisor 引擎 来 虚拟 化 成 多 个 虚拟 的 主机 。 
大 家 都 知道 Vmware 的 ESX server 就 是 这 些 技 术 。 只 不 过 Applogic 使 用 的 是 Xen 的 虚拟 机 平台 。 

. 对 于 存储 资源 的 虚拟 : Global Volume Store ( GVS ) 子 层 

Applogic 使 用 的 是 自 研 的 分 布 式 文件 系统 ， 在 这 个 文件 系统 之 上 虚拟 出 Volume，Volume 可 
以 是 Mirror、Clone 、Snapshot 等 。 每 个 Volume 都 在 多 个 物理 主机 上 有 镜像 以 解决 HA 问题 ， 并 
可 以 提升 读 性 能 。 这 些 Volume 对 于 最 终 的 虚拟 机 来 说 就 是 裸 磁盘 。 在 这 个 虚拟 层 之 上 ， 每 个 节 
点 将 自己 的 本 地 存储 空间 贡献 出 来 ， 所 有 节点 的 存储 空间 被 整合 起 来 并 虚拟 化 ， 再 分 配 。 

= ”对 网 络 资源 的 虚拟 : Logical Connection Manager (LCM ) 子 层 

对 此 没什么 可 多 说 的 ， 就 是 将 物理 网 络 搞 成 虚拟 网 络 ， 虚 拟 机 都 有 的 技术 。 

GVS、DVM 和 LCM 这 三 个 子 层 共同 组 成 了 整个 系统 的 第 二 层 ， 即 Distributed Kemel。 


3. 第 三 层 : 一 次 性 基础 设施 虚拟 层 


这 一 层 可 能 表述 和 理解 起 来 有 些 困难 。 何 谓 一 次 性 基础 设施 ”难道 基础 设施 用 完了 就 丢弃 ? 
这 岂 不 是 浪费 么 ? 是 的 ， 就 是 因为 所 有 资源 都 是 虚拟 的 ， 所 以 才 可 以 浪费 。Applogic 的 所 谓 一 次 
性 基础 设施 ， 其 实 是 说 虚拟 机 资源 和 网 络 资源 可 以 按 需求 创建 ， 每 个 应 用 程序 都 可 以 为 其 分 配 一 
个 独立 的 基础 设施 平台 ,包括 Firewall/Gateway ( 基于 Iptable ) 、 负 和 载 均衡 器 、Web 服务 器 、 应 用 
服务 器 、 数 据 库 服务 器 、 日 志 收 集 服务 器 、NAS 存储 器 等 ， 而 每 个 角色 都 是 一 个 虚拟 机 。 

这 些 虚拟 的 基础 设施 组 合 起 来 成 为 某 个 应 用 程序 的 容器 ， 当 彻底 删除 一 个 应 用 程序 的 时 候 ， 
容器 也 随 之 被 删除 ， 这 就 是 所 谓 “ 一 次 性 基础 设施 ”的 意义 所 在 。 这 些 角 色 被 这 一 层 虚 拟 成 一 个 
个 的 对 象 , 在 图 形 界 面 中 使 用 鼠标 拖 暇 就 可 以 创建 ,同时 用 户 还 可 以 指定 这 台 虚 拟 机 的 In 和 Out 
网 络 接口 和 个 数 , 比如 , 一 台 负 载 均衡 器 , 就 需要 至 少 一 个 In 接口 和 若干 个 Out 接口 。 同 时 还 需 
要 指定 Volume 的 容量 和 数量 ， 以 及 CPU、 内 存 等 资源 的 上 下 限 。 被 装配 好 的 基础 设施 可 以 被 复 
制 、 粘 贴 、 导 出 和 导入 等 。 

如 图 20-8 所 示 ， 用 户 创建 了 一 台 Web 服务 器 、 一 台 MySQL 服务 器 和 两 台 NAS 存储 器 。 

Web 服务 器 的 前 端 in 接口 提供 用 户 访问 ,后 端的 db 接口 用 来 连接 数据 库 服务 器 ,和 接口 通过 NFS 

协议 访问 一 台 名 为 content 的 NAS 存储 器 ,log 接口 使 用 CIFS 协议 访问 一 台 NAS 存储 器 用 来 存 取 
志 。 用 户 将 会 在 这 个 硬件 平台 上 运行 某 种 应 用 程序 。 
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myapp - Application Editor - mygrid - 3Tera AppLogic - Mozilla Firefox 


Applcation Edt Assembly Appliance Tools Help 
PE He Applogi 


， 


| mp 
jaf 
和 [ers on 


图 20-8 创建 Web、NAS 和 DB 服务 器 
20-9 所 示 则 是 一 个 入 方向 的 Gateway， 一 台 负 载 均衡 器 后 挂 4 台 Web 服务 器 ， 最 后 共享 


一 台数 据 库 服务 器 的 基础 设施 架构 。 


图 20-9 Gateway 创建 


4. 第 四 层 : 网 格 控制 层 和 应 用 程序 管理 层 

这 是 整个 Applogic 体系 的 最 后 一 层 , 也 是 最 后 的 展示 层 , 所 有 的 底层 逻辑 无 非 都 是 为 了 实现 
这 最 终 的 展示 层 ， 也 是 Applogic 应 用 程序 运行 平台 交付 方式 的 最 终 体现 。 

Applogic 以 Application 为 单位 向 用 户 交 付 ， 在 一 个 网 格 ( 也 可 以 说 成 是 集群 ， 包 括 主机 和 存 
储 以 及 网 络 ) 上 运行 多 个 用 户 的 多 个 应 用 程序 ， 比 如 ，Exchange、CRM 等 ， 每 个 应 用 程序 会 被 
分 配 一 个 一 次 性 基础 设施 , 每 个 一 次 性 基础 设施 又 包括 了 多 个 角色 , 比如 Gateway/Firewall、 负载 
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均衡 器 、Web 和 数据 库 服 务 器 、NAS 存储 器 等 , 每 个 角色 就 是 一 个 虚拟 机 。 每 个 Application 创建 
好 之 后 ， 就 是 一 个 Package， 可 以 独立 操作 ， 与 底层 硬件 无 关 ， 用 户 可 以 将 它 带 走 ， 在 另外 一 个 
Applogic 网 格 内 导入 ， 便 立即 可 用 。 


5. 配置 实例 
图 20-10 所 示 为 整个 网 格 系统 的 Dashboard 监控 界面 。 


图 口 日 Applogi 
demo 

Status 
Acount domo CpU Cores un 32.00 (73.04fren) 
Applogic Version .2.019% Memory a 31.99GBtota (26 196 fres) 
System Status Ran Storage 下 3.6zTB total (3.45TB free) 
Applications lunning Bandwidth 7.45Gbps total (7 44Gbps free) 

DD sheliogn | 
Messages 

There are no messages ak thistime R 
Account Info 
Application Ips 75126188162.>,189 DNS Server 1 208.67.222222 
Netmask 255.255.255.224 DNS serverz 208.67220220 
Gateway 75126 188161 DNS Server3 not assoned 


图 20-10 Dashboard 控制 台 
图 20-11 所 示 为 网 格 中 所 有 已 创建 的 Application 的 列表 。 


厂 。 Anplication Name ~ Description User1 User2 
alee Lampit Ooms) Scalable LAMP Appleation (1.0.1) 

口 。 eadupHeber te 以 Halper spphcason for the MIG aoplanco 

口 。 esceonpuw Gnd Server -Banedon CokO5-4.3 

Damp temparm LaMP Applicaton (1.0.1) 

[er LampChater -Scalable LAMP Chster Applcaton, Yergon 1.1.0-1 

口 banpxd temond SeaableLAMPAppication(1.0.) 

OD Lampx4-Ful garpBt Scalable LAMP Applcation (1.0.1) - Fuly scaed 

DSuowcRM Goma Foe ET 
OD 。 Twii tte) TWiki 4.0,2 calaboration platform 

DD es BCK 53 using P's 155, 185, 187, 188 

Dom i 
sd om 
OD devtl Development accounts service controler 

DD devi Development accounts hosting duster 


Rod fbn Lego Hep Aboot 
图 20-11 已 经 创建 的 Application 列表 
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下 面 我 们 通过 创建 一 个 带 有 Gateway 防火 墙 、 一 个 负载 均衡 器 、 两 台 Web 服务 器 、 一 台数 
据 库 服务 器 的 简单 的 Infrastructure 来 体验 一 下 Applogic 最 终 交 付 给 用 户 的 接口 。 

(1) 先 从 左边 的 Gateway 类 别 中 拖 忠 一 个 简单 的 入 方向 的 Gateway/Firewall。 然 后 在 其 上 右 
击 ， 从 弹出 的 快捷 菜单 中 选择 Property Value 命令 ， 如 图 20-12 所 示 。 在 出 现 的 窗口 中 
可 以 定义 这 台 Gateway 的 一 些 属性 ， 如 图 20-13 所 示 。 


了 Database Applances 


3AMHIN 
上 


B 
EE Branch Class 
ns View class 


图 20-12 创建 Gateway 图 20-13 设置 这 人 台 Gateway 的 属性 

(2) 加 入 一 个 8 Out 口 的 负载 均衡 器 。 然 后 右 击 并 选择 Resources 命令 来 配置 这 台 均 衡器 所 
使 用 的 资源 ， 如 图 20-14 所 示 。 可 以 配置 CPU、 内 存 、 网 络 带宽 这 三 种 资源 ， 其 接口 是 
由 Ctrix Xen 提供 的 , 这 个 界面 只 是 调用 这 些 接口 来 控制 Citrix 部 署 虚拟 机 ， 如 图 20-15 
所 示 。 


图 20-14 添加 负载 均衡 设备 图 20-15 设 定 虚拟 机 参数 

(3 ) 拖 入 两 台 Web 服务 器 ， 并 在 这 个 Application 的 主 界面 中 单 击 Manage Volume 命令 来 创 
建 这 个 Application 所 需要 的 存储 空间 。 此 时 界面 会 调用 底层 的 集群 卷 管理 层 来 执行 部 署 
任务 ， 如 图 20-16 所 示 。 


893 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


https:// demo,3tera.net 


|e WN NBM BE | sme en 
[| 
EE 
-0 
,a 二 
Se = 
了 


1 


局 


worseries 
rn nd 号 
ue ume en 


图 20-16 设 定 存储 空间 
如 图 20-17 所 示 ， 这 个 列表 列 出 了 分 配给 当前 Application 的 所 有 Volume， 整 个 网 格 中 
的 Volume 都 是 按照 Application 相互 隔离 的 ,不 同 的 Application 只 能 看 到 自己 的 Volume。 


Sr 司 ae Wm Mm) 回 口 x | sooowokepace mam EsE 


图 20-17 当前 的 所 有 可 用 Volume 
单 击 Add 按钮 添加 一 块 存储 空间 。 名 称 、 大 小 、 文 件 系统 格式 ， 如 图 20-18 所 示 。 
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图 20-18 添加 新 存储 空间 
(4 ) 将 Volume 分 配给 需要 使 用 存储 空间 的 服务 器 ， 比 如 Web 服务 器 ， 在 Web 服务 器 图 标 
上 右 击 并 选择 User Volume 命令 ， 如 图 20-19 所 示 。 


图 20-19 分 配 这 个 新 空间 
里 面 默认 有 一 项 content 卷 , 我们 将 上 文 定义 好 的 code 卷 映射 给 这 台 Web 服务 器 的 
content 卷 ， 如 图 20-20 所 示 。 
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图 20-20 分 配 新 空间 (1) 
(5 ) 拖 入 一 个 数据 库 服务 器 ， 将 上 文 定义 的 data 卷 映 射 给 它 的 data 卷 ， 如 图 20-21 所 示 。 


了 Database Applances 


图 20-21 分 配 新 空间 (2) 
建 好 之 后 的 最 终 拓扑 如 图 20-22 所 示 。 


图 20-22 创建 和 部 署 好 之 后 的 拓扑 示意 图 


防火 墙 、 负 载 均衡 器 和 Web Server 以 及 数据 库 服 务 器 之 间 互 连 时 使 用 的 IP 是 用 户 不 用 
关心 的 ， 系 统 会 自动 分 配 ， 一 切 力求 简化 、 快 捷 。 唯 一 需要 配置 的 是 整体 Application 的 
IP 地 址 等 信息 。 

可 以 针对 每 台 服 务 器 进行 各 种 属性 的 配置 ， 如 图 20-23 ~ 图 20-25 所 示 。 
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图 20-25 配置 虚拟 机 上 业务 层 的 各 种 属性 ( 3) 


我 们 还 可 以 登录 到 这 台 服 务 器 上 ， 如 图 20-26~ 图 20-28 所 示 。 


可 .40.16. 
[erm bxl:main.srvi ~]# 国 FE 


图 20-27 登录 到 对 应 的 虚拟 机 上 执行 任务 (2) 
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图 20-28 登录 到 对 应 的 虚拟 机 上 执行 任务 (3) 
此 外 ， 还 可 以 监控 服务 器 的 各 种 状态 信息 ， 如 图 20-29 所 示 。 


JR alolelv) | rls st)|| npose | 天 国有 | 十 keeoh 
a | ee 
mm 一 mm 
四 oleM 
。 。 
E 3 a en Ee 党 
Be nanavl saosM| manara 400M manda 
rs a ER 
I , 
as < 
。 到 1 
上 3 6 am a 
| minsrvl | mansrvz 240 | manwaby 0| mansrvl 01 meansrvz 0 | main weby 


图 20-29 对 整个 系统 进行 性 能 监控 
(6 ) 最 后 一 步 就 是 登录 到 相应 的 服务 器 ， 安 装 相应 的 软件 ， 启 动 应 用 软件 。 
Applogic 带 来 的 革命 在 于 它 把 复杂 的 底层 硬件 变 得 非常 简单 ， 通 过 拖 电 对 象 的 方式 来 装配 自 
己 的 Infrastructure， 并 最 终 以 一 个 适合 于 某 种 Application 运行 的 整体 服务 器 + 存储 + 网 络 环境 来 交 
付 给 用 户 ， 佐 以 底层 丰富 的 附加 功能 比如 Snapshot、Migrate 等 ， 为 用 户 提供 了 一 个 专业 而 且 方便 
的 程序 运行 硬件 平台 ， 让 用 户 彻底 脱离 了 苦海 。 


20.5.2 IBM Blue Could 


IBM 的 Blue Cloud， 是 IBM 推出 的 云 解 决 方案 。 其 基本 上 是 由 一 堆 软 硬件 有 机 堆 番 起 来 的 。 
硬件 当然 包括 IBM 自己 的 X 系列 PC 服务 器 , 以 及 刀片 服务 器 , 更 少不了 了 系列 小 型 机 ,大 型 机 
就 算 了 吧 , 已 经 是 被 时 代 所 淘汰 的 东西 了 。 软件 则 必然 包括 VMware Vsphere 以 及 Citrix Xen 虚拟 
机 平台 了 。 有 了 这 两 个 还 不 行 , 必须 还 有 一 套用 于 资源 自动 调度 分 配 管 理 监控 的 平台 , 这 就 是 IBM 
RDP (Request Driven Provisioning ) 、 IBM TPM ( Tivoli Provisioning Manager ) 、 IBM TM ( Tivoli 
Monitor ) 。 有 了 这 些 还 不 行 ， 还 需要 对 应 的 中 间 件 平台 ， 比 如 Websphere， 还 要 有 开发 部 署 平台 
比如 Rational， 再 加 上 其 他 一 些 上 层 的 软件 套件 比如 Lorus、Information Manager 等。 总 之 IBN 借 
助 这 个 篮 云 ， 大 大 地 整合 了 它 所 有 的 软 硬 件 产品 ， 促 进 了 所 有 这 些 产品 的 销售 。 

IBM 宣称 蓝 云 可 以 在 5 分 钟 内 部 署 一 台 x86 平台 的 虚拟 机 ,P 系列 小 机 的 部 署 则 需要 30 分 钟 
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左右 。x86 当然 是 靠 VMware 以 及 Citrix Xen 作为 平台 ; 而 P 系列 自身 就 提供 了 硬件 级 别 的 虚拟 
分 区 功能 ， 而 且 也 支持 分 区 迁移 等 高 级 功能 ， 其 灵活 程度 毕竟 不 如 x86 开放 平台 ， 所 以 部 署 所 需 
的 时 间 也 要 远 远 长 于 前 者 。 

我 们 还 是 来 看 一 下 这 个 蓝 云 是 怎么 对 外 呈现 的 吧 。 首 先 见 图 20-30， 为 用 户 登 录 到 云 服务 申 
请 界面 时 的 入 口 。 用 户 使 用 自己 的 账户 和 密码 登录 蓝 云 资源 申请 界面 。 登 录 成 功 之 后 ， 便 会 出 现 
如 图 20-31 所 示 的 窗口 ,其 中 会 显示 出 这 个 用 户 之 前 曾经 申请 过 的 所 有 资源 以 及 对 应 的 简要 情况 。 


welcome Sign in to Project Central 
Features of Project Central User Name companyk 
== 


» Self-service access to heti 


* Automated provisioning of hardware and software WE 
* Integrates wth Tvol Monitonng [rE | 


* Easy to use Web2.0 User Interface 


图 20-30 登录 到 云 服务 申请 界面 


Summary Upcoming Events 
0 New Projects Aug 29, 2007, testing Mnux wl be deprovisioned 
3Active projects Aug 29, 2007, p5 tst1 wd be deprovisioned 
J Completed Prolects Aug 30, 2007, wn2k tst1 wil be deprovisioned 
0 Foged Pprojects 
MYy projects 
testing Mnux 08/27/07 to 08/29/07 Active (Changed) @ 
p5 st 08/27/07 to 08/29/07 cve@ 
win2k3 tst1 08/27/07 to 08/30/07 Active (Changed) @ 


Chck on a project to see detals and request changes 

图 20-31 此 用 户 所 申请 的 所 有 资源 列表 
在 图 20-32 所 示 的 窗口 中 单 击 右 下 角 的 Request New Project 按钮 来 申请 新 的 资源 , 出 现 如 图 
20-32 所 示 的 窗口 。 其 中 可 以 选择 用 户 要 使 用 对 应 资源 的 期 限 ， 比 如 本 例 中 选择 了 呢 SEP， 也 就 
是 9 月 份 的 10/11/12 这 三 天 ， 也 就 是 要 用 三 天 的 时 间 。 
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New project Request 


1. Browse available infrastructure and choose dates 2. Select servers and configure software 3, Submit request 


Select Reservation Dales 


Start date ow/IW/2007 DO Enddate oo/iY2m7 DO Ouraton:B days 


SEE 


Available Resoorces 


4 Acaaaeue Servers Avsdoble vol Reseereen 
Sarasralade ne20 ‘09% EE 四 加 

Seres 520 ‘056 1 200 3 2 we 

pSeres p550 CT or (otal] Ee 


6 Pur CEEINB Memon, Oho 160 2508 


prevous next Canal 


20-32 ”指定 使 用 期 限 
单 击 next 按 钮 , 出 现 如 图 20-33 所 示 的 窗口 , 这 里 可 以 给 本 次 所 申请 的 资源 起 一 个 名 字 以 用 
来 区 分 , 并 且 可 以 添加 描述 。 另 外 , 窗口 上 方 可 以 看 到 目前 云 中 现存 可 供 使 用 的 所 有 资源 ( 当然 ， 
可 能 系统 并 没有 列 出 所 有 资源 ， 可 能 会 根据 目前 账户 的 级 别 来 只 列 出 其 可 享受 的 等 级 的 资源 ) 。 
用 户 可 以 选择 对 应 的 资源 ， 比 如 X 系列 PC 服务 器 ， 或 者 刀片 服务 器 , 或 者 P 小 机 服务 器 ,旁边 
还 列 出 了 可 用 的 内 存 与 CPU 频率 资源 ， 以 及 对 应 的 存储 资源 。 选 择 对 应 的 资源 然后 单 击 Add 按 
钮 ， 出 现 如 图 20-34 所 示 的 窗口 。 


New Project Request 
1, Browse avatable infrastructure and choose dates 2. Select servers and configure software 3, Submit request 
Available Resoerces 
Start date 09/10/2007 End date 09/13/2007 Duration 3 

Sve tre /moe moral scpos Totereal Ok soetca) Available Sorvers cAvahodhe Voteal Nacemrees 
| erudite 006 oe = 本 [ | 
| Be pr EE 加 mn 

pene po ne ot FE] 可 Cr] 3 Ch CoaMe Wemery, PT rn 


Complete New Project Detalls 


Project Name: [eptember project 
demo of prolecs operaticn 
Chosen Infrastructure 


{Use the add buttons to add servers to the project) 


previous next cancel 


图 20-33 命名 和 描述 所 申请 的 资源 
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Project Name: Sest eaber project 


Desaription: em of project operatice 
图 20-34 添加 资源 

本 例 中 选择 了 使 用 刀片 服务 器 资源 。 在 这 个 窗口 中 可 以 指定 使 用 刀片 的 数量 ， 
AvailableResources 显示 2， 这 并 不 一 定 就 代表 此 时 系统 中 只 剩 下 两 片 刀片 了 。 前 文 说 过 云 中 可 能 
都 是 一 些 虚 拟 的 资源 ， 这 里 的 2 可 能 就 代表 此 时 系统 只 能 再 为 你 创建 两 台 虚 拟 机 了 ， 因 为 你 的 账 
户 是 铜牌 账户 。 可 能 对 于 白金 账户 的 话 ， 这 个 数字 会 更 高 。 这 里 选择 了 1， 下 面 还 可 以 选择 在 这 
台 虚 拟 机 上 你 想 让 它 安装 部 署 什么 操作 系统 ， 这 里 选择 了 Linux。 是 否 需要 部 署 中 间 件 ?如 果 勾 
选 的 话 ， 那 么 系统 会 自动 将 WebSphere 中 间 件 部 署 到 虚拟 机 中 。 这 些 定制 化 的 选项 ， 其 后 端 必定 
对 应 这 样 一 种 情况 ， 比 如 系统 预先 将 各 种 可 组 合 的 情况 独立 生成 一 份 虚拟 磁盘 镜像 文件 ， 比 如 装 
好 WebSphere 的 Linux 系统 ， 或 者 一 份 裸 Linux 系统 ， 或 者 部 署 了 WebSphere 的 AIX 系统 镜像 。 
当 用 户 选择 了 对 应 的 组 合 之 后 ， 系 统 后 台 就 将 这 些 文件 复制 一 份 或 者 直接 做 一 个 快照 来 供 对 应 的 
虚拟 机 运行 ， 如 图 20-35 所 示 。 


Start date 09/10/2007 End date 09/13/2007 Duration 3 


Server Dpe /model Memery(n] CPs lintereal Ow Suelc8) hvalahle Sorvers Avaksbie Vtusl ecources 

Sones-Blade he20 ‘09% 1 2200MHz 站 1 ma [| 
Seres HS20 1096 x 300MNE 加 2 ma | so | 
pSenes p550 S196 (total) 4 x 1200Mmz (total 00 al .6 CPUs S684ME Memory, Dak0:168.2568 Er 


Complete New Project Detalls 


Project Name: eptember project 
wk eme of Droyece operarion 
Chosen Infrastructure 
器 xsenes-gade hs20 1Servers 0S: Unux | Middieware: IBM WebSphere Application Server 6.1 ~ Linux Ey 


图 20-35 已 经 创建 好 的 资源 
如 图 20-36 所 示 , 参数 已 经 选择 完毕 的 资源 会 被 列 在 下 方 的 窗口 中 。 此 时 可 以 继续 添加 资源 ， 
如 果 添 加 完毕 ， 则 单 击 右 下 角 的 next 按钮 ， 出 现 如 图 20-36 所 示 的 窗口 。 
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1 Bromse avatable nfasbuchre nd choose dates 2 Select servers and canbe softnae 3. Submit request 
Samaan 
Poect name: September project 
Start ae 09/10/2007 End date 09/13/2007 Oustion 3 
Chosen Inlrastructure 
‘Senes-Blade hs20 1Servers 05; Un | Mddeware: EM WebSphere Apphcation Server 6.1- Lnur 


previous [done] cancel 


New Project Requcst 
cortege setase 2. Submlt reqoest 


.Bewse a 


Reservng mirastructure.. tome 
Schedutng resources... dome 
Request completed successtuly' roms 
本 四 
目 srpos ha 15ers 0 Ln | Wadee re: Eo eepher PINon Sererr 和 1 me 


图 20-36 系统 后 台 开 始 部 署 对 应 的 资源 
此 时 系统 后 台 就 开始 根据 用 户 指定 的 参数 来 部 署 对 应 的 资源 了 。 比 如 在 Creating Project 过 程 
中 ,系统 后 台 可 能 会 在 云 管理 平台 中 创建 对 应 的 条 目 和 记录 等 ， 这 一 步 是 比较 快 的 ，Reserving 
Infrastructure 过 程 中 ,系统 后 台 会 调用 对 应 的 虚拟 化 管理 平台 比如 Citrix Xen 来 部 署 对 应 的 虚拟 机 ， 
比如 将 预先 定制 好 的 虚拟 磁盘 镜像 文件 复制 一 份 到 对 应 的 存储 空间 ， 然 后 创建 新 虚拟 机 ， 然 后 挂 
起 磁盘 ， 启 动 。 整 个 过 程 完毕 之 后 ， 单 击 OK 按钮 结束 整个 过 程 ， 出 现 如 图 20-37 所 示 的 窗口 。 


Sep 10, 2007, Spt emtes ptoject wd be provishoned 
Ce 9. 2007, esting Mun ma te Geprovisioned 
he 29, 2007, p5 st} wdl be deprovisioned 
seg 0, 3007, wr te} we be Geprowidoned 


图 20-37 刚才 创建 的 新 资源 已 经 列 出 
单 击 这 个 新 创建 的 资源 进入 资源 详细 信息 页 面 ,如 图 20-38 所 示 。 可 以 看 到 系统 已 经 自动 部 
署 了 对 应 的 操作 系统 、 中 间 件 ， 以 及 配置 了 了 P 地 址 。 
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i 
Sroject Name September project 
Desmrpoon demo of project operation 


propect State come Project heat Good 
San Date 09/1912007 Ed Cate 09/13/2007 Durabon 3Days 

ntactrecures 
| mme Mardware Configuration os 
| 

[PR TSeves110Cus- 4096MG Nemory - 35G8 Dsk me ood 

rnee oem soe ue 
P93012773 Menor Unge 71590@ Fr 
a 
eqeou Talrasrocture Chome Newest Dote home Terminete nejea oe 


图 20-38 资源 详细 信息 页 面 

用 户 此 时 就 可 以 使 用 Telnet、SSH 或 者 远程 桌面 等 来 连接 这 台 服 务 器 从 而 执行 后 续 的 定制 化 
部 署 了 ， 比 如 安装 其 他 软件 等 。 此 时 这 人 台 虚 拟 机 就 完全 是 你 的 了 ， 愿 意 怎么 搞 就 怎么 搞 ， 搞 崩溃 
了 也 没 问题 ， 只 需要 让 运营 商 给 你 回 滚 一 下 就 可 以 了 ， 用 什么 回 滚 呢 ? 当然 是 快照 技术 了 ,或 者 
在 虚拟 机 层 实现 ， 或 者 直接 在 底层 存储 中 实现 。 当 然 ， 快 照 能 回 滚 到 最 近 的 时 间 点 粒度 ， 也 是 一 
种 服务 级 别 。 比 如 你 购买 了 高 粒度 的 快照 ， 那 么 你 或 许 就 可 以 回 滚 到 5 分 钟 之 前 的 状态 ， 而 你 如 
果 只 购买 了 低级 别 的 快照 粒度 ， 那 么 你 可 能 就 只 能 回 滚 到 一 天 前 的 状态 了。 还 有 各 种 各 样 其 他 类 
型 的 服务 级 别 , 这 些 都 需要 用 户 在 购买 云 服 务 的 时 候 与 运营 商 签订 SLA( Service Level Agreement )， 
SLA 中 会 规定 所 有 详细 的 服务 条 款 。 

其 他 运营 商 的 方案 与 3teraApplogic 以 及 IBM Blue Cloud 如 出 一 辐 , 不 管 是 Iaas 、Paas 或 者 是 
SaaS， 其 不 同 的 只 是 交付 方式 的 区 别 。 读 者 可 以 从 本 案例 中 窥 见 一 斑 。 


20.6 ”乘风破浪 一 一 困难 还 是 非常 多 的 
云 这 个 东西 并 非 都 是 优点 。 作 为 一 个 刚刚 兴起 来 的 概念 ， 其 机 遇 与 挑战 并 存 。 
20.6.1 云 的 优点 


1. 为 企业 解除 了 投资 浪费 的 后 顾 之 忧 


买 了 服务 器 买 存储 ， 买 了 存储 买 交 换 机 ， 买 完了 硬件 买 网 管 软件 、 买 运行 维护 服务 ， 磨 合 期 
结束 时 ,发 现 需要 扩容 需要 购买 新 的 硬件 , 耗费 大 量 的 电能 却 不 是 每 时 每 刻 都 在 计算 、 都 在 存储 。 
这 种 问题 在 迁移 到 云 之 后 将 会 不 复 存在 ， 整 体 资源 极 大 地 得 到 节约 。 


2. 绿色 节能 ,社会 成 本 降低 


随 着 云 服务 的 发 展 , 网 民 只 需 一 条 高 带宽 的 网 络 连接 和 一 台 处 理 能 力 很 弱 但 是 耗 电 很 低 的 瘦 
终端 机 和 显示 器 即 可 享受 各 种 信息 服务 ， 包 括 3D 演 染 服务 ， 甚 至 高 性 能 显卡 也 无 须 再 购买 。 节 
能 不 但 只 针对 于 使 用 云 服 务 的 用 户 ， 运 营 商 自身 通过 使 用 虚拟 化 整合 的 弹性 数据 中 心 ， 也 可 以 实 
现 节 能 增 效 。 

3. 廉价 


随 着 网 络 带宽 逐步 增加 和 云 的 发 展 ， 云 服务 将 会 变 得 越 来 越 廉价 从 而 走 入 干 家 万 户 。 届 时 人 


903 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


们 会 发 现 与 其 购买 一 台 高 性 能 PC 主机 和 大 容量 存储 硬盘 、 高 性 能 显卡 ， 倒 不 如 购买 同样 感 观 的 
云 服 务 来 得 方便 和 便宜 。 云 服务 时 代 , 一 切 你 本 地 所 能 享受 到 的 IT 服务 , 都 可 以 在 网 线 那 头 得 到 
满足 。 

4. 角色 转变 

云 服务 将 企业 内 部 的 IT 基础 架构 从 围绕 应 用 系统 开展 的 模式 全 面 转向 以 服务 为 宗旨 开展 的 
模式 。 没有 云 之 前 , 企业 的 IT 基础 架构 一 切 工作 都 要 围绕 应 用 系统 来 开展 , 基础 架构 的 配置 水 平 
严格 由 应 用 系统 决定 , 应 用 系统 以 及 使 用 应 用 系统 的 部 门 成 为 资源 的 掌控 者 ; 而 私有 云 形 成 之 后 ， 
IT 基础 架构 部 门 变 为 资源 的 掌管 者 ， 其 他 部 门 都 变 为 消费 者 ,向 云 来 要 服务 。 这 种 政治 角色 的 转 
变 ， 是 比较 微妙 的 。 


20.6.2 云 目前 存在 的 问题 


1. 稳定 性 和 安全 性 的 问题 


换个 角度 ， 在 运 维 方面 ， 你 觉得 谁 更 专业 ? 你 还 是 云 ? 如 果 你 觉得 你 更 专业 ， 那 是 另外 一 回 
事 ; 如 果 你 觉得 云 更 专业 , 你 认为 将 同样 故障 率 的 Infiastructure 放 到 你 这 和 放 到 云 里 哪个 更 保险 ? 
数据 都 是 你 的 ， 只 不 过 换个 人 保管 ， 既 然 你 认为 云 更 专业 ， 那 就 应 该 相信 云 。 

这 和 银行 是 一 样 的 道理 ， 你 总 是 认为 银行 有 更 保险 的 措施 来 保障 你 的 金钱 ,唯一 区 别 是 钱 都 
是 一 样 的， 而 数据 具有 唯一 性 ， 所 能 做 的 就 是 多 几 份 元 余 。 说 到 数据 所 有 权 的 问题 ， 比 较 有 意思 
的 是 ，Facebook 前 段 时 间 修 改 了 其 服务 声明 ， 宣 称 它 拥有 数据 的 永久 的 所 有 权 ， 并 且 有 权力 使 用 
保存 或 者 发 表 在 该 网 站 上 的 任何 内 容 。 笔 者 想 这 只 是 特例 ,一 切 都 是 可 以 谈 的 。 个 人 认为 云 系统 
中 基础 设施 和 数据 本 身 的 安全 性 问题 大 可 不 必 担 心 。 

另外 , 共有 云 所 面临 的 一 个 最 大 问题 就 是 如 何 彻底 隔绝 两 个 用 户 的 存储 资源 ， 用 户 总 是 有 这 
各 担心， 比如 互 为 竞争 对 手 的 A 与 B 公司 共同 选择 了 云 运营 商 C 的 服务 ，A 与 B 各 自 的 数据 如 
何 才能 够 确保 底层 被 完全 隔离 ， 因 为 用 户 往往 认为 只 有 这 样 才能 够 真正 做 到 自己 的 数据 不 被 对 手 
通过 某 些 后 门 黑客 手段 所 窃取 。 


2. 涉 密 问题 


另外 一 个 担心 就 是 将 数据 存储 在 不 信任 的 地 方 , 如 何 解决 涉 密 问题 。 这 确实 是 一 个 原则 问题 。 
这 方面 依然 是 可 以 通过 技术 层面 解决 的 ， 比 如 将 数据 源 放 到 本 地 并 在 服务 器 端 采用 加 密 方式 ， 用 
户 控制 密 钥 等 。 


3. 平台 迁移 问题 


怎样 在 不 影响 已 经 运行 的 业务 的 前 提 下 将 其 迁移 到 云 平台 ， 这 也 是 一 个 比较 头疼 的 问题 ， 需 
要 提供 商 给 出 最 佳 的 解决 方案 。 


4. 骑 虎 难 下 的 问题 
一 旦 用 户 选择 了 某 家 云 服务 提供 商 ， 如 果 之 后 想 更 换 提供 商 ， 则 几乎 是 一 件 无 法 找到 好 办 法 
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的 事情 ， 因 为 你 的 业务 、 数 据 都 已 经 部 署 在 这 家 云 提供 商 处 了 。 更 换 提供 商 就 意味 着 将 数据 业务 
进行 迁移 ， 并 且 伴 随 着 业务 停机 。 想 要 做 到 停机 时 间 最 短 的 迁移 ， 就 需要 两 个 运营 商 之 间 形 成 合 
作 关 系 ， 这 不 是 一 件 容易 的 事情 。 


5. 不 兼容 问题 


不 同 云 服务 商 的 架构 不 同 ， 所 提供 的 访问 接口 也 不 同 ， 随 着 云 的 发 展 ， 势 必 有 云 之 间 通 信 的 
要 求 ， 就 像 多 个 网 络 之 间 互 联 形成 ntemet 一 样 ， 云 也 一 样 ， 这 方面 需要 一 个 像 IP 地 址 和 TCP 
一 样 的 标准 出 现 。 目 前 Amazon 的 AWS ( Amazon Web Service ) 系列 接口 已 经 逐渐 在 成 为 标准 ， 
这 些 标准 包括 : SimpleDB: simple DB 接口 (与 Hadoop 中 的 bigtable，hypertable 之 类 比较 像 ) ; 
RDS: 亚马逊 的 Relational Database Service 接口 ; SQS, 即 Simple Queue Service 服务 ( 类 似 message 
queue 这 种 服务 ) ; CloudWatch， 监 控 整 个 云 ; EBS， 即 Elastic Block Stor 接口 ， 用 来 控制 块 数据 
访问 ; IAM， 即 Identity and Access Management 接口 ， 用 来 控制 和 认证 用 户 行为 等 。 


6. 带宽 问题 
网 络 带宽 始终 是 Web 2.0 和 云 时 代 的 首要 瓶颈 ， 网 络 带 宽 不 飞跃 ， 服 务 也 不 能 飞跃 。 
7. 运营 方式 


云 要 想 盈 利 ， 重 点 是 运营 方式 。 用 什么 样 的 方式 来 获得 用 户 的 关注 ， 是 需要 不 断 努 力 做 的 一 
件 事情 。 

总 之 , 适用 于 企业 级 业务 的 云 ， 目 前 还 尚未 得 到 普及 ， 随 着 技术 和 时 代 的 发 展 ， 企 业 级 云 服 
务 最 终 将 会 在 市 场 上 占有 一 席 之 地 。 


20.7 和 干 年 之 梦 一 一 云 今后 的 发 展 


20.7.1 云 本 质 思 考 


存储 资源 + 计算 资源 + 软件 资源 ， 最 后 虚拟 为 IT 服务 资源 ， 也 就 是 最 终 形态 的 Software as a 
Service ( SAAS ) 。 抽 象 来 看 ， 这 不 就 是 一 台 虚 拟 计算 机 么 ? 硬盘 + 服务 器 + 操作 系统 和 应 用 软件 
+ 显示 器 。 其 实 目前 的 IT 技术 都 没 逃 出 这 个 模型 ， 都 是 这 个 模型 的 各 种 变形 体 。 

说 明 : 比如 Bowser - Webserver - Application Server - DB Server, 就 相当 于 显示 器 - 显示 卡 

=- 主机- 硬盘 。 再 抽象 一 下 ， 就 是 显示 器 - 硬盘 ， 人 们 最 终 需 要 的 是 结果 并 将 其 显示 出 

来 看 到 眼 里 听 到 耳 人 条 里 ， 看 完了 还 得 存 起 来 或 者 从 硬盘 上 取出 来 。 人 们 需要 的 就 是 显示 

器 和 存储 设备 ， 中 间 的 任何 过 程 ， 从 最 终 用户 的 角度 来 说 ， 是 根本 不 去 关心 的 。 而 云 服 

务 的 出 现 ， 恰 恰 就 是 这 种 思想 的 一 个 呈现 和 回归 。 


既然 用 户 最 终 需 要 的 不 是 服务 器 也 不 是 一 堆 一 堆 的 硬盘 也 不 是 机 房 也 不 是 整 天 吹 冷风 的 空 
调 ， 他 们 只 不 过 想 要 自己 的 数据 被 展现 出 来 ， 看 到 生产 的 结果 并 上 且 储存 起 来 备用 ， 就 这 样 嘛 。 好 
吧 ， 你 不 喜欢 机 房 ， 也 不 喜欢 看 到 一 推 一 堆 的 机 柜 ， 你 不 愿意 看 到 你 花 很 多 钱 购买 的 服务 器 ， 在 
系统 不 繁忙 的 时 候 ，CPU 利用 率 几 乎 等 于 0， 磁盘 IO 利用 率 几 乎 等 于 0。 即便 这 样 , 你 惕 是 无 奈 
地 乖乖 的 让 这 些 家伙 持 续 耗费 着 电 ， 磨 损 ， 磁 盘 依然 高 速 旋 转 着 就 为 了 时 不 时 地 接受 那 无 关 痛 痒 
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的 几 次 IO 操作 ; 系统 管理 员 在 巡 检 完 后 ， 无 所 事 事 地 聊天 玩 游戏 而 你 却 得 按 月 支付 工资 ， 你 同 
样 也 不 愿意 再 为 了 这 些 你 认为 已 经 让 你 觉得 浪费 很 大 的 投资 而 再 次 投资 购买 什么 网 管 软件 或 者 监 
控 软 件 之 类 的 东西 ， 同 样 你 更 不 愿意 看 到 花 钱 购 买 的 硬件 在 几 年 后 被 完全 淘汰 并 且 不 被 厂家 支持 
了 ; 你 也 不 愿意 每 月 缴纳 那 高 昂 的 电费 和 雇佣 系统 管理 员 的 开销 。 你 每 天 望 洋 兴叹 ， 有 昨天 服务 器 
Down 机 了 ， 生 产 停顿 30 分 钟 ， 损 失 10000 元 ， 今 天 硬盘 损坏 ， 换 了 一 块 硬盘 花 了 2500 元 ， 谁 
知道 明天 又 会 有 什么 麻烦 事 呢 ? 

你 好 ,我 们 这 里 有 机 房 有 机 器 有 存储 有 网 络 ， 有 非常 专业 的 操作 人 员 和 维护 人 员 ， 我 们 帮 你 
运行 应 用 程序 ,我 们 帮 你 存储 ， 你 不 用 担心 硬件 淘汰 的 问题 ， 淘 汰 了 算 我 们 的 。 我 们 给 你 一 个 人 Pp 
地 址 ， 你 用 浏览 器 登录 这 个 地 址 打开 网 页 就 能 发 送 指令 并 且 看 到 你 的 结果 了 ， 而 且 还 能 看 到 你 的 
结果 被 妥善 保存 了 ， 这 样 你 满意 否 ? 满意 的 话 ， 咱 们 谈 一 谈 你 需要 付 多 少 钱 来 购买 我 们 这 种 服务 
吧 。 你 很 痛快 地 付 了 款 ， 我 们 很 痛快 地 将 你 眼前 的 乱 摊子 转移 到 了 我 们 这 里 ， 你 花 了 钱 ， 我 们 给 
你 收拾 了 乱 摊子 。 从 此 你 可 以 解脱 了 ， 你 可 以 专心 去 做 更 重要 的 事情 了 ! 

这 就 是 云 的 本 质 的 一 种 ， 云 其 实 就 是 一 种 服务 ， 云 本 身 不 是 一 个 物质 ， 它 不 是 你 能 摸 到 看 到 
的 ， 但 是 它 要 基于 物质 才能 显现 它 的 功效 ， 你 可 以 把 它 看 作 某 种 能 量 的 体现 ， 即 存在 于 物质 之 上 
的 东西 , 正 因为 这 样 , 才 让 人 尝 , 不 细 细 体会 是 看 不 清 这 层 形 而 上 的 东西 的 。《 易 经 》 有 云 : “ 形 
而 上 者 谓 之 道 ， 形 而 下 者 谓 之 器 。” 所 以 ， 下 器 者 ， 谓 之 服务 器 + 存储 + 部 署 管理 软件 ， 上 道 者 ， 
谓 之 “ 云 ”。 所 以 , 云 是 一 种 道 ， 是 一 种 方式 和 方法 ， 而 并 不 是 某 个 设备 ， 某 个 软件 ， 当 然 云 这 
种 道 要 用 软件 来 实现 ， 而 且 是 模块 众多 的 一 套 复 杂 软 件 ， 同 时 要 用 硬件 来 承载 。 

所 以 , 云 与 速度 和 性 能 没有 直接 关系 。 就 像 前 几 年 IPv6 刚 被 炒作 的 时 候 , 铺天盖地 的 媒体 乱 
鼓吹 说 IPv6 时 代 下 载 一 部 高 清晰 电影 只 需要 几 分 钟 , 笔者 当时 听 了 就 一 头 雾 水, IPv6 协议 上 再 优 
化 ， 也 不 可 能 超越 其 底层 所 承载 的 物质 的 极限 ， 即 互联 网 络 的 硬件 基础 ， 链 路 不 提速 ， 何 来 上 层 
的 提速 ? 云 也 是 一 样 ， 云 本 身 并 不 一 定 就 是 一 个 高 速 高 元 余 性 的 东西 ， 而 是 说 其 底层 的 硬件 一 般 
使 用 并 行 计算 集群 和 存储 集群 ， 在 这 个 基础 上 云 方 能 表现 出 更 大 的 效能 ， 况 且 云 也 不 是 为 了 提速 
而 生 的 。 云 的 最 重要 的 作用 其 实 是 廉价 高 效 地 利用 资源 并 且 将 硬件 拥有 成 本 和 管理 成 本 降低 为 几 
乎 等 于 0， 成 本 模式 全 部 转 为 服务 费 。 当 然 ， 性 能 也 是 云 的 一 个 重要 考虑 。 

其 实 云 早 就 存在 了 ,在 互联 网 诞生 的 那 一 天 ， 云 就 一 直 存 在 ， 慢 慢 发 展 直到 近 两 年 才 被 炒作 
起 来 。 云 其 实 早已 落地 生根 ， 只 不 过 现在 才 钼 地 面 并 且 惹 人 关注 了 。 可 以 这 么 说 ， 互 联网 服务 就 
是 云 服务 ( 注意 ， 不 代表 云 服务 就 一 定 是 互联 网 服务 ) ， 所 以 有 人 提出 了 EAAS，Everything as a 
Service。IT 服务 即 云 ， 即 云 服务 。 

目前 存在 一 个 误区 ， 认 为 云 必须 是 集群 ， 必 须 是 让 你 不 知道 数据 在 哪里 ， 或 者 数据 必须 在 所 
谓 “很 远 的 地 方 ” 却 让 你 感觉 到 其 实 很 近 ， 才 算 云 。 其 实 这 只 是 云 发 展 过 程 中 的 其 中 一 个 形态 而 
已 。 一 台 Web 服务 器 在 互联 网 上 提供 服务 ， 你 所 知道 的 只 是 它 的 域名 和 IP 地 址 ， 你 同样 也 不 知 
道 它 是 一 台 单一 域名 和 IP 的 单 主机 ， 还 是 用 一 个 IP 对 应 多 个 域名 的 虚拟 主机 ， 你 更 不 知道 网 页 
数据 存放 在 哪里 ， 它 可 以 存放 在 本 地 硬盘 ，SAN 存储 设备 , 或 者 是 通过 长 距离 网 络 从 一 个 “很 远 
的 地 方 ” 取 回 数据 而 发 送 给 你 ,难道 这 不 是 云 么 ? 同样 是 云 。 这 恰好 就 回归 了 云 的 本 质 ， 即 用 户 
根本 不 用 关心 服务 方 采用 什么 方式 ， 哪 怕 它 就 是 一 台 简单 的 服务 器 。 

而 且 上 文中 也 论述 过 ， 云 是 “上 道 者 ”， 而 集群 是 “下 器 者 ”， 下 器 者 是 在 不 断 上 升 和 发 展 
的 , 而 上 道 者 则 是 轮回 往复 的 。 但 是 绝 不 能 说 云 与 底层 硬件 架构 无 关 , 硬件 架构 越 庞大 性 能 越 强 ， 
则 云层 也 要 跟着 适应 其 发 展 ， 会 产生 更 多 的 具体 细节 功能 。 云 系统 硬件 正在 向 超大 规模 集群 、 高 
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可 靠 性 可 用 性 、 高 动态 扩展 性 方面 发 展 ; 云 系 统 的 软件 即 硬件 之 上 的 云层 ， 正 在 向 功能 多 样 化 、 
管理 简便 化 、 按 需 分 配 资源 、 廉 价 方面 发 展 。 

在 Web 1.0 时 代 , 网 络 尚未 广泛 普及 , 带宽 极 低 ，56K Modem 上 网 时 代 , 使 得 服务 者 和 浏览 
者 双方 都 受到 限制 ， 使 用 者 不 可 能 通过 这 么 低 的 带宽 来 观看 在 线 视频 或 者 在 线 音 乐 ， 更 不 可 能 下 
载 或 者 上 传 一 些 容量 很 大 的 资源 。 这 直接 制约 了 服务 方 的 发 展 ， 造 成 互联 网 服务 形式 过 于 单一 ， 
大 多 是 缺少 互动 的 简单 媒体 形式 比如 简单 的 网 页 、 静 态 的 新 闻 之 类 。 

而 随 着 网 络 硬件 技术 和 软件 技术 的 发 展 及 人 民生 活水 平 的 提高 , 在 几 年 的 时 间 内 ，1Mb 甚至 
更 高 带宽 的 网 络 终端 走 入 了 千家 万 户 ， 直 接 冲破 了 底层 限制 ， 而 且 计 费 方式 从 按时 间 收 费 转 为 包 
月 包 年 。 这 直接 使 得 互联 网 成 为 一 个 随时 可 访问 的 、 永 远 在 线 的 永久 媒介 。 网 民 们 纷纷 从 传统 媒 
体 转 到 互联 网 ， 而 这 又 直接 催生 了 各 种 互联 网 服务 ， 比 如 音 视频 、 聊 天 、 博 客 、 网 络 硬盘 、P2P 、 
高 清 电 影 等 。 带 宽 的 增加 和 不 限时 在 线 ， 让 网 民 们 毫 无 顾忌 地 上 传 视频 、 音 频 等 ， 恨 不 得 塞 满 服 
务 器 ， 一 时 间 使 得 数据 暴 增 ， 互 联网 一 下 子 步 入 了 Web 2.0 时 代 。Web 2.0 时代 就 是 一 个 网 民 互 
动 、 数 据 暴 增 、 服 务 多 样 的 互联 网 时 代 ， 互 联网 的 作用 真正 的 得 以 体现 。 

在 这 个 时 代 ， 越 来 越 多 的 人 选择 将 自己 的 数据 存放 在 服务 方 而 不 是 自己 的 本 地 硬盘 ， 因 为 自 
己 的 硬盘 永远 不 够 用 ， 而 且 也 懒 于 备份 。 人 们 通过 网 络 硬盘 、 邮 箱 、 公 共 FTP、 网 盘 等 方式 将 自 
己 的 数据 上 传 并 且 得 到 永久 保存 ， 更 重要 的 是 ， 在 哪里 都 可 以 访问 到 自己 的 数据 ， 只 要 有 网 络 。 
服务 提供 者 可 以 在 此 基础 上 实现 分 级 的 服务 ， 比 如 免费 服务 和 VIP 服务 等 多 样 化 的 服务 方式 。 这 
便 是 云 的 方式 ， 云 的 思想 。 可 以 说 Web 2.0 时 代 将 是 云 服务 的 温床 。 最 近 又 有 人 在 炒作 Web 3.0 
的 概念 ， 加 入 物 联 网 元 素来 翻 炒 ， 这 里 就 不 袭 述 了 。 


20.7.2 ”身边 的 各 种 云 服务 


网 站 、QQ、MSN、ICQ、Camfrog、 网 络 硬盘 、 网 络 音 视频 、 网 络 账 本 、 网 络 日 记 、 在 线 文 
档 阅 读 、 在 线 游戏 等 ， 仔 细 想 来 ， 这 些 就 在 我 们 身边 的 东西 ， 都 是 云 服 务 。 我 们 通过 浏览 器 来 接 
收 Web 网 页 和 通过 Web 网 页 提交 自己 的 请 求 却 不 关心 服务 方 的 具体 架构 ; 我 们 通过 聊天 工具 和 
其 他 人 就 像 在 同一 房间 内 一 样 通过 文字 语音 视频 聊天 而 并 不 知道 自己 和 其 他 人 是 否 连 接 了 同一 台 
物理 服务 器 ;我 们 上 传 自己 的 资料 到 网 络 硬盘 却 不 关心 服务 方 有 没有 及 时 备份 或 者 我 的 数据 是 不 
是 被 服务 方 擅自 迁移 到 了 慢 速 的 SATA 硬盘 存放 ; 我 们 在 网 页 上 阅读 各 式 各 样 的 文档 却 根 本 不 用 
安装 对 应 的 文档 浏览 工具 。 

还 有 ， 中 文 输入 法 的 革新 ， 输 入 法 已 经 是 与 时 俱 进 ， 充 分 利用 互联 网 的 便捷 。 比 如 某 拼音 输 
入 法 ， 可 以 随时 更 新 专项 词 库 ， 各 行 各 业 的 不 断 出 现 的 新 名 词 统一 由 服务 器 收集 并 且 提 供 下 发 更 
新 ， 你 再 也 不 用 一 个 字 一 个 字 地 敲 ， 而 且 其 同样 步 入 了 云 服 务 时 代 ， 每 个 用 户 可 以 将 自己 的 词 库 
信息 上 传 到 服务 器 ， 这 样 ， 不 管 你 在 哪 台 电脑 上 使 用 输入 法 ， 词 库 信 息 都 会 实时 同步 以 满足 你 的 
输入 习惯 和 要 求 。 并 且 服 务 器 整 词 输入 时 ， 程 序 还 会 去 服务 器 端 动态 检索 是 否 有 相同 音 的 词 被 其 
他 人 输入 过 ， 也 即 是 所 谓 “ 云 输入 法 ”。 不 过 这 个 云 却 是 非常 实用 的 ， 比 如 某 些 同音 词 ， 单 靠 软 
件 智能 是 无 法 正确 输入 的 ， 但 是 借助 云 ， 你 可 以 看 到 其 他 人 对 于 这 个 拼音 所 输入 的 词汇 ， 你 把 所 
有 人 的 知识 拿 来 用 了 ， 这 确实 非常 让 人 兴奋 ! 同时 你 曾经 输入 过 的 词汇 也 会 动态 地 被 发 送 到 服务 
器 端 保 存 ， 也 会 贡献 给 他 人 。 这 样 就 形成 了 一 个 “个 体 一 整体 ”的 系统 , 个 体 的 行为 贡献 给 整体 ， 
整体 又 反 过 来 影响 个 体 、 加 速 个 体 的 发 展 ， 个 体 整体 之 间 相互 促进 ， 形 成 一 个 有 机 的 智能 整体 ! 
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20.7.3 ”进化 还 是 退化 


独立 计算 回归 集中 计算 ， 是 退化 还 是 进化 ? 都 不 是 ， 是 轮回 。 公 共 的 集中 分 时 计算 早 在 40 
年 前 就 出 现 了 ， 随 后 逐渐 萎缩 。 世 纪 相 交 时 刻 的 前 后 几 年 ， 用 户 都 各 自 购买 Infrastructure 自行 计 
算 和 存储 ， 但 是 为 何 进 入 新 世纪 之 初 ， 又 逐渐 兴起 回归 到 集中 计算 时 代 呢 ? 笔者 认为 这 依然 应 了 
中 国 的 一 名 古话 : “分 久 必 合 , 合 久 必 分 。” 即 万 物 皆 在 一 个 轮回 中 不 断 地 发 展 ， 到 一 定 程度 就 
会 改变 成 最 初 的 形态 ， 但 是 承载 它 的 物质 是 连续 不 断 地 积累 和 提升 的 ， 所 被 轮回 的 只 是 其 上 的 那 
层 能 量 ， 谓 之 道 ! 硬件 不 断 地 发 展 ， 其 上 的 道 却 是 不 断 轮 回 地 往 前 发 展 ， 这 种 现象 存在 于 万 物 之 
间 ， 不 能 用 什么 科学 解释 ， 只 能 说 这 是 自然 的 规律 。 

比如 存储 系统 的 演变 ,从 独立 存储 DAS 发 展 到 网 络 集中 存储 SAN, 你 也 可 以 称 SAN 为 一 个 
云 服 务 , 很 恰当 ,而 如 今 随 着 盘 片 密度 的 不 断 增 高 和 SSD 固态 芯片 存储 的 发 展 ,好 像 存 储 系统 有 
那么 点 回归 独立 存储 的 趋势 。 比 如 在 1U 的 服务 器 上 插 满 12 块 2.5 英寸 的 SAS 硬盘， 其 提供 的 容 
量 和 速度 也 是 相当 可 观 的 。 

理想 : 就 像 笔者 个 人 曾经 预测 的 一 样 ， 如 果 存 储 介质 真 的 能 够 发 展 到 惊人 的 高 密度 和 高 

速度 ， 谁 还 会 插 个 卡 再 用 线 缆 连 接 到 某 个 很 远 的 地 方 只 为 了 存储 数据 呢 ? 更 甚 一 步 ， 集 

中 存储 轮回 至 独立 存储 之 后 ， 什 么 时 候 可 能 再 轮回 到 集中 存储 呢 ? 无 线 时 代 。 随 着 无 线 

电 技 术 的 发 展 ， 人 们 发 现 可 以 用 无 线 电 通信 和 直接 到 地 球 上 甚至 宇宙 中 某 处 来 存储 数据 ， 

此 时 我 还 需要 在 本 地 使 用 大 容量 的 芯片 么 ? 至 此 我 更 加 坚信 “上 道 者 ”的 轮回 往复 。 然 

而 ，“ 下 器 者 ”是 否 一 定 也 是 永远 前 进发 展 而 不 轮回 呢 ? 笔者 给 不 出 答案 ， 如 果 古 玛雅 

人 的 预测 是 真 的 ， 那 或 许 是 的 ， 只 不 过 一 个 轮回 要 经 历 太 长 时 间 而 已 。 


20.7.4 云 发 展 展望 


网 线 可 以 代步 ， 网 线 比 宇宙 飞船 速度 快 ， 网 线 上 可 以 传 来 香喷喷 的 菜肴 和 服装 ， 网 线 可 以 做 
任何 事情 ， 给 我 一 根 网 线 ， 你 可 以 关 我 禁闭 ， 如 果 要 加 上 一 个 期 限 的 话 ， 可 以 是 一 万 年 。 随 着 互 
联网 和 电子 商务 的 发 展 , 越 来 越 多 的 人 成 为 宅 人 ,他们 的 工作 以 Homeoffice 为 主 ， 生 活 上 也 是 足 
不 出 户 。 这 些 宅 人 们 充分 享受 云 的 便利 ， 腾 云 驾 雾 ， 通 过 网 络 订餐 送水 购物 ， 活 的 怡然 自得 。 正 
所 谓 : 白云 其 上 白云 斋 ， 和 白云 斋 下 白云 仙 ; 白云 仙人 布 网 线 ， 原 来 仙人 也 是 宅 。 

当 入 户 网 络 带 宽 达 到 很 高 的 数值 之 后 ， 更 高 级 别 的 云 服务 将 彻底 颠覆 PC 市 场 ， 用 户 都 转向 
了 集中 计算 和 集中 存储 。 有 人 或 许 会 质疑 ， 就 算是 1Gb 的 以 太 网 到 户 ， 其 提供 的 带宽 果真 能 够 满 
足 将 来 的 存储 需要 么 ? 

这 一 点 我 们 可 以 做 一 个 论证 , 现在 你 就 可 以 试 试看 ， 从 移动 硬盘 上 复制 一 个 文件 到 你 的 本 地 
硬盘 , 速度 有 多 少 ? 充其量 四 五 十 兆 吧 , 这 算 好 的 了 ,1Gb 的 理论 速率 是 100MB 每 秒 , 除去 各 种 
开销 ， 咱 们 就 给 他 算 30MB 每 秒 。 目 前 来 讲 ， 这 个 速率 相当 于 本 地 硬盘 的 大 部 分 操作 情况 下 的 速 
度 了 ， 这 就 完全 可 以 满足 要 求 了 。 

或 许 还 有 人 质疑 , 入 户 带宽 达到 1Gb 的 时 候 , 那 时 候 的 应 用 程序 和 对 数据 的 需求 量 一 定 是 得 
寸 进 尺 ,影片 不 仅 是 1080P 了 ， 而 是 4080P， 家 里 都 用 高 清 电视 墙 或 者 投影 钓 了 。 那 也 不 用 担心 ， 
就 算是 4080P，1Gb 的 带宽 也 足够 流 媒体 的 在 线 播放 要 求 。 


第 20 章 “ 腾 云 驾 雾 一 一 大 话 云 存 储 @ 


我 们 要 理解 的 一 点 是 ， 云 即 是 服务 ， 我 们 通过 网 络 拿 过 来 的 是 内 容 的 表示 ， 而 不 是 内 容 的 裸 
存储 或 者 计算 。 比 如 原来 我 需要 从 网 络 上 下 载 一 个 数据 库 程序 安装 文件 ， 好 几 GB， 我 还 是 需要 
等 上 一 段 时 间 才能 下 载 完 ， 还 得 安装 配置 ， 不 方便 。 

但 是 你 忘 了 一 件 事情 ， 云 服务 时 代 ， 是 不 需要 你 自己 运行 数据 库 的 ， 你 只 需要 从 云 里 拿 到 最 
终 处 理 并 且 表 示 的 数据 即 可 。 这 些 处 理 后 的 内 容 有 多 少 呢 ? 很 少 的 网 络 流量 ， 除 非 是 高 清 视频 等 
Rich Media。 或 者 你 需要 下 载 一 个 Windows 7 的 安装 镜像 ，10GB 用 来 安装 在 你 本 地 , “无 法 安装 
Windows 7， 程 序 未 能 检测 到 本 地 硬盘 ”， 你 将 会 得 到 这 个 提示 ， 你 还 是 忘 了 一 件 事情 ， 你 此 时 
还 需要 操作 系统 么 ? 你 在 操作 系统 中 得 到 的 服务 ， 云 都 提供 了 。 或 者 又 有 人 质疑 ，“ 谁 说 的 ? 操 
作 系 统 能 安装 SCSI 卡 驱 动 程 序 ， 云 能 安装 么 ” ”如 果真 有 人 这 么 问 ， 我 只 能 无 语 ， 除 非 这 人 真 
是 一 个 患 有 “驱动 程序 安装 ”强迫 症 患 者 。 或 者 还 有 人 质疑 ， 云 能 玩 网 游 么 ? 能 玩 对 硬件 要 求 非 
常 高 的 大 型 3D 游戏 么 ? 当然 能 了 ， 而 且 现在 就 已 经 实现 了 。 

说 明 : Cyrsis《 孤 岛 危机 》 是 我 向 往 玩 一 玩 的 一 个 画面 效果 至 今 无 人 能 敌 的 游戏 ,然而 它 对 

显卡 的 要 求实 在 变态 , 至 今 尚 未 进行 体验 。 那么 , 对 于 一 款 连 高 端 显卡 都 无 能 为 力 的 游戏 ， 

云 有 何 能 耐 应 付 ? 你 忘 了 一 件 事 ， 家 用 显卡 无 能 为 力 不 代 表 专业 泻 染 集群 也 无 能 为 力 。 好 

莱 坞 用 专业 泻 染 主机 集群 来 实现 Crysis 的 泻 染 实 在 是 小 儿科 了 ， 泻 染 之 后 的 高 清 图 片 帧 通 

过 网 络 传输 至 用 户 的 显示 器 ， 用 户 的 游戏 操作 数据 通过 网 络 发 送 至 集群 游戏 泻 染 服 务 从 而 

实现 互动 ， 整 体 体验 与 在 本 机 运行 游戏 一 样 。 有 人 甚至 用 手机 玩 Crysis， 这 不 是 做 梦 , 已 

经 真 的 实现 了 ， 这 个 云 泻 染 系统 正 处 于 测试 阶段 ， 相 信 不 和 久 便 会 真正 对 外 开放 。 

云 服务 是 否 也 会 步 ERP 或 者 ITIL 的 后 尘 呢 ? ITIL 尚 未 落地 ,因为 它 根 本 就 没有 落地 的 根基 。 
而 云 是 个 早已 落地 的 产品 ， 目 前 正在 以 各 种 形式 成 长 。 要 说 云 是 革命 的 话 ， 那 这 句 话 要 在 互联 网 
发 展 初期 就 该 说 。 

云 就 像 一 个 早已 被 播种 ,经历 了 几 十 年 之 后 长 大 成 人 并 且 一 下 子 出 现在 人 们 面前 的 风华 正 茂 
的 少年 ! 云 服 务 相对 于 ERP 和 ITIL 来 说 有 本 质 的 区 别 ， 虽 然 三 者 都 是 对 于 信息 化 实现 的 方式 和 
方法 。 云 有 其 存在 的 根基 ， 因 为 其 作用 在 各 个 层次 一 一 基础 设施 层 IAAS,， 平台 层 PAAS， 内 容 计 
算 表 示 供给 层 SAAS， 任 何人 都 有 机 会 并 且 已 经 在 享用 云 服务 ， 凡 是 与 互联 网 有 关系 的 人 或 企业 
都 离 不 开 云 服 务 了 。 

而 ERP 和 ITIL 属于 一 种 企业 生产 和 管理 方式 和 流程 的 信息 化 过 程 ， 需 要 这 种 服务 的 企业 少 
之 又 少 , 就 算 有 了 需求 , 实现 起 来 更 是 难 上 加 难 , 其 本 质 原因 还 是 底层 物质 难以 承载 上 层 的 能 量 。 
就 像 你 让 一 个 入 道 尚 浅 的 人 去 修炼 一 种 高 深 的 秘籍 ， 那 是 基本 不 可 能 的 事情 ， 因 为 其 悟性 和 道行 
根本 就 达 不 到 那个 境界 。 然 而 ，ERP 和 ITIL 是 否 可 以 借助 云 服务 来 让 自己 站 住 脚 呢 ? 已 经 有 一 
些 基 于 云 服务 模式 的 ITIL 或 者 伪 ITIL 产品 出 现 。 让 我 们 静观 其 变 吧 ! 

云 ， 将 会 大 行 其 道 ! 


20.7.5 Micro、Mini、Normal、Huge、Gird 弹性 数据 中 心 


目前 已 经 有 厂商 开始 打包 卖 弹性 核 了 ， 或 者 直接 出 售 或 者 出 租 软 数据 中 心 。 比 如 将 若干 刀片 
与 高 密度 磁盘 柜 以 及 微型 交换 机 打包 到 一 个 或 者 几 个 机 柜 中 ， 上 面 再 覆盖 以 弹性 层 ， 比 如 虚拟 机 
管理 系统 以 及 分 布 式 存储 系统 ,将 这 样 一 个 微型 的 弹性 软 核心 作为 一 个 可 提供 Iaas 服务 的 整体 交 
付 给 用 户 。 
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或 者 再 在 这 个 软 核 之 上 覆盖 一 层 业 务 展现 于 管理 层 , 直接 交付 到 Saas 层 。 一 柜 或 者 数 柜 交付 
的 弹性 基础 设施 ,可 以 称 之 为 Micro Cloud, 有些 厂商 干脆 使 用 集装箱 当做 容器 来 盛 放 十 几 个 机 柜 ， 
里 面 消防 、 监 控 、 供 电 、 散 热 等 都 已 经 做 好 ， 这 种 集装箱 交付 方式 又 可 以 称 其 为 Mini Cloud。 对 
于 以 集装箱 为 交付 单位 的 Mini Cloud, 当 需 要 在 短 时 间 内 迅速 部 署 IT 资源 , 或 者 临时 性 的 应 付 一 
下 业务 峰值 而 需要 增加 IT 资源 的 时 候 , 这 种 集装箱 就 可 以 派 上 用 场 。 比 如 发 生 了 战争 , 某 重要 数 
据 中 心 被 摧毁 ， 那 么 便 可 以 使 用 集装箱 快速 重新 部 署 ， 再 比如 某 机 构 机 房 空 间 不 足 ， 那 么 便 可 以 
临时 性 的 使 用 集装箱 来 应 付 ， 或 者 直接 将 集装箱 作为 外 辅助 数据 中 心 。 根 据 交付 层次 的 不 同 ， 可 
以 只 交付 集装箱 + 供电 冷却 消防 监控 设施 + 机 柜 ,也 可 以 将 一 定 容量 的 计算 与 存储 设备 整合 进去 ， 
做 到 这 一 层 便 算 是 Iaas 层 了 ， 之 后 还 可 以 继续 向 其 中 整合 更 上 层 的 东西 ， 比 如 PaaSs、SaaS。 再 大 
一 个 档次 ， 就 是 正规 的 数据 中 心 了 ， 数 百 个 机 柜 的 容量 ， 可 以 称 之 为 Normal Cloud。 那 么 再 大 一 
个 档次 呢 ? 也 就 是 多 个 数据 中 心 之 间 的 互联 网 业务 互联 了 ,这 样 就 形成 了 Seed Cloud, 每 个 Normal 
Cloud 都 作为 Seed Cloud 的 一 枚 种 子 而 存在 。 再 之 后 呢 ? 这 些 大 种 子 将 会 弥散 开 来 ， 种 子 的 粒度 
越 来 越 小 , 小 到 每 一 个 节点 都 可 以 作为 一 个 种 子 , 这 就 是 大 范围 互联 网 网 格 时 代 了 , 也 就 是 云 2.0 
时 代 ， 此 时 可 以 称 其 为 Infinite Cloud。 整 个 发 展 过 程 和 形态 如 图 20-39 所 示 。 
云 发 展 过 程 中 的 5 个 形态 


. Mini Cloud 
Micro Cloud 


图 20-39 云 发 展 的 5 个 阶段 
20.7.6 ”弹性 层 的 出 现 将 会 让 数据 中 心 拥 有 两 套 性 能 指标 


弹性 数据 中 心 将 会 有 两 个 主要 指标 : 硬 核 的 计算 和 存储 能 力 、 软 核 的 计算 与 存储 能 力 。 比 如 
一 台 8 刀片 + 身 入 式 交换 机 + 高 密度 磁盘 柜 的 机 箱 , 其 能 提供 的 原生 固有 操作 系统 承载 数量 为 8， 
计算 能 力 为 若干 Flops 或 者 若干 TPC-C 指标 , 原生 存储 容量 为 100TB; 但 是 增加 了 弹性 层 之 后 ， 
其 可 扩展 的 OS 数量 变 为 8xn， 等 效 计算 能 力 被 灵活 扩张 ， 对 于 存储 ， 内 置 的 Thin 与 Dedup 引 
人 擎 可 以 增加 存储 的 弹性 ， 分 布 式 的 文件 系统 或 者 卷 管理 系统 可 以 增加 存储 系统 灵活 性 。 这 样 ， 这 
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个 弹性 核 可 以 在 计算 与 存储 方面 具有 两 个 指标 : 原生 计算 与 存储 资源 指标 和 弹性 扩张 之 后 的 计算 
与 存储 资源 指标 。 比 如 原生 存储 容量 为 50TB， 弹 性 存储 容量 为 100TB 甚至 500TB, 视 Thin 与 
Dedup 的 效能 而 定 。 


20.8 ”尘埃 落 定 一 一 云 所 体现 出 来 的 哲学 思想 


20.8.1 轮回 往复 一 一 云 的 哲学 形态 


说 明 : 不 知道 大 家 是 否 玩 过 游戏 《质量 效应 2》, 或 者 看 过 《黑客 帝国 》 三 部 曲 。 前 者 是 
游戏 ， 后 者 是 电影 ， 两 者 都 是 科幻 题材 。 但 是 二 者 却 都 体现 出 了 一 种 轮回 效应 。 前 者 的 
终 Boss 是 由 人 体 和 其 他 无 机 物 共同 组 成 的 一 个 人 形 的 庞然大物 ; 在 后 者 的 结局 中 , 成 

千 上 万 的 机 器 也 在 空中 形成 了 一 个 人 形 。 虽 然 这 种 情景 只 是 人 的 想象 ， 但 是 Re 

来 风 ， 它 体现 了 一 种 哲学 ,一 种 轮回 嵌 套 的 哲学 。 再 比如 科幻 电影 《 黑 衣 人 2》 的 结 

把 宇宙 描绘 成 一 个 怪兽 手中 的 玩具 ， 其 实 宇宙 是 另外 一 个 世界 中 的 玩具 球 。 还 有 ， 

“一 沙 一 世界 ， 一 花 一 天 堂 。” 这 些 其实 本 质 上 都 体现 了 这 种 轮回 往复 的 世界 观 。 

云 也 是 这 种 世界 观 的 体现 。 表 面 上 看 好 像 云 是 一 个 独立 的 个 体 ， 其实 它 内 部 是 由 无 穷 的 二 级 
个 体 在 起 作用 ， 二 级 个 体 又 可 以 再 继续 往 下 分 ; 同样 ， 向 上 ， 云 可 以 合并 ， 多 个 云 可 以 共同 组 成 
一 个 更 大 的 云 ， 轮 回 往复 。 

云 除了 体现 形态 上 的 轮回 之 外 , 还 体现 了 个 体 之 间 的 关系 ,大 量 个 体 的 动作 自然 而 然 地 形成 
了 整体 的 动作 ， 而 这 个 整体 却 又 反 过 来 体现 了 大 多 数 个 体 的 共同 意愿 和 思想 以 及 物质 形态 。 比 如 
麦田 怪圈 、 高 楼 大 厦 、 蜂 蛛 做 网 、 天 空 云梯 、 鱼 群 、 蚁 群 等 。 我 们 可 以 在 空中 用 一 只 巨大 的 手 来 
画 出 麦田 怪圈 ， 或 者 用 橡皮 泥 来 捏 出 一 推 高 楼 大 厦 模 型 ， 但 是 我 们 却 无 法 想象 通过 个 体 之 间 的 协 
作 和 大 量 个 体 的 劳作 ， 渺 小 的 个 体 也 能 够 建造 出 规则 的 巨大 的 建筑 ， 并 且 还 可 以 通过 外 形 形 态 来 
传达 各 大 多 数 个 体 的 共同 思想 。 

最 后 ， 人 和 群 可 以 体现 人 的 意识 的 组 合 ; 计算 机 群 也 一 样 可 以 体现 机 器 的 意愿 。 目 前 来 讲 ， 机 
器 体现 的 其 实 都 是 人 的 意愿 ， 但 是 不 排除 机 器 自身 进化 之 后 可 以 产生 自己 的 意愿 。 物质 群 和 意识 
群 ， 一 个 在 下 ， 为 阴 为 器 ; 一 个 在 上 ， 为 阳 为 气 。 这 两 者 螺旋 上 升 地 发 展 。 

云 是 一 种 技术 思想 上 的 轮回 表现 ， 也 就 是 从 独立 计算 转变 为 集中 计算 的 过 程 ， 仿 佛 又 回 到 了 
上 世纪 的 大 型 计算 机 时 代 。 但 是 ， 虽然 思想 轮回 穿越 了 ， 承 载 这 种 思想 的 物质 可 没有 轮回 ,物质 
总 是 不 断 前 进 的 ， 不 会 回头 ， 除 非 世界 末日 到 来 。 

同时 , 云 系统 本 身 也 是 由 阴 和 阳 组 成 的 。 阳 表现 为 云 系统 中 的 商业 运营 模式 以 及 所 有 的 软件 ; 
阴 则 表现 为 承载 这 些 思想 以 及 运行 软件 所 需 的 硬件 物质 基础 架构 , 即 服 务 器 、 存 储 和 网 络 等 设备 。 
阳 又 是 一 种 形 而 上 的 东西 ,而 阴 则 是 形 而 下 , 形 而 上 者 为 道 / 气 , 形 而 下 者 为 器 。 整 个 系统 是 一 个 
阴阳 和 合 相 衡 的 生态 系统 。 


20.8.2 智慧 之 云 一 一 云 的 最 终 境界 


云 也 可 以 理解 为 智慧 的 结晶 ， 一 个 超级 智慧 实体 ， 就 像 《黑客 帝国 》 中 的 Matrix 角色 一 样 。 
由 大 量 个 体 组 成 的 智慧 体 ， 个 体 只 是 按照 给 自己 的 那 一 小 部 分 规则 在 运行 ， 而 整体 则 显示 为 具有 
个 体 属 性 的 ， 但 又 有 升华 的 超级 智慧 。 
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最 后 ， 人 的 意识 组 合成 了 社会 ， 计 算 机 的 意识 也 会 组 成 计算 机 社会 ， 云 的 进化 ， 最 后 就 会 成 
为 一 个 计算 机 社会 。 这 便 是 智慧 之 云 ， 它 反映 了 全 体 个 体 的 智慧 结晶 ， 并 且 不 断 地 进化 。 


20.8.3 ” 云 在 哲学 上 所 具有 的 性 质 


(1 ) 大 规模 的 云 由 大 量 个 体 组 成 ， 个 体 的 具体 属性 可 能 不 同 ， 但 是 其 本 质 都 相同 。 

(2 ) 任何 个 体 进入 云 中 将 被 冲淡 ， 将 被 吸入 成 为 云 的 一 部 分 。 

(3 ) 个 体 连 续 地 工作 才 形 成 了 整个 云 的 动作 。 

(4) 个 体 的 损耗 、 损 毁 、 代 谢 交 替 对 整个 云 影响 不 大 。 

(5 ) 云 有 它 的 寿命 ,虽然 可 以 通过 代谢 来 不 断 更 换 衰老 的 个 体 ,但 是 最 终 会 像 生命 体 一 样 完 
全 消亡 。 

(6 ) 大 云 可 以 捕获 、 知 并 和 消化 其 他 小 云 。 

(7 ) 云 有 智能 ， 云 会 进化 。 

(8 ) 云 和 云 之 间 将 会 形成 生态 关系 ， 形 成 云 社会 。 

(9 ) 社会 即 云 ， 全 人 类 即 云 ,太阳系 即 云 ， 银 河 系 即 云 ， 宇 宙 即 云 。 宇 宙 也 是 个 体 ， 多 个 宇 
宙 再 组 成 云 ， 轮 回 往复 ， 无 穷 无 尽 。 


20.8.4， 云 基础 架构 的 艺术 与 哲学 意境 


另外 , 我 发 挥 了 一 下 想象 力 , 将 云 想象 成 为 一 部 精密 机 械 , 并 画 了 一 张 图 , 如 图 20-40 所 示 。 
希望 通过 这 张 图 能 够 让 大 家 更 加 深刻 的 认识 云 这 个 东西 。 这 张 图 片 其 实 是 可 以 运动 的 ， 大 家 可 以 
联系 我 以 获得 这 张 图 片 的 动态 版 。 这 张 图 是 对 一 片 小 云 种 子 的 一 个 总 结 。 最 中 心 的 物质 本 源 ， 也 
就 是 硬 核心 。 在 这 层 硬 核心 之 外 , 包 庄 一 层 弹性 存储 层 , 包括 可 灵活 扩展 的 集群 SAN、 集 群 NAS 
或 者 集群 /分 布 式 文件 系统 等 ， 以 及 Thin、Dedup 等 增加 数据 弹性 的 技术 ， 还 有 增加 管理 灵活 性 
的 虚拟 化 技术 。 之 外 再 覆盖 以 弹性 计算 层 ， 最 后 覆盖 以 资源 管理 层 ， 最 外 面 则 是 运营 层 ， 包 括 业 
务 展 现 子 层 与 运营 管理 子 层 。 至 此 这 片 云 就 彻底 运转 起 来 了 。 


图 20-40 小 云 的 5 层 结构 
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大 家 再 仔细 分 析 一 下 这 张 图 , 会 发 现 其 中 包含 有 无 穷 奥妙 。 你 先 想象 它 是 一 台电 动机 ,其 中 每 
圈 都 可 以 旋转 ， 谁 来 给 它 提供 能 量 呢 ?当然 ， 云 数据 中 心 必须 有 足够 的 电力 ， 电 动机 要 旋转 ， 需 
要 有 电 刷 给 其 供电 。 大 家 可 以 看 看 业务 展现 层 与 运营 管理 层 ， 这 两 个 模块 是 不 是 很 像 两 把 电 刷 ,将 
用 户 需求 这 种 动力 不 断 地 提供 给 中 心 部 件 ， 从 而 让 这 台电 动机 持久 地 转动 。 如 果 没 有 了 用 户 需 求 ， 
或 者 你 已 经 想 不 出 足够 新 颖 的 业务 展现 方式 ， 那 么 就 算 有 电 ， 这 个 数据 中 心 也 无 法 再 运营 下 去 了 。 

” ”计算 存储 硬 核 层 : 处 于 这 台 精 密 机 械 的 最 核心 层次 的 ， 就 是 硬 核 了 ， 也 是 运转 最 快 而 且 
最 硬 最 实 的 一 个 角色 。 在 数据 中 心中 表现 为 大 量 的 服务 器 和 存储 设备 ， 这 个 核心 是 云 数 
据 中 心 的 物质 本 源 ， 也 是 密度 最 高 的 实体 。 硬 核 相当 于 云 中 的 种 子 。 
， 存储 弹性 软化 层 : 这 一 层 紧密 地 包 庄 在 物质 实体 之 外 , 通过 分 布 式 、 集 群 、 虚 拟 化 、Thin、 
Dedup 、Snapshot、Clone 等 技术 ， 将 原本 高 密度 的 硬 实体 充分 软化 ， 为 上 面 的 层次 提供 
一 个 弹性 软化 的 基 座 。 
， 计算 弹性 软化 层 : 在 弹性 软化 的 存储 基 座 之 上 ， 计 算 资源 也 通过 各 种 主机 虚拟 化 技术 手 
段 被 充分 地 软化 。 
， 资源 管理 调度 层 : 物质 硬 核 + 富有 弹性 的 软化 计算 与 存储 资源 层 ， 共 同 构成 了 一 个 系统 
内 的 阴 与 阳 相合 的 资源 核心 。 资 源 管理 与 调度 层 起 到 一 个 适 配 内 外 层次 的 作用 ,外 层 阳 
气 的 生发 需要 底层 物质 源泉 的 积聚 、 分 配 和 运 化 ,如 何 将 这 个 系统 内 的 资源 进行 良好 的 
调动 与 配合 ， 便 是 这 一 层 的 任务 。 这 一 层 中 存在 诸多 角色 ， 比 如 资源 监控 、 资 源 分 配 与 
调度 、 并 行 计 算 分 配 与 调度 等 。 
， ”业务 展现 运营 层 : 这 一 层 则 是 阳 气 外 发 外 散 与 运 化 升华 的 至 极 之 层次 , 也 是 整个 云 数据 中 
心 的 精神 本 源 。 中 心 的 硬 核 为 太阴 ,这 一 层 则 为 太阳 ,为 最 终 将 辐射 展现 出 去 的 一 层 , 也 
是 外 界 直接 可 见 的 一 层 。 表 里 相合 ， 一 为 实 一 为 虚 ， 一 为 阴 一 为 阳 ， 一 为 物质 一 为 精神 。 
整个 云 数据 中 心 便 是 一 个 阴阳 表 里 虚 实 相 合 的 一 个 有 机 体 。 这 也 正 像 一 个 星云 ， 不 断 孕育 出 
星体 ， 对 应 着 云 基础 架构 之 上 不 断 孕 育 着 各 种 应 用 业务 服务 。 生 物体 、 社 会 、 企 业 、 公 司 、 宇 宙 ， 
其 实 都 是 这 样 演化 的 ， 那 么 可 以 这 么 说 ， 系 统 即 云 ， 云 即 系统 ， 云 是 大 统一 的 系统 模型 。 
另外 , 大 家 可 以 继续 领悟 一 下 ， 这 片 小 云 种 子 ， 是 否 就 是 一 台 计 算 机 呢 ? 硬 核 心 就 相当 于 硬 
件 ， 看 得 见 摸 得 着 ， 外 层 的 弹性 存储 层 ， 相 当 于 计算 机 的 存储 系统 ， 任 何 计 算 机 启动 时 首先 都 要 
去 从 存储 系统 里 读 入 代码 执行 ; 再 外 层 就 是 操作 系统 内 核 层 , 基于 存储 层 的 支撑 , 内 核 得 以 启动 ; 
青 往外 就 是 操作 系统 管理 界面 层 了 ， 利 用 界面 来 管理 和 分 配 各 种 计算 机 资源 ， 其 中 并 行 计算 调度 
模块 也 相当 于 操作 系统 中 的 线程 调度 器 等 角色 ; 最 外 面 一 层 , 也 就 相当 于 计算 机 的 应 用 程序 层 了 ， 
各 式 各 样 的 应 用 程序 ， 对 应 着 云 中 各 式 各 样 的 业务 展现 。 各 种 应 用 ( 业务 展现 ) 可 以 在 一 台 计 算 
机 上 云 中 ) 迅速 的 安装 卸载 (部署 ) 。 那 么 ，“ 云 即 计算 机 ”， 这 句 话 ,不 记得 之 前 哪 位 提 到 
过 ， 至 此 我 也 彻底 理解 了 。 云 为 何 就 是 计算 机 ? 云 由 大 量 计算 机 组 成 ， 而 其 堆 香 之 后 的 样子 和 架 
构 ， 仍 然 还 是 一 台 计 算 机。 计算 机 各 处 总 是 体现 着 轮回 的 形态 。 为 何 呢 ? 因为 它 骨 子 里 就 是 由 计 
算 机 组 成 的 ， 它 永远 造 不 出 异形 ， 只 会 造 出 它 自己 ,除非 它 有 自己 的 强烈 向 往 , 希望 自身 向 某 个 
异形 发 展 。 这 种 行为 ,骨子里 已 经 根植 到 了 基因 当中 ,这 种 上 下 联系 看 上 去 非常 微妙 。 
对 比 一 下 ; 
(1) 计算 机 加 电 ,， 硬件 启动 = 云 数据 中 心 硬件 核心 层 启动 。 
(2 ) 从 磁盘 读 取 代码 以 便 启动 OS 一 云 中 的 数据 承载 层 。 各 种 分 布 式 FS 分 布 式 DB， 
key—value DB 等 。 


之 
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(3 ) OS 启动 一 云 中 的 虚拟 计算 层 ， 生 成 大 量 VM。 
(4 ) 启动 到 用 户 界 面 一 云 中 的 管理 层 ， 比如 微软 System Center，Novell Cloud Manager， 思 科 
UCS 的 Unified Manager 等 。 

(5 ) 内 核 的 线程 调度 器 一 云 中 的 并 行 计 算 调 度 层 ， 比 如 Mapreduce 以 及 其 衍生 物 。 

(6) OS 提供 的 开发 API，VC，Java 一 云 中 的 Paas 开发 平台 。 

(7) 各 种 运行 在 OS 上 的 应 用 程序 一 Saas 展现 层 ， 各 种 云 业务 。 

又 比如 各 种 分 布 式 文件 系统 ， 其 本 质 是 什么 呢 ? 其 实 还 是 本 地 文件 系统 思想 的 外 散 。 本 地 文 
件 系统 通过 一 个 跟 入 口 ， 然 后 一 级 指针 、 二 级 指针 、 三 级 指针 ， 一 直到 最 后 一 层 0 级 块 用 来 存放 
最 终 的 文件 数据 。 而 分 布 式 文件 系统 ， 大 家 思考 一 下 ， 对 称 式 分 布 式 文件 系统 ， 其 各 级 元 数据 其 
实 也 都 是 分 部 到 所 有 节点 当中 的 ， 比 如 一 级 指针 用 1 个 节点 承担 ， 二 级 指针 用 2 个 节点 承担 ，3 
级 指针 用 3 个 节点 承担 ， 这 样 可 以 将 文件 系统 分 布 到 非常 大 的 范围 。 或 者 干脆 把 所 有 指针 元 数据 
放 到 一 个 节点 中 , 那么 这 个 节点 也 就 是 MDS, 这 样 就 属于 非 对 称 式 集群 文件 系统 了 。 但 是 不 管 怎 
么 弄 ， 其 本 质 其 实 就 是 本 地 文件 系统 的 思想 。 

至 此 ，“ 轮 回 ”的 道理 在 计算 机 世界 已 经 充分 展现 了 出 来 。 


20.8.5 ” 纵 观 存储 发 展 时 代 一 一 云 发 展 预测 


如 图 20-41 所 示 为 存储 系统 的 发 展 时 代 。 这 张 图 所 要 表达 的 两 个 最 重要 的 地 方 ,一 个 是 所 谓 
“小 云 时 代 ” 与 “大 云 时 代 ”， 另 一 个 则 是 “分 ”与 “ 合 ”的 轮回 变化 。 


存储 时 代 


a 计算 与 存储 的 需求 都 不 


图 20-41 存储 系统 架构 变迁 发 展 
早期 的 直 连 存储 ， 每 个 计算 节点 都 有 各 自 的 存储 系统 ， 计 算 节 点 之 间 的 存储 系统 没有 共享 ， 
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属于 分 ; 今天 的 网 络 存储 时 代 ， 所 有 计算 节点 可 以 共享 访问 同一 个 存储 系统 ， 属 于 合 。 当 前 ， 由 
于 单 台 网 络 存储 系统 性 能 受 限 ， 集 群 存储 系统 的 地 位 开始 上 升 ， 利 用 大 量 分 开 的 存储 节点 来 获得 
更 高 的 性 能 扩展 性 ， 以 满足 数据 爆炸 时 代 的 需求 ， 这 又 属于 分 ; 而 在 将 来 ， 将 是 一 个 业务 爆炸 的 
时 代 ， 各 种 各 样 的 互联 网 服务 层出不穷 ， 如 何 快速 满足 业务 部 署 需求 ?传统 数据 中 心 ， 部 署 一 台 
新 服务 器 和 业务 ， 需 要 至 少 一 天 的 时 间 ， 比 如 上 架 、 安 装 OS、 安 装 支撑 系统 、 安 装 应 用 系统 、 
测试 ， 而 如 果 加 上 前 期 采购 等 流程 ， 则 需要 更 长 时 间 。 而 云 的 出 现 ， 利 用 弹性 核心 ， 将 底层 大 量 
分 开 的 计算 或 者 存储 节点 屏蔽 , 抽象 为 各 种 IT 服务 , 使 得 部 署 一 个 新 应 用 可 能 只 需要 几 个 小 时 的 
时 间 就 可 以 了 , 云 整合 了 所 有 IT 资源 ， 这 又 属于 合 。 而 在 遥远 的 未 来 ， 随 着 技术 革命 的 到 来 ， 计 
算 与 存储 将 会 发 生 质 的 变化 ， 单 个 节点 的 计算 与 存储 能 力 发 生 革 命 ， 另 外 ， 互 联网 带宽 的 革命 ， 
也 会 促使 大 范围 的 网 格 节点 互联 ， 共 同 组 成 一 个 整体 ， 而 不 是 向 某 个 固定 的 云 中 获得 资源 ， 这 又 
属于 分 。 
小 云 也 就 是 不 远 的 将 来 会 大 行 其 道 的 、 由 小 规模 的 硬 核 作 为 种 子 所 生成 的 云 。 而 大 云 则 是 借 
助 高 速 互联 网 而 组 成 的 大 范围 的 网 格 型 的 硬 核心 ， 大 家 共同 参与 组 成 云 。 此 时 ， 任 何 节点 可 以 申 
请 加 入 这 个 云 而 成 为 云 中 的 一 粒 种 子 ， 不 断 贡献 着 资源 而 同时 也 吸收 着 资源 。 其 实 P2P 就 相当 于 
一 个 大 网 格 云 ， 只 不 过 网 格 云 时 代 P2P 的 不 仅 是 电影 ， 而 是 一 切 IT 资源 了 ， 比 如 存储 和 计算 。 
假如 你 有 一 个 视频 需要 泻 染 , 但 是 你 的 机 器 自身 的 显卡 大 差 ， 那么 你 可 以 直接 利用 P2P 泻 染 平台 
服务 将 你 的 任务 提交 ， 其 后 台 就 会 将 这 个 任务 分 解 到 所 有 拥有 高 泻 染 能 力 的 节点 中 去 并 行 计算 ， 
然后 结果 汇总 到 你 这 里 ， 这 个 速度 将 会 是 相当 快 的 。 

在 网 格 云 时 代 ， 此 时 整个 系统 又 属于 分 了 。 在 这 个 大 云 时 代 ， 互 联网 上 的 所 有 节点 都 会 有 高 
接 入 带宽 ， 比 如 万 兆 以 太 网 到 户 ， 再 加 上 IPv6， 使 得 每 个 人 都 变 成 了 互联 网 运营 商 ， 那 么 之 前 被 
大 集中 到 运营 商 以 及 各 个 数据 中 心中 的 资源 ， 在 这 个 时 代 将 会 重新 流入 到 互联 网 所 有 节点 中 。 之 
前 被 大 集中 在 运营 商 数据 中 心 的 数据 业务 ， 此 时 会 被 大 范围 分 散 到 互联 网 的 各 个 节点 中 去 ， 此 时 
的 形态 又 属于 分 了 。 如 果 说 集群 存储 时 代 对 应 着 数据 爆炸 ， 那 么 小 云 时 代 便 对 应 了 业务 爆炸 ， 数 
据 与 业务 共同 在 几 个 点 上 爆炸 之 后 ， 必 将 经 过 弥散 的 时 代 ， 这 个 时 代 也 就 是 大 网 格 云 时 代 。 在 这 
个 时 代 ， 整 个 互联 网 内 的 资源 被 虚拟 地 整合 起 来 ， 人 们 可 以 利用 P2P 技术 运行 超大 程序 ， 浑 染 图 
片 以 及 海量 存储 等 其 他 各 种 服务 。 那 时 候 的 运营 商 ， 有 一 种 很 重要 的 角色 ， 这 个 角色 就 相当 于 分 
布 式 文件 系统 中 的 MDS， 它 会 给 整个 互联 网 提供 一 个 用 于 P2P 共享 的 分 布 式 平台 ， 保 存 所 有 互 
联网 元 数据 。 比 如 大 分 布 式 文件 系统 、 大 并 行 计算 调度 系统 ， 都 会 有 运营 商 来 掌握 和 部 署 ， 将 整 
个 互联 网 范围 内 的 资源 整合 了 起 来 ,数据 和 资源 弥散 在 整个 互联 网 范围 。 

另外 , 小 云 自 身 也 相当 于 大 云 中 的 一 粒 种 子 ， 目 前 各 地 都 在 兴建 小 规模 云 数据 中 心 ， 这 些 建 
好 的 数据 中 心 , 将 来 会 成 为 种 子 , 然后 各 自 联合 起 来 形成 大 范围 云 。 我们 姑且 称 小 云 时 代为 云 1.0 
时 代 , 或 者 也 可 以 叫 它 种 云 时 代 。 而 大 云 时 代为 云 2.0 时 代 。 云 2.0 时 代 的 时 候 , 之 前 云 1.0 时 代 
的 种 子 便 完成 了 它 的 使 命 ， 成 功 地 发 芽 开花 并 结果 。 

那么 在 大 云 时 代 之 后 ,按照 之 前 一 路 分 分 合 合 的 变化 规律 ， 势 必 又 会 变 为 合 的 形态 。 这 里 先 
这 样 推测 ， 然 后 再 找 论据 ， 它 赁 什么 要 合 呢 ? 你 说 合 它 就 合 么 ? 显然 不 是 的 。 我 们 畅想 一 下 ， 那 
时 候 计算 与 存储 将 会 发 生 革 命 ， 比 如 从 电路 计算 与 电路 存储 ， 转 为 量子 计算 或 者 生物 计算 与 分 子 
存储 。 大 家 知道 ， 生 物 细胞 中 的 DNA 可 以 存储 大 量 的 信息 ， 可 能 一 个 细胞 可 以 存储 的 数据 堪 比 
一 块 硬盘 ， 那 么 一 片 树叶 中 将 可 以 存储 海量 的 数据 。 那 么 谁 来 读 取 其 上 的 数据 呢 ? 当然 是 靠 核糖 
体 ， 核 糖 体 就 相当 于 磁盘 中 的 磁头 。 细 胞 也 可 以 用 来 计算 ， 一 个 细胞 中 包含 多 种 模块 ， 每 一 个 都 
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被 精确 设计 ， 来 完成 一 系列 的 生化 过 程 ， 这 个 过 程 如 果 可 以 被 翻译 为 其 他 逻辑 ， 那 么 就 可 以 被 用 
作 高 速 计算 。 那 个 时 候 , 将 会 出 现 利用 革新 技术 生产 的 计算 机 , 整个 时 代 又 会 回 到 最 原始 的 形态 ， 
也 就 是 大 量 终端 通过 网 络 连 接 到 中 心计 算 机 来 获取 资源 。 

纵 观 云 发 展 史 , 我 们 再 往 高 层 思考 。 一 开始 ,PC 在 LAN 内 访问 服务 器 ， 这 种 状态 可 以 映射 
到 现在 的 Micro Cloud; 后 来 , IT 组 织 越 来 越 大 , 数据 中 心 出 现 , 组 织 内 的 PC 可 以 跨越 多 个 LAN 
被 路 由 到 数据 中 心 LAN 内 访问 所 有 资源 , 此 时 可 以 映射 为 Mini 或 者 Normal Cloud; 后 来 Internet 
发 展 ， 使 得 多 个 Intemet 上 的 服务 器 可 以 相互 通信 相互 要 资源 ，PC 可 以 连接 到 Internet 访问 其 他 
LAN 内 的 服务 器 ， 这 种 状态 可 以 映射 到 大 范围 的 Seed Cloud; 那么 再 后 来 ，Intemet 上 的 资源 被 
一 定 程度 地 弥散 , 当然 数据 中 心 等 云 种 子 依然 存在 , 只 不 过 资源 被 极 大 地 弥散 到 了 所 有 节点 之 上 ， 
此 时 便 映射 到 了 Infinite Cloud， 也 就 是 大 范围 Gird 了 。 

请 看 一 下 图 20-42 所 示 的 IT 系统 基础 架构 一 开始 都 是 孤岛 ， 烟 向。 后 来 存储 开始 被 集中 起 
来 。 再 后 来 ， 存 储 的 上 层 ， 也 就 是 计算 层 ， 也 被 集中 整合 起 来 。 再 后 来 ， 统 一 了 开发 平台 ， 其 上 
孕育 出 各 种 应 用 。 这 也 是 当前 的 新 型 IT 基础 架构 的 形态 ， 也 就 是 人 们 常 说 的 “ 云 ”基础 架构 。 存 
储 从 主机 脱离 出 来 成 为 SAN, 那么 整个 IT 系统 基础 架构 的 共享 , 就 成 为 了 Cloud。 可 以 看 到 一 层 
层 的 向 上 侵蚀 ， 但 是 APP 一 层 自身 能 被 融合 起 来 么 ?恐怕 不 能 了 ， 每 个 业务 都 要 对 应 一 个 APP。 
那么 这 个 系统 正在 干什么 呢 ? 它 下 一 步 将 会 是 什么 形态 呢 ? 


图 20-42 IT 基础 架构 演进 示意 图 
IT 系统 最 终 是 不 是 要 长 成 这 个 样子 ( 见 图 20-43 ) 全 部 融合 。 一 个 操作 系统 实例 可 以 管理 所 
有 服务 器 、 存 储 、 网 络 资源 ， 也 即 所 谓 “数据 中 心 操作 系统 ”或 者 “分 布 式 操作 系统 ”。 这 个 
DOS ( Datacenter/Distributed OS, 不 仅 寒 了 一 下 ,确实 是 个 轮回 , 到 了 DOS 时 代 了 ) 可 以 有 两 种 
模式 ， 就 像 分 布 式 文件 系统 一 样 ， 一 种 模式 是 把 多 个 文件 系统 实例 用 目录 的 方式 虚拟 ， 而 另 一 种 
模式 是 直接 在 底层 虚拟 。 
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图 20-43 分 布 式 统一 操作 系统 
那么 DOS 也 可 以 有 这 两 种 类 似 的 方式 ， 要 么 就 用 一 种 简单 松 耦合 的 管理 角色 ， 比 如 微软 的 
System Center、Novel 的 Cloud Manager 等 ; 要 么 , 也 就 是 要 引出 的 另 一 种 彻底 底层 融合 方式 , 一 
个 操作 系统 实例 ， 高 速 网 络 的 出 现 ， 将 总 线 延伸 到 计算 机 外 部 ( 请 翻 回 阅读 本 书 第 2 章 ， 外 部 网 
络 就 是 计算 机 总 线 的 延伸 ) , 将 内 存 的 RDMA, 这 些 都 变 得 可 能 ， 此 时 多 个 物理 上 分 离 的 节点 可 
以 直接 进行 总 线 级 的 通信 和 内 存 直接 寻 址 ,那么 一 个 分 布 式 操作 系统 也 就 可 以 在 此 基础 上 诞生 了 。 
这 个 操作 系统 将 会 把 整个 数据 中 心中 的 所 有 元 素 统一 管理 起 来 , 包括 底层 的 供电 、 消 防 、 监 
挖 等， 及 上 层 的 存储 、 计 算 、 网 络 资源 管理 和 调度 ， 以 及 各 模块 间 的 消息 转发 中 间 件 平台 ， 乃 至 
最 上 层 的 应 用 业务 展现 开发 平台 。 所 有 这 些 元 素 将 被 一 种 像 微 软 Windows 操作 系统 一 样 的 统一 平 
台 来 操作 与 管理 。 这 又 是 一 个 大 轮回 了 。 同 时 ， 存 储 早 就 准备 好 这 一 天 的 革命 了 ， 各 种 分 布 式 虚 
拟 化 存储 已 经 成 熟 。 此 时 ， 整 个 系统 确实 从 骨子里 表现 为 一 台大 计算 机 了 。 这 个 DOS 会 将 任务 
拆 分 为 颗粒 分 配 到 底层 所 有 计算 节点 中 去 , 这 也 正如 传统 OS 将 每 个 线程 分 配 到 CPU 的 每 个 核心 
中 去 执行 一 样 。 
这 种 操作 系统 如 果真 的 出 现 ， 其 早期 必然 不 能 够 满足 高 实时 性 计算 的 需求 ， 只 能 作为 一 个 庞 
然 大 物 级 别 的 系统 来 处 理 一些 非 高 实时 性 但 是 却 拥有 极 高 的 总 吞吐 量 的 系统 ， 对 于 高 实时 性 需求 
依然 需要 独立 的 系统 。 其 实 这 种 演进 就 相当 于 目前 的 传统 操作 系统 与 嵌入 式 高 效 实 时 的 精简 操作 
系统 的 区 别 了 ， 谁 也 离 不 了 谁 ， 总 要 有 一 种 通 吃 一 切 的 庞大 系统 ， 比 如 Windows、Linux 等 , 也 
必然 要 有 一 些 尖兵 操作 系统 比如 VxWorks 等 。 随 着 规模 的 庞大 ,整体 颗粒 度 必然 变 大 ,微观 运动 
必然 相对 变 慢 , 但 是 总 吞吐 量 数 量 级 也 必然 升 高 , 这 就 像 一 个 细胞 的 运动 与 地 球 自转 的 比较 一 样 。 
那么 ， 这 个 系统 究竟 是 否 会 朝 着 这 个 方向 演进 呢 ? 让 我 们 拭目以待 。 
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当 云 的 底层 架构 从 数据 中 心 集中 的 Infrastructure 变 为 全 Intemet 上 的 节点 之 后 ， 也 就 是 网 格 
云 计算 ， 这 种 庞大 的 网 格 在 节点 间 相 互 交 流 后 便 会 逐渐 进化 ， 或 者 不 由 自主 地 表现 出 一 种 全 体 无 
意识 性 的 结果 ， 这 种 结果 往往 是 惊人 的 ， 就 像 蚁 群 一样 ， 会 创造 出 惊人 的 结果 。 再 比如 ， 了 眼前 的 
例子 人肉 搜索 。 

现在 提出 云 是否 会 太 超前 ? 我 们 知道 ， 客 户 端 并 行 访问 数据 的 概念 早 在 1994 年 就 被 Gibson 
提出 了 ， 当 时 被 设计 为 一 种 对 象 存储 系统 。 这 么 优越 的 设计 为 何 最 近 才 被 纳入 业界 标准 呢 ? 各 个 
分 布 式 文件 系统 厂商 相继 推出 配套 的 并 行 访问 客户 端 。 究 其 原因 还 是 因为 硬件 、 网 络 的 发 展 。x86 
服务 器 硬件 已 经 相当 廉价 ，1GbE 以 太 网 环境 比比 皆 是 ，10GbE 马上 也 要 普及 开 来 ， 而 软件 相对 
变 为 了 瓶颈 ， 传 统 只 通过 单一 链 路 访问 目标 的 做 法 已 经 用 不 满 网 络 带宽 了 ， 为 此 pNFS 等 标准 被 
制定 出 来 。 
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我 们 再 反观 目前 的 云 , 云 确实 是 比较 超前 的 东西 ,但 是 看 看 现在 的 互联 网 带宽 , 不 用 说 1GbE 
10MbE 都 还 没有 普及 。 在 这 种 低 带宽 的 网 络 环境 下 , 互联 网 用 户 暂 时 只 能 享受 到 一 些 不 需要 高 带 
宽 的 服务 ， 比 如 在 线 文档 阅读 等 ， 而 这 些 服务 将 其 归 类 到 互联 网 服务 比较 贴切 ， 尚 未 达到 云 服务 
的 层次 。 而 当 互联 网 带宽 革命 之 后 ， 云 此 时 才 会 被 大 规模 释放 出 来 ， 用 户 用 一 个 瘦 终 端 即 可 享受 
到 任何 IT 服务 ， 连 操作 系统 都 不 需要 安装 。 

最 后 ， 用 图 20-44 表达 一 个 观点 ， 即 一 切 皆 是 在 业务 驱动 下 ,不管 是 计算 、 传 输 还 是 存储 。 
没有 业务 驱动 ， 计 算 、 传 输 与 存储 便 没 有 了 任何 意义 。 业 务 又 是 人 类 需求 的 体现 。 

想象 一 张 图 ,在 世界 地 理 版 图 上 ， 分 布 着 若干 个 大 云 团 ， 周 围 佐 以 一 些 零散 的 小 云 团 ,整体 
形成 一 个 云 网 络 ， 形 成 一 个 计算 的 脉络 。 这 是 何等 壮观 之 景象 ( 如 图 20-45 所 示 ) ! 不 知道 至 此 
你 是 否 还 会 看 云 而 尝 呢 ? 云 计 算 / 云 存储 / 云 服务 ， 是 否 真 能 成 为 IT 发 展 的 天 堂 ? 让 我 们 拭 目 以 
待 ! 


WB e000 过 


图 20-44 业务 驱动 下 的 计算 、 传 输 与 存储 图 20-45 世界 云 版 图 


附录 荆 
存储 系统 问 与 答 精 华 集 锦 


本 问 与 答 精 华 集锦 全 部 收录 自作 者 几 年 来 在 各 大 存 
储 技术 论坛 以 及 个 人 博客 中 针对 广大 网 友 提 出 的 问题 的 
回复 内 容 。 作 者 对 这 些 内 容 做 了 总 结 和 归纳 ,作成 了 问 与 
答 的 形式 。 其 中 有 对 于 存储 技术 基础 问题 的 问答 , 也 有 针 
对 本 书 内 容 的 问答 ， 还 有 对 一 些 方案 设计 等 问题 的 问答 。 
作者 希望 读者 通过 阅读 这 些 问答 内 容 , 能 够 解决 自己 心中 
的 一 些 疑问 ， 从 而 对 整个 存储 系统 的 理解 更 深 一 步 。 
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1. 关于 “文件 " 与 “ 块 " 


请 教 个 问题 : 什么 是 文件 数据 ， 什 么 是 块 数据 ? 它们 有 什么 区 别 ? 

块 泛 指 底层 磁盘 上 的 扇 区 组 合 ， 某 个 文件 可 以 对 应 一 个 或 者 多 个 这 样 的 块 。 客 户 端 访 问 存储 
系统 的 接口 有 两 种 : 网络 文件 系统 接口 和 SCSI 或 者 ATA 接口 。 前 者 指 的 是 CIFS 和 NFS; 后 者 
可 以 是 SCSI[、FCP、iSCSI、ATA/IDE、SATA、eSATA、1394、USB。 前 者 在 网 线 上 的 数据 三 元 
素 是 文件 名 、 起 始 偏 移 量 、 读 写字 节 数 , 后 者 在 线 绕 上 传递 的 三 元 素 是 起 始 扇 区 号 码 、 操 作 码 ( 读 、 
写 等 ) 、 要 操作 的 扇 区 数量 。 

文件 系统 的 作用 就 是 将 块 虚拟 成 文件 。 如 果 磁 盘 阵 列 中 集成 了 自己 的 文件 系统 ， 则 可 以 虚拟 
这 些 块 , 向 外 面 提供 NAS 接口 访问 ,此 时 盘 阵 的 存储 空间 在 主机 端 表现 为 一 个 挂 载 上 的 目录 (不 
需要 格式 化 , 直接 向 其 中 读 写 文件 , 也 就 是 NAS 访问 方式 ) 。 如 果盘 阵 自 己 没有 文件 系统 虚拟 化 
功能 ， 则 只 能 依靠 客户 端 ， 也 就 是 主机 端 上 的 文件 系统 来 管理 此 盘 阵 向 这 个 主机 映射 的 磁盘 。 

关于 “数据 块 ” 级 和 “文件 ”级 之 间 的 差异 ， 能 不 能 给 我 讲 透彻 一 点 ? 

你 好 ，Block 级 别 就 是 直接 通过 读 写 存储 空间 ( 磁盘 ， LUN，Volume ) 中 的 一 个 或 者 一 段 
址 的 扇 区 来 存 取 数据 ， 文 件 级 别 则 是 通过 读 写 某 个 文件 中 的 一 段 数据 。 比 如 你 是 存储 设备 ， 我 是 
主机 , 我 说 : 请 你 将 LUN1 上 的 0~ 127 这 128 个 扇 区 的 数据 给 我 , 你 给 我 了 , 咱 俩 之 间 就 是 Block 
级 的 访问 。 如 果 我 这 样 和 你 要 数据 : 请 你 将 X 目录 下 的 tellme.txt 文件 的 前 128 字 节 传 给 我 , 这 就 
是 文件 级 别 的 访问 。 前 者 俗称 SAN Block 访问 ， 后 者 俗称 NAS 访问 。 


2. 何谓 “NAS”? 


想 知道 NAS 的 功能 具体 是 怎么 实现 的 ? 可 不 可 以 举例 下 ? 谢谢 。 
你 好 ，NAS 就 是 , 前 端 用 网 络 文件 系统 提供 服务 , 后 端 用 任何 方式 的 存储 空间 。 可 以 说 , 只 
要 前 端 通过 网 络 文件 系统 服务 的 存储 设备 就 是 NAS。 


3. 关于 FC Chip 带宽 、 接 口 带宽 、 链 路 带宽 


我 在 网 上 看 了 一 下 ， 比 较 有 名 的 是 Sansky 博客 上 提出 的 理论 带宽 计算 是 根据 每 控制 器 上 的 
主机 FC 芯片 和 磁盘 FC 芯片 计算 ，Sansky 指出 以 DS4800 为 例 : DS4800 虽然 主机 端口 和 磁盘 端口 
都 是 8 个 46b 接 口 ,但 实际 上 每 个 控制 器 内 部 只 有 两 个 46b 主机 FC chip 和 两 个 46b 磁盘 FC chip， 
两 个 控制 器 加 起 来 是 4 个 4Gb FC chip， 所 以 两 个 控制 器 的 最 大 传输 速率 是 4 x 46b。 我 有 点 疑问 ， 
如 果 我 们 来 看 IBM DS4700 两 款 产品 的 话 ，IBM 提供 的 带宽 大 概 是 1270MB/s 和 1550MB/s， 这 两 
款 产 品 都 是 双 控 制 器 产品 ， 每 控制 器 芯片 分 别 为 1 个 和 两 个 ， 磁 盘 芯 片 均 为 1 个。 如 果 按 照 如 上 
计算 ， 是 达 不 到 IBM 宣称 的 技术 参数 的 。 老 冬 能 否 帮忙 解答 一 下 ? 谢谢 ! 

你 好 ， 确 实 达 不 到 的 。 那 个 参数 具有 误导 性 。 确 认 一 款 产 品 的 带宽 ,考虑 6 个 地 方 即 可 : 前 
端 接口 数 ， 前 端 芯 片 数 ， 后 端 接口 数 ， 后 端 芯 片 数 ， 前 后 端 之 间 的 总 线 带宽 ， 内 存 带宽 。 任 何 一 
个 地 方 受 限 制 ， 就 会 达 不 到 表面 的 标 称 值 。 有 时 候 多 个 端口 是 共享 一 个 Chip ( 芯片 ) ， 那 多 半 就 
只 能 共享 带宽 , 但 是 也 不 排除 有 使 用 高 端 线 速 交换 的 芯片 , 就 和 交换 机 一 样 , 虽然 看 起 来 口 不 少 ， 
可 是 背 板 带宽 小 的 话 ， 那 就 不 能 保证 所 有 口 同 时 线 速 交换 。 加 上 前 后 端 之 间 总 线 不 够 的 话 ， 那 就 
也 有 瓶 贷 。 同 样 ， 如 果 内 存 带 宽 不 匹配 ， 也 会 有 瓶 贷 ， 因 为 磁盘 数据 都 是 先入 内 存 再 入 前 端口 。 
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你 说 的 高 端 线 速 交换 芯片 是 怎么 回 事 ? 是 否 就 是 说 只 要 背 板 带宽 足够 大 , 最 终 磁 阵 的 吞吐 量 
就 能 由 前 端 和 后 端 接口 的 数目 决定 ? 

所 谓 线 速 , 就 是 指 所 有 端口 都 以 自己 的 额定 速度 同时 交换 , 而 所 有 端口 都 是 连接 到 背 板 上 的 ， 
其 中 需要 核心 芯片 管理 , 而 核心 到 这 些 所 有 端口 之 间 的 总 线 , 就 需要 支撑 这 么 大 带宽 的 同时 交换 。 
盘 阵 吞吐 量 的 决定 因素 ， 这 个 就 更 复杂 了 , 与 IO、 控制 器 、 通 路 带宽 和 效率 、 后 端 磁盘 类 型 和 数 
量 均 有 关 。 如 果 不 考虑 这 么 复杂 的 话 ， 知 吐 量 可 以 近似 认为 由 前 后 端 Chip 和 接口 数目 决定 。 

老 冬 ， 我 刚才 问 了 一 下 我 们 的 研发 人 员 ， 是 不 是 Sansky 的 说 法 有 些 不 对 ， 带 宽 不 能 根据 FC 
芯片 计算 ? 我 们 的 研发 人 员 说 ，4G FC 芯片 每 秒 处 理 能 力 不 止 46， 只 要 在 总 线 带宽 和 CPU 的 处 理 
能 力 能 包含 的 范围 之 内 的 话 ， 就 可 以 根据 主机 接口 数 来 计算 理论 带宽 。 

不 懂 你 具体 的 意思 。4G FC 芯片 处 理 能 力 不 止 4G, 这 个 说 法 不 太 明 白 。EFC Chip 上 对 于 接口 
的 编码 速度 部 分 是 严格 精密 的 , 包括 Timer 和 Serdes 串 化 解 串 化 器 , 是 严格 的 4Gb, 至 于 不 止 4Gb 
的 说 法 ,我 不 清楚 ， 可 以 让 研发 人 员 直 接 留言 。FC Chip 可 以 管理 多 个 口 ， 如 果 其 所 管理 的 多 个 
口 是 共 享 的 FC Chip 的 核心 FC 处 理 逻 辑 , 则 不 管 多 少 口 共享 4Gb 带宽 , 如 果 每 个 口 各 保持 独立 ， 
即 每 个 FC 处 理 核心 处 理 速度 可 同时 保证 多 个 接口 同时 并 发 地 线 速 以 4Gb 速率 独 享 带 宽 运 行 ， 则 
这 样 的 话 ， 吞吐 量 与 接口 数量 可 以 成 正比 。 所 谓 的 4G FC Chip 处 理 能 力 不 止 4G 的 说 法 可 能 从 此 
而 来 。 


4. iSCSI 与 Windows 下 动态 磁盘 的 问题 


前 两 天 在 现场 看 到 一 奇怪 问题 ，iSCSI 存储 直 连 Windows 2003 主机 ， 每 次 重启 的 时 候 磁盘 
管理 下 存储 的 那 块 硬盘 都 变 为 脱 机 状态 ， 右 键 重新 激活 后 就 能 用 了 ， 分 区 也 还 在 ， 发 现 是 动态 磁 
盘 的 简单 卷 。 网 上 搜 了 一 下 ， 有 哥们 说 Windows 的 Initiator 不 支持 动态 磁盘 ， 给 微软 的 工程 师 
打 电 话 咨询 ， 他 当时 也 不 能 确定 ， 好 在 没什么 重要 数据 ， 得 到 客户 许可 后 将 磁盘 设置 为 基本 磁盘 
后 就 正常 了 。 哪 位 大 侠 碰 到 过 这 种 情况 吗 ， 能 不 能 给 个 解释 ? 

MS 的 iSCSI Initiator 用 户 手册 中 明确 指出 了 不 支持 动态 磁盘 ， 原 因 就 是 因为 网 络 服务 加 载 晚 
于 动态 卷 服 务 。iSCSI Service 加 载 太 晚 以 至 于 动态 磁盘 管理 系统 认为 丢 盘 了 。Linux 下 的 解决 办 法 
是 编辑 加 载 设备 的 配置 文件 表明 本 设备 属于 netdev。 不 过 MS 应 该 着 手 解决 这 个 问题 的 。 


5. FCAL 环 路 性 能 问题 


大 多 数 磁盘 阵列 都 是 通过 两 个 控制 器 后 端的 端口 ,组 成 1/2/4 条 FC-AL 环 , 来 连接 所 有 磁盘 。 
FC-AL 仲裁 环 的 协议 规定 ， 同 一 时 刻 只 有 两 个 设备 能 传送 数据 ， 也 就 是 说 ,在 一 条 FC-AL 环 里 面 ， 
控制 器 的 一 个 后 端 端口 充当 了 发 起 者 的 角色 ， 环 上 的 一 个 硬盘 充当 了 目的 地 的 角色 ， 在 一 个 时 刻 
里 ， 后 端 端 口 发 出 数据 读 写 指令 ， 只 有 一 个 硬盘 能 响应 这 个 指令 并 传输 数据 。 那 是 否 就 意味 着 ， 
一 条 FC-AL 环 的 总 体 性 能 ， 取 决 于 一 个 硬盘 的 读 写 性 能 ? 1500 转速 的 硬盘 ， 持 续 读 写 带宽 不 到 
70MB/s，IOPS 不 到 400。 那 像 IBM DS 4800、EMC CX-80 之 类 的 ， 总 共 4 条 环 ， 后 端的 性 能 岂 不 
是 只 有 280MB/s、1600 IOPS? 除了 以 阵列 里 Cache 来 提高 速度 , 我 不 知道 有 没有 别 的 办 法 , 或 者 ， 
磁盘 阵列 内 部 采用 的 不 是 工业 标准 的 FC-AL? 

这 个 问题 非常 好 ， 而 且 也 非常 经 典 。 要 解释 这 个 问题 ， 需 要 明白 三 点 : 

" ”FCAL 的 传输 通道 的 确 同一 时 刻 只 允许 两 点 间 独 占 通道 带宽 来 传输 数据 。 
"控制 器 在 有 足够 IO 请 求 的 情况 下 绝对 不 会 让 通道 闲 着 ， 会 充分 利用 带宽 。 
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" ”磁盘 的 外 部 传输 率 和 内 部 传输 率 。FCAL 环 路 上 存在 多 个 设备 的 时 候 ， 由 于 控制 器 的 轮 
询 策 略 充分 利用 带宽 , 整个 系统 在 外 体现 为 一 个 永远 都 在 读 写 数据 状态 而 不 是 寻 道 状态 
的 大 虚拟 设备 ( 本 书 有 描述 ) ,一 旦 某 个 设备 需要 寻 道 ， 那 么 就 让 其 他 设备 来 传输 数据 
来 弥补 所 浪费 的 时 隙 ， 所 以 整体 系统 可 以 发 挥 出 一 个 单一 设备 的 内 部 传输 率 。 

下 面 是 详细 总 结 。 

当 FCAL 环 路 上 存在 多 个 设备 的 时 候 ， 控 制 器 向 某 设备 发 起 IO 之 后 ， 该 设备 需要 一 定 的 寻 
道 时 间 ， 而 此 期 间 内 AL 环 处 于 被 释放 的 状态 ， 此 时 控制 器 依然 可 以 向 另外 的 设备 发 起 IO， 也 就 
类 似 于 先 把 该 做 的 命令 全 部 下 发 ， 待 某 个 设备 寻 道 完 成 请 求 将 数据 返回 给 控制 器 的 时 候 ， 往 往 是 
多 个 设备 都 处 于 积攒 状态 ， 也 就 是 它们 都 干 完 活 了 ， 准 备 交差 了 ， 而 此 时 只 能 排队 一 个 一 个 来 ， 
大 家 都 鼓 着 劲 吧 。 明 白 了 这 一 点 ， 我 们 就 往 下 看 。 

关于 IOPS 数值 的 矛盾 : 

IOPS 与 吞吐 量 是 一 对 矛盾 关系 。 在 关注 IOPS 的 环境 下 ，IO Size 往往 比较 小 ， 因 为 只 有 较 
小 的 Size 才 不 至 于 充满 带宽 达到 瓶 贷 ， 所 以 ， 要 达到 较 高 的 IOPS，IO Size 需要 比较 小 。 而 这 种 
情况 下 控制 器 将 IO 请 求 发 送 给 设备 之 后 ， 多 个 设备 处 于 积攒 状态 ， 它 们 会 仲裁 从 而 一 个 一 个 地 
分 别 得 到 传输 数据 的 机 会 。 由 于 IO Size 很 小 ， 所 以 每 次 传输 数据 很 快 就 结束 ， 这样, 一 个 IO 就 
飞快 地 完成 了 ， 而 上 一 个 设备 的 IO 完成 之 后 ， 下 一 个 设备 接着 也 会 很 快 完成 ， 因 为 它 已 经 处 于 
积攒 状态 ， 待 返回 的 数据 早已 在 Cache 中 准备 发 送 。 这 样 的 话 ， 这 个 整体 系统 对 外 就 表现 为 一 个 
永远 在 完成 IO 而 不 需要 寻 道 的 虚拟 设备 。 而 如 果 AL 环 上 除了 控制 器 之 外 只 有 一 个 设备 , 那么 环 
路 就 必须 等 待 它 寻 道 ， 因 为 寻 道 的 时 隙 内 ，AL 环 上 已 经 没有 其 他 设备 可 工作 了 。 然 而 ，AL 环 的 
这 种 弥补 寻 道 时 阶 的 效果 也 不 是 设备 越 多 就 越 好 ， 不 同 的 设计 和 产品 都 有 自己 不 同 的 最 佳 设备 数 
量 , 目前 的 经 验 值 为 64 个 , 也 就 是 环 路 总 容量 的 一 半 , 超过 这 个 值 , 性 能 不 会 再 有 提高 ,甚至 有 
所 下 降 。 我 们 可 以 推论 出 另外 一 个 结论 ， 也 就 是 ， 慢 速 设备 ， 比 如 寻 道 时 间 长 的 设备 ， 越 是 慢 速 
设备 ,组 成 AL 环 路 之 后 其 带 来 的 整体 提升 越 大 ; 越 是 快速 设备 ,高 规格 的 设备 , 组 成 AL 环 路 之 
后 , 提升 的 性 能 越 有 限 。 这 就 是 AL 环 或 者 其 他 共享 总 线 / 环 方式 弥补 设备 自身 处 理 产 生 的 时 阶 的 
效果 。 

关于 吞吐 量 /带宽 值 的 矛盾 : 

经 过 上 面 的 描述 ， 我 们 已 经 对 共享 总 线 / 环 传输 方式 的 底层 机 制 以 及 其 效用 有 了 一 个 很 好 的 
理解 了 。 在 重视 和 追求 高 吞吐 量 ， 也 就 是 充分 利用 带宽 的 环境 下 ，IO Size 往往 非常 大 ， 以 至 于 在 
较 低 的 IOPS 值 下 就 已 经 可 以 吃 满 通道 带宽 了 。 往往 这 种 情况 下 , 上层 所 发 出 的 IO 都 是 连续 大 块 
的 IO， 以 至 于 AL 环 之 上 的 设备 寻 道 时 间 可 以 大 大 降低 ， 这 就 使 得 设备 更 快 地 处 于 积攒 态 ,准备 
向 外 发 送 数据 。 我 们 知道 磁盘 外 部 传输 率 由 于 磁盘 内 部 不 断 换 道 被 打 断 ， 致 使 其 数值 较 内 部 传输 
率 降低 了 大 约 20 倍 。 而 AL 环 的 效用 就 是 弥补 寻 道 所 滔 费 的 时 阶 , 所 以 整体 系统 的 外 部 吞吐 量 就 
被 提升 了 上 来 ， 从 而 解决 了 这 个 矛盾 。 


6. 关于 RAID 层面 的 IO 并 发 与 Stripe Depth 的 一 系列 问题 
看 书 产生 的 疑问 ， 书 中 讲 I0 并 发 几率 的 时 候 说 ，“ 对 于 RAID 0, 在 两 块 硬盘 的 情况 下 ， 条 
带 深度 比较 大 的 时 候 并 发 两 个 I0 的 几率 为 1/2”, 我 理解 为 条 带 深度 比较 大 的 时 候 容易 产生 并 发 。 


但 是 在 书 中 分 析 “ 分 析 以 上 过 程 ”这 段 里 说 “在 某 种 特定 条 件 下 要 提升 性 能 ， 让 一 个 I0 尽量 扩 
散 到 多 块 物理 硬盘 上 ， 要 减 小 条 带 深度 ”， 我 理解 为 扩散 到 多 块 硬盘 才能 并 发 10， 要 减 小 条 带 深 
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度 。 但 是 ， 这 两 种 说 法 是 否 矛 盾 了 ? 可 能 是 新 手 ， 理 解 不 正确 。 

前 者 是 并 发 IO， 后 者 不 是 并 发 IO ， 后 者 描述 的 情况 是 大 块 连续 IO 的 情况 下 ， 数 据 适当 分 散 
有 利于 提高 传输 速度 ， 以 便 饱 和 链 路 带宽 。 要 IO 并 发 ， 还 是 要 单个 IO 速度 最 大 化 ? 自己 决定 。 

你 指 的 大 块 连续 IT0， 意 思 是 ， 数 据 是 同时 分 散在 Disk 1 、Disk2 、Disk3 上 写 ,还 是 先 写 
Disk1l, 完了 再 写 Disk2 。 那 如 果 是 同时 写 的 ,那么 它 和 并 发 I0 有 什么 区 别 ? 这 部 分 看 得 有 些 疑 
总 ， 希 望 指点 。 

问 得 很 好 。IO 是 并 发 的 ， 如 果 分 散 的 话 ， 所 有 盘 同 时 读 写 ， 当 然 ， 如 果 用 FCAL,， 微观 还 是 
引 令 顺序 被 发 出 ， 但 是 发 出 之 后 ， 磁 盘 干 活 还 得 需要 时 间 。 这 个 间隙 中 ， 控 制 器 就 可 以 轮流 发 送 
指令 给 其 他 硬盘 ， 脑 子 转 一 下 ， 想 想 这 个 模型 ， 转 起 来 之 后 ， 理 想 情 况 下 ， 整 个 RAID 组 就 相当 
于 一 个 磁头 永远 在 读 写 数据 而 不 被 寻 道 所 打 断 的 大 虚拟 磁盘 ， 这 个 书 中 也 描绘 了 。 这 样 ， 外 部 传 
输 率 就 能 达到 一 块 磁盘 的 内 部 传输 率 了 ， 当 然 ， 理 论 理想 情况 下 。 

在 RAID 0 中 并 发 为 什么 条 带 深 度 越 大 越 容易 并 发 I0? 并 发 10 跟 条 带 深度 有 什么 关系 ? 这 
点 始终 理解 有 困难 。 书 81 页 的 表 中 I0 Size/StripeSize 这 个 表达 式 是 比值 大 小 的 意思 吗 ? 呵 
呵 ， 书 认真 读 了 ， 但 是 理解 有 点 困难 ， 我 想 把 前 面 的 章节 弄 清 楚 点 再 读 后 面 的 会 比较 好 。 和 希望 老 
大 以 后 多 指点 。 

这 点 怪我 , 在 原文 段落 中 没有 提前 再 次 声明 一 个 IO 到 底 是 什么 形式 。 一 个 IO 的 三 大 件 : 操 
作 类 型 、 起 始 扇 区 地 址 、 长 度 。 其 次 ，RAID 组 上 的 虚拟 磁盘 的 LBA 地 址 是 局 部 竖 向 (Segment 
内 ) 、 全 局 横向 ( Stripe 内 ) 排列 的 ， 单 盘 的 LBA 是 绝对 竖 向 排列 的 〈 当然 此 处 不 考虑 盘 片 柱 面 
等 物理 因素 ) 。 这 样 ， 条 带 深度 ( Segment ) 越 大 ， 就 可 以 同时 接受 多 个 IO， 越 小 ，IO 中 的 LBA 
长 度 就 越 容 易 跨 满 这 个 Stripe。 

又 来 提问 题 了 ， 呵 呵 。 书 中 83 页 提 到 RAID1 的 并 发 I0 不 支持 随机 I0 关于 这 向 话 一 一 “ 写 
I0 因为 要 同时 向 每 块 磁盘 写 入 备份 数据 ， 所 以 不 能 并 发 0， 也 不 能 分 块 并 行 ” 不 太 理 解 。 

呵呵 ， 每 天 来 一 问 ， 每 天 有 提高 ! 

一 句 话 : 每 个 磁盘 同一 时 刻 只 服务 于 一 个 IO，NCQ 中 的 Out of Order 技 术 另 当 别论 。 这 样 
你 的 问题 就 明白 了 ， 思 考 一 下 。 

有 一 些小 疑问 .我 们 平常 在 配置 RAID 的 时 候 ,Stripping Size 是 预先 设置 好 的 ,比方 说 64KB， 

然后 我 的 Segment Size 是 等 于 Stripping Size 除 以 它 所 组 成 的 数据 盘 ， 而 且 冬 瓜 头 也 说 到 了 
Segment Size 大 小 应 该 是 扇 区 的 整数 倍 ， 那 如 果 说 我 的 数据 盘 是 7 块 ， 那 我 的 Segment Size 应 
该 怎么 算 啊 ? 64/7 除 不 尽 啊 ? 这 一 点 没有 看 明白 ， 老 大 能 帮 我 解释 下 么 ? 谢谢 ! 
好 问题 。 首 先 ，Stripe Size 是 包含 Parity 盘 在 内 的 。 关 于 除 不 尽 的 问题 , 不 一 定 。 看 具体 实现 
了 ， 可 能 输入 64， 则 自动 变 为 48 或 者 96， 都 有 可 能 。 总 之 ,看 具体 实现 。 这 一 点 我 已 经 向 某国 
外 OEM 厂商 的 研发 人 员 咨 询 过 ， 得 到 了 肯定 的 答复 。 现 在 一 些 机 器 都 只 给 出 设置 Segment Size 
的 接口 ， 而 且 估计 有 些 机 器 所 谓 的 Stipe Size 其 实 就 是 Segment Size。 

书 中 提 到 : I0 Size /Stripe Size 较 大 ， 顺 序 10, 连续 读 ， 提 升 了 下 系数 倍 。 

而 随后 又 说 : 系数 =I0 Size /Stripe Size... ， 大 于 等 于 1。 这 里 的 系数 为 什么 大 于 等 于 1? 
应 该 是 小 于 等 于 1 吧 。 

这 里 大 于 1 小 于 1 都 可 以 ， 因 为 N 可 以 随机 。 

《大 话 存 储 》P82， 读 ，I0 Size /Stripe Size 较 小 ， 并 发 10， 随 机 I0, 提升 了 (1+ 并 发 系 
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数 ) 倍 ， 这 个 1 是 怎么 来 的 ? 

这 里 1 就 是 单位 1， 起 码 要 比 1 块 磁盘 高 ， 所 以 需要 1+ 系数 。 

请 问 冬瓜 头 ， 当 I0 Size 小 于 条 带 深度 的 时 候 ，RAID 0 写 数据 是 不 是 只 写 往 一 个 磁盘 ? 为 
什么 很 多 地 方 又 强调 条 带 化 时 写 数 据 是 同时 往 所 有 的 磁盘 而 不 是 写 完 一 个 磁盘 的 Segment 再 继续 
写 另 一 个 磁盘 的 ? 如果 是 这 样 的 话 即 使 10 Size 小 于 条 带 深 度 也 应 该 是 每 个 磁盘 都 写 入 一 部 分 数 
据 吧 ? 看 着 有 点 糊涂 ， 请 指教 。 

当 IO Size 小 于 Segment Size 的 时 候 ， 这 个 IO 一 定 是 只 落 在 一 个 磁盘 上 了 。 同 时 向 多 个 磁盘 
写 某 个 IO Data 的 情况 是 IO Size 大 于 Segment Size 的 时 候 。 

那 是 不 是 可 以 这 么 理解 : 写 数 据 是 以 Segment 为 单位 的 , 比如 有 5 个 硬盘 做 RAID 0, Segment 
大 小 为 1KB， 当 一 个 I0 Size 为 2KB 时 ， 它 只 将 数据 并 行 写 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 
对 这 个 I0 是 不 起 作用 的 ? 如 果 是 ， 数 据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 磁盘 的 ? 另外 ， 存 
不 存在 一 个 I0 Size 不 是 Segment 整数 倍 的 情况 ,此 时 数据 是 怎么 写 入 的 ? 还 有 ,是 不 是 所 有 RAID 
条 带 化 都 是 基于 这 个 原则 ? 请 指教 。 

那 是 不 是 可 以 这 么 理解 : 写 数据 是 以 Segment 为 单位 的 , 比如 有 5 个 硬盘 做 RAID0, Segment 
大 小 为 1KB， 当 一 个 IO Size 为 2KB 时 ， 它 只 将 数据 并 行 写 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 
对 这 个 IO 是 不 起 作用 的 ? ( 是 的 )。 如 果 是 , 数据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 磁盘 的 ? 
(数据 逻辑 地 址 和 物理 地 址 Block 的 映射 关系 是 由 控制 器 做 以 记录 的 , 控制 器 会 依据 映射 表 来 做 翻 
译 ， 书 中 讲 了 ， 请 仔细 阅读 。) 2 存 不 存 在 一 个 IO Size 不 是 Segment 整数 倍 的 情况 ， 此 时 数 

是 怎么 写 入 的 ? 〈 存 在， 该 怎么 么 写 ，IO 最 小 单位 是 LBA 扇 区 ， 也 就 是 512B， 一 般 情 
况 下 。 近 年 来 吃喝 着 要 增 大 LBA 到 4 4KB, 尚未 成 型 。 记 住 , Segment 只 是 - 人 
ea Segment， 控 制 器 对 磁盘 发 起 的 实际 IO 都 是 以 一 段 连续 的 LBA 为 单位 。 ) 0 

是 所 有 RAID 条 带 化 都 是 基于 这 个 原则 ? ( 基本 原理 类 似 , 但 是 具体 实现 看 各 厂家 设计 。 


7. 关于 “Block” 的 意义 


再 请 教 一 个 问题 ，RAID 中 的 Data Block 和 我 们 平时 做 RAID 的 时 候选 择 的 Block Size 是 否 
是 指 同一 参数 ? 

平时 做 RAID 的 时 候 的 “Block Size”, 要 看 RAID 控制 器 厂家 如 何 定义 的 , 不 同 厂家 叫 法 不 
同 ， 具 体 咨询 厂家 。 


8. 用 Iometer 测试 时 所 选择 的 参数 


我 用 Iometer 测 用 DELL/EMC CX 600 磁盘 组 建 的 RAID 5 的 I0PS。 我 的 做 法 如 下 : 

我 在 Windows XP 上 运行 IOMETER ， 在 Linux 上 运行 dynamo， Linux 与 磁盘 阵列 之 间 用 
FC 连接 。 我 要 测试 最 大 IOPS， 所 以 我 照 着 指导 书 上 说 的 调整 成 512B; 100% 读 ; 0%Random。 问 题 : 
(1) 这 样 设置 对 吗 ? 磁盘 阵列 的 扇 区 大 小 应 该 也 是 512B 吧 ， 读 比 写 快 ， 顺 序 读 也 比 随 机 要 快 ， 
我 觉得 应 该 对 吧 。 (2 ) 我 没有 设置 QD， 所 以 我 测 最 大 是 120000 左右 ，EMC 官方 说 它 的 I0PS 最 
大 为 150000 左右 ， 我 是 在 一 个 电脑 上 运行 一 个 worker 试 过 、2 个 worker、3 个 workers。 (3) 
如 果 设 置 QD， 对 于 我 的 配置 ， 应 该 怎样 设置 ?7 (4) 最 后 一 个 问题 是 最 郁闷 的 : 我 就 那 一 天 测试 
出 来 是 120000 左右 ， 隔 了 一 天 测试 ， 今 天 测试 ， 最 高 才 只 有 50000 左右 。 我 不 知道 为 什么 。 
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120000 相对 于 150000 来 说 ,已 经 不 错 了 。 官 方 的 承诺 值 在 实际 测试 或 者 使 用 的 时 候 是 达 不 
到 的 , 官方 都 是 王 婆 卖 瓜 自 卖 自 夺 的 。QueueDepth 可 以 设置 大 一 些 , 不 过 与 底层 的 一 些 因素 也 有 
关系 ，FC 卡 就 是 一 个 主要 瓶颈 处 ， 有 的 FC 卡 写 死 了 QueueDepth,， 不 管 上 面 多 大 ， 到 了 它 这 都 
得 排 着 。 多 个 worker 也 是 好 办 法 ,增加 并 发 度 , 总 之 120000 应 该 是 这 台 设 备 的 最 大 IOPS 了 。 关 
于 你 问 的 QueueDepth 怎么 设置 ， 自 己 去 找 ， 不 同 设备 不 同 设置 法 。IO 吞吐 量 突然 降低 ， 可 以 排 
除 下 列 几 个 因素 : 测试 工具 应 用 端 设置 出 问题 ，FC 卡 驱 动 或 者 Firmware 进入 不 稳 态 需要 Power 
Cycle,， 配 置 变 更 ， 外 部 存储 设备 处 理 瓶 颈 ( 通过 盘 阵 监控 工具 进行 监控 ) ， 网 络 传输 上 发 生 问题 
(查看 本 地 接口 及 交换 机 状态 和 配置 ) 。 


9. RAID 5 在 一 块 盘 故障 之 后 如 何 继续 服务 IO 的 问题 


如 果 一 个 RAID 5 在 创建 时 没有 指定 热 备 份 盘 ， 那 它 在 一 个 磁盘 失效 之 后 , 能 够 继续 响应 用 户 
的 读 请 求 是 很 自然 的 ， 那 它 能 否 继续 响应 用 户 的 写 请 求 呢 ? 它 的 逻辑 地 址 空间 是 怎样 的 ? 发 到 失 
效 设备 上 的 写 请 求 如 何 处 理 ? 

RAID 5 坏 一 块 盘 依旧 可 以 写 ， 坏 的 如 果 是 Parity 盘 ， 数 据 依然 完整 写 入 数据 盘 。 如 果 坏 的 
是 数据 盘 ， 则 一 个 写 需 要 牵 一 发 而 动 全 身 了 ， 此 时 如 果 某 IO 只 更 新 坏 Segment 的 数据 ， 则 读 改 
写 Parity 计算 公式 中 的 “ 老 数据 ”一 项 变 为 未 知 ， 所 以 只 能 读 出 所 有 其 他 数据 盘 的 数据 进行 校 验 
然后 将 新 校 验 值 写 入 校 验 盘 即 可 。 这 个 问题 不 难 理解 ， 请 再 仔细 用 脑 思考 。 


10. 关于 磁盘 扩展 柜上 的 IN 和 OUT 端口 的 问题 


接触 存储 时 间 不 长 ， 问 个 小 白 问题 ， 请 入 门 的 兄弟 给 解答 下 。 控 制 器 后 面 的 主机 端口 上 面 有 
IN 和 0UT 之 分 ， 麻烦 给 解释 下 有 什么 区 别 。 如 果 将 控制 器 主机 端口 ( IN ) 与 MDC 相连 可 以 映射 
到 阵列 中 的 相关 LUN， 如 果 与 (0UT ) 相连 则 看 不 到 磁盘 ， 这 是 为 什么 ? 

完全 看 设计 了 ， 其 实 in 和 out 都 是 连接 在 一 个 Port Bypass Circuit 芯片 上 的 。 按 理 说 连 到 out 
上 也 可 以 进入 FC Loop， 但 是 有 些 设计 可 能 要 求 必须 接 到 in 一 条 ， 然 后 再 接 到 out 一 条 ， 就 可 以 同 
时 认 到 双 路 径 。 以 上 说 的 都 是 Host 直 连 这 个 in 和 out。onut 常规 情况 下 是 用 来 级 联 更 多 扩展 柜 的 。 


11 . 关于 磁盘 上 的 “剩余 空间 ”的 问题 


ext3 是 众所周知 的 日 志文 件 系统 ， 在 写 一 个 文件 到 磁盘 的 空闲 区 域 时 ， 采 用 先 写 文件 数据 ， 
再 记录 元 数据 到 日 志 ， 最 后 写 元 数据 到 磁盘 的 步骤 ， 这 样 可 以 保证 数据 的 一 致 性 。 但 是 如 果 文 件 
系统 下 发 的 写 请 求 是 对 非 空闲 的 磁盘 块 (以 前 已 经 有 内 容 ) 进行 更 新 呢 ? 前 面 所 述 的 步骤 就 不 能 
保证 一 致 性 了 ， 这 种 情况 下 ext3 是 怎么 处 理 的 呢 ? 

前 提 ， 所 谓 “ 非 空 六 ”和 “ 空 六”， 是 针对 FS 来 说 的 ， 磁 盘 自身 没有 空闲 或 者 非 空 亲 。FS 
既然 决定 了 要 覆盖 某 个 文件 的 某 个 块 ， 就 证 明 原 来 的 数据 已 经 不 需要 了 ， 此 时 覆盖 也 无 妨 。EFS 是 
通过 bitmap 来 记录 磁盘 上 哪个 扇 区 为 空闲 ， 哪 个 正 被 文件 占用 的 。 如 果 覆 盖 到 一 半 ，MetaData 

写 入 ， 此 时 依然 是 一 致 的 ， 因 为 bitmap 尚未 更 新 ,标记 的 这 个 扇 区 依然 是 空闲 的 ， 虽 然 扇 区 中 
实际 数据 变化 了 一 半 。 如 果 楼 主 理解 的 “一 致 ”是 业务 层 的 一 致 ， 那 就 是 不 一 致 ， 文 件 没 有 被 真 
正 写 入 ， 此 时 上 层 应 该 报错 提示 程序 写 入 不 成 功 ， 或 者 不 报错 ， 看 需求 。 但 是 此 时 FS 是 一 致 的 ， 
也 就 是 FS 不 需要 fck。 
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12. 关于 实际 磁盘 阵列 产品 使 用 FC Class Service 的 问题 


FC 协议 文档 提 到 : FC 仅 提 供 了 错误 检测 手段 ， 但 大 多 数 情 况 下 FC 只 是 将 检测 到 的 异常 上 报 
给 ULP， 是 否 重 传 、 重 传 哪些 数据 由 ULP 决定 。 分 Class 级 别 的 ， 有 的 Class 就 提供 重 传 有 的 
则 不 提供 。 确 实 是 这 样 ， 文 档 中 提 到 ， 由 于 SCSI 提供 了 重 传 机 制 ， 因 此 SCSI over FC 时 ， 一 般 
采用 Class 3 (无 ACK) 。 但 文中 用 括号 写 了 这 人 么 一 句 : In actual SCSI operation, class 3 is 
used for simplicity of implementation。 其 中 simplicity 让 人 生 疑 : Class 3 只 是 一 种 简化 
方案 ， 真 正 运营 时 会 采用 Class 3 吗 ? 

看 情况 了 ， te ebp et Class3, 而 且 我 推断 其 他 阵列 几乎 也 都 会 使 用 Class 
3， 因 为 SCSI 已 经 有 了 机 制 ， 必要 外 壳 层 再 多 此 一 举 了 。 


13 . 关于 Cache Mirror 测试 用 例 的 问题 


双 控 ， 支 持 Cache Mirror。 请 教 ， 如 何 设 计 测 试 Cache Mirror 功能 的 测试 用 例 ? 还 有 一 个 
问题 : 存储 控制 器 的 Cache 一 般 是 单独 的 Memory 还 是 从 整个 系统 的 Memory 中 分 配 一 部 分 来 做 
Cache? 

设置 控制 器 向 磁盘 Flush 的 频率 到 最 低 ， 然 后 测试 机 发 起 突 发 大 量 IO， 期 间 人 为 Down 掉 目 
标 控制 器 ， 然 后 检查 磁盘 上 是 否 成 功 写 入 了 数据 ,成 功 ， 则 有 效 ， 不 成 功 ， 则 Mirror 出 现 问 题 
are 取决 于 控制 器 的 设计 , 如果 某 个 IO 恰好 断 在 控制 器 尚未 返回 ack 给 测试 机 ， 则 

一 个 控制 器 是 否 可 以 继续 保留 状态 而 返回 ack? 如 果 不 保留 ， 则 程序 应 当 报 错 , 检查 此 IO 的 上 
一 个 IO 是 否 成 功 ,成 功 ，Mirror 有 效 ， 不 成 功 ， 有 问题 。 

谢谢 冬瓜 头 ! 有 两 个 问题 : (1) 存储 控制 器 为 何 没 有 调整 Flush 频率 的 选项 ? (2 ) 测试 机 
写 数据 的 时 候 应 该 复制 多 大 的 文件 为 好 ? 用 IOmeter 这 样 的 工具 写 数据 不 太 合适 吧 ? 

IOmeter 写 了 什么 你 不 清楚 ， 如 何 检查 ? 得 自己 写 测试 程序 。 最 好 是 写 小 东西 ， 比 如 每 次 一 
个 LBA， 其 中 包含 容易 识别 的 二 进 制 。 

即使 自己 写 了 程序 ， 怎么 验证 硬盘 中 的 文件 是 通过 Cache 写 进 去 的 , 还 是 通过 Cache Mirror 
写 进 去 的 ? 

同一 时 刻 发 送 大 量 IO， 控 制 器 缓存 不 会 立刻 写 到 磁盘 ， 此 时 Down 掉 这 个 控制 器 ， 另 一 个 
会 接着 写 ， 过 一 段 时间 就 去 读 出 来 验证 。 你 再 仔细 想 想 Mirror 的 基本 原理 。 

蛾 ， 另 一 个 接着 写 是 关键 ， 这 样 写 完 后 ， 过 一 段 时 间 读 出 来 验证 ， 如 果 文 件 不 完整 ， 就 说 明 
mirror 有 问题 。 我 这 边 主要 是 没有 考虑 要 结合 多 路 径 来 测试 ， 如 果 没 有 配置 LUN 多 路 径 ， 一 个 控 
制 器 Down 掉 了 ， 读 写 就 停止 了 。 另外， 因为 有 你 说 的 “恰好 断 在 一 个 I0 还 没有 返回 ack 之 前 ”， 
所 以 需要 用 文件 复制 测试 可 能 有 问题 ， 而 需要 自己 写 LBA 的 小 工具 ， 对 吧 ? 

其 实 写 文 件 也 不 是 不 可 以 ， 只 是 可 控 性 不 好 。 写 入 大 量 小 文件 ，Down 机 瞬间 到 底 写 了 哪 一 

， 你 不 知道 。 

可 以 写 一 个 大 文件 吧 ， 比 如 说 压缩 的 RAR 文件 ， 如 果 Mirror 出 了 问题 ， 那 么 在 读 出 来 验证 
的 时 候 ， 解 压 RAR 文件 肯定 会 有 问题 ; 但 是 如 果 读 出 来 的 RAR 文件 解压 没 问题 ， 那 是 否 能 说 明 
Mirror 一 定 没 有 问题 呢 ? 

写 大 文件 很 有 可 能 触发 控制 器 的 连续 写 盘 动作 ， 就 测 不 出 来 了 。 
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Carhewei ( 一 哥 卡 尔 ) 说 道 : 使 用 “小 文件 ”有 更 大 的 机 会 去 测试 , 大 文件 的 话 Cache Destage 
[能 会 太 快 而 做 不 成 有 效 测试 。“ 小 文件 ”可 能 不 是 个 好 名 词 ， 正 确 的 应 该 是 : 自己 写 一 个 工具 ， 
对 象 是 裸 设备 ， 对 指定 的 起 始 LBA 写 入 Data Pattem, 比如 从 LBA 1~2 之 间 写 A，LBA 2~4 之 
间 写 B。 有 了 工具 后 ， 就 是 选 址 写 Data Pattem。 选 址 尽量 拉 远 并 且 随 机 ， 每 次 写 一 块 。 你 的 工具 
可 以 把 发 出 的 LBA、Data Patterm 和 大 小 记录 到 log 里 。 然 后 用 冬瓜 的 方法 , 可 以 Hard Reset 
Controller ( 就 是 像 断 电 一 样 的 Shutdown， 但 是 不 用 拔 出 来 ) ， 然 后 根据 log 把 数据 读 出 来 对 比 。 


14. 冷 热 插 拔 与 Rebuild 


请 教 下 各 位 ，RAID 5/0+1 是 否 支持 在 Normal 状态 下 ， 切 断 电 源 ， 更 换 Disk (RAID 5 ldisk 、 
RAID0+1 less than 1 pair ) ， 然 后 power up， 这 两 种 阵列 是 否 支持 这 样 的 冷 插 拔 的 
recover/resyncing? 恢复 机 制 是 怎样 的 ? 

冷 插 拔 和 热 插 拔 一 样 ， 起 来 之 后 便 会 rebuild。 


15. 如 何 实现 RAID 的 动态 扩容 ? 


(1) TFTP 能 否 支持 跨 网 段 的 传输 ? (PS: 今天 测试 了 好 半天 ， 最 后 发 现 貌似 不 行 ， 但 是 也 
没有 搜 到 相关 的 官方 说 法 。 ) 

(2 ) 假设 一 个 RAID 01 由 四 块 1006B 的 磁盘 组 成 ， 用 一 个 1506B 的 大 容量 盘 更 换 其 中 的 一 块 
磁盘 ， 等 重建 完成 ; 然后 更 换 第 二 块 磁盘 ， 再 等 重建 完成 …… 依 次 更 换 四 块 磁盘 容量 为 1506B 的 
新 盘 。 这 样 第 四 块 盘 在 开始 重建 过 程 中 会 不 会 和 前 面 的 三 块 盘 没有 条 带 化 的 506B 组 成 条 带 ( 因 
为 现在 四 个 盘 都 已 经 是 150G6B 了 ) ? 简 而 言 之 ， 如 何 实现 RAID 的 动态 扩容 ? 

TFTP 基于 TCPIP, 除非 这 个 协议 必须 用 到 广播 ,否则 怎么 不 可 能 不 支持 跨 网 段 , 只 要 人 Pp 能 
Ping 通 ，TFTP Server 起 来 ， 就 可 以 。 ( 好 像 有 些 说 法 认为 某 些 TFTP 软件 使 用 ARP 广播 ， 致 使 
不 能 跨 广播 域 。 ) 

第 二 个 问题 完全 看 RAID 控制 器 的 实现 方式 了 ,传统 上 50GB 是 浪费 了 。 但 是 不 排除 有 些 控 
制 器 的 算法 不 同 ， 能 利用 起 这 50GB。 由 于 是 一 块 一 块 地 替换 的 ， 所 以 多 出 来 的 区 域 的 条 带 可 能 
是 不 连续 的 ， 不 管 怎么 说 ， 具 体 算 法 ， 还 是 设计 者 说 了 算 。 如 果 是 校 验 型 RAID， 想 利用 起 多 余 
的 空间 ， 就 需要 将 最 大 的 盘 作 为 校 验 盘 以 便 容 纳 随后 加 入 的 盘 ， 如 果 加 入 更 大 的 ， 则 最 大 的 盘 顶 
蔡 当 前 校 验 盘 ， 这 样 就 可 以 继续 容纳 随后 加 入 的 盘 了 。 

在 这 里 多 说 两 句 。RAID 组 扩容 后 的 数据 分 布 有 两 种 处 理 方 式 : 一 是 Redistribute， 二 是 
Append。 前 者 , 在 新 盘 加 入 RAID 组 之 后 ,控制 器 立即 将 组 中 原来 磁盘 尾部 的 数据 读 出 来 写 入 新 
加 入 的 盘 , 重 算 Parity， 平 衡 数 据 分 布 , 所 以 叫 Redistribute， 很 耗费 资源 。 后 者 ， 新 盘 加 入 RAID 
组 中 之 后 ， 控 制 器 不 做 任何 额外 的 数据 迁移 操作 ， 而 只 是 在 逻辑 和 物理 地 址 对 应 表 中 作 变 更 ， 相 
当 于 在 RAID 组 中 插入 了 一 个 一 个 的 Segment 碎片 ， 逻 辑 上 ， 这 块 新 加 的 盘 的 空间 被 追加 的 逻辑 
地 址 的 尾部 ， 而 物理 上 却 是 琐碎 的 不 连续 物理 空间 。 随 着 前 端 IO 向 这 块 逻 辑 尾部 空间 的 持续 写 
入 ， 控 制 器 会 根据 地 址 映射 表 将 新 数据 写 到 对 应 的 物理 空间 中 ， 也 就 是 前 者 牺牲 了 一 时 的 性 能 来 
保证 地 址 依然 是 规则 连续 映射 的 ， 从 而 保障 了 后 期 性 能 ;而 后 者 则 是 在 潜移默化 中 对 后 期 的 性 能 
造成 了 一 定 的 影响 。 
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16. 流 媒 体 服务 器 使 用 何 种 存储 协议 的 间 题 


应 用 : 流 媒 体 服务 ， 流 媒体 处 理 模块 和 存储 介质 物理 上 分 开 ， 前 者 在 单 板 A， 后 者 在 单 板 B， 
二 者 通过 以 太 网 总 线 连接 ， 高 带宽 ( 大约 在 10~20Gbps ) ， 且 需要 保证 传输 可 靠 性 。 问 题 : A、B 


之 间 应 该 采用 


何 种 存储 协议 ? 


我 的 想法 如 下 。 


pa 


iSCSI 


点 : : 标准 主流 协议 ， 可 扩展 性 好 ， 对 以 太 网 没有 特殊 需求 。 
有 TCP/IP 协议 开销 较 大 ， 为 保证 高 带宽 ， 需 要 TOBE 技术 ， 成 本 较 高 。 


方案 二 : 


FCoE 


优点 : 不 其 了 解 。 
缺点 : FCoB 与 CBE 均 未 完全 标准 化 ， 即 使 标准 化 ， 对 以 太 网 有 额外 需求 〔( 需 支持 CEE? ) 。 


方案 三 


: SCSI over Bthernet 


优点 : 简单 ? 


缺点 : 小 


众 标准 ， 不 知 成 熟 度 如 何 。 


SCSI over Ethernet， 目 前 有 产品 么 ? 

个 人 理解 ，FCoB 的 成 本 主要 集中 在 : 

(1) FC 协议 处 理 芯 片 (能 否 用 CPU 完成? ) ; 

(2 ) 普通 千 兆 或 万 兆 以 太 网 卡 。 

用 哪 种 协议 ， 真 不 好 说 ， 得 实测 才 行 。File 协议 和 Block 各 有 优 缺 点 。 不 过 本 质 受 限 于 底层 链 


不 太 多 。 


目前 FCOE 还 不 知道 是 不 是 县 花 一 现 的 东西 。 另 外 如 果 单 纯 为 了 FCOE 而 FCOE 


没有 意义 。 如 果 原 来 系统 中 有 FC 的 SAN， 现 在 想 融合 到 以 太 网 中 而 且 有 迫切 需求 ， 那 可 以 


pe 


目前 FCOE 都 是 使 用 专门 的 适 配 卡 和 专门 的 交换 机 ， 与 传统 以 太 网 根本 不 可 互 操作 ， 


目前 实际 主要 应 用 于 大 型 运营 商 ， 准 备 同时 投入 高 速 以 太 网 与 存储 网 络 的 ， 可 以 在 适配器 、 布 线 、 


交换 机 方面 成 
一 台 同 样 口 数 | 
FCOE 交换 机 


本 有 所 节省 ， 离 行业 市 场 客户 还 差 很 远 。16 口 8Gbps FC 交换 机 也 就 两 万 多 元 一 台 
的 10Gbps 的 FCOE 交换 机 , 贵 了 去 了 。 但 是 对 于 运营 商 那 种 大 型 模块 化 交换 机 来 讲 ， 
由 于 融合 了 两 种 网 络 ， 反 而 比 单独 为 每 种 网 络 都 配 一 台 交 换 机 要 便宜 了 。 


17. FC 是 否 可 以 使 用 主机 CPU 模拟 的 问题 


想 外 接 FC SAN， 主 机 是 否 必须 配置 FC HBA 卡 ， 还 是 可 以 用 主机 CPU 模拟 ? 
若 能 模拟 ，CPU 开销 是 否 很 大 ? 
模拟 不 了 。 起 码 要 有 张 FC 卡 ， 软 硬 不 说 ， 接 口 起 码 得 有 ， 而 且 FC 的 链 路 层 Frame 同步 ， 


提取 功能 要 有 ， 


其 他 上 层 逻 辑 可 以 用 CPU 模拟 。 


0ooops， 我 的 问题 描述 有 误 ， 应 该 是 : FCoB 中 ，FC-2 帧 通过 以 太 网 承载 ，FC 协议 处 理 能 否 


用 主机 CPU 实现 ?按照 冬瓜 头 的 解释 ， 我 理解 此 时 FC-2、FCoB Mapping 属于 “上 层 罗 辑 ”， 可 


以 通过 CPU 实现 的 。 


这 样 的 话 是 可 以 的 , 而 且 我 推测 很 可 能 一 开始 某 些 FCOE 卡 大 部 分 逻辑 就 运行 在 其 驱动 程序 中 。 
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18. Stripe 与 Block 的 关系 


在 创建 RAID 的 时 候 ， 会 让 你 选择 Stripe Size 以 及 Block Size，Block Size 跟 所 创建 RAID 
容量 超过 2TB 后 被 主机 识别 有 关系 .Stripe 以 及 Block 什么 关系 没有 ? 最 好 是 有 个 结构 图 可 以 说 
明 一 下 啊 。 

不 知道 具体 哪个 设备 ， 一 般 来 讲 Block Size 是 存储 内 部 对 磁盘 读 写 的 二 级 单位 。Stripe Size 是 
RAID 横 跨 所 有 RAID 组 磁盘 的 逻辑 单元 。 要 说 有 联系 的 话 ，Stirpe Depth 的 最 小 单位 就 是 一 个 
Block, 除了 Block, 还 有 多 种 其 他 被 定义 的 概念 比如 Chunk 、Segment、Slice 等 , 与 各 个 厂家 设计 
和 定义 有 关 ， 需 要 去 看 厂家 的 白皮书 。 

另外 ， 著 名 的 Windows 操作 系统 2TB 极限 问题 ， 是 说 MBR 分 区 格式 下 最 大 分 区 2TB， 而 
不 是 说 系统 只 能 认 最 大 磁盘 2TB， 磁 盘 可 以 认 到 很 大 ， 只 要 注册 表 中 打开 48b 寻 址 模式 即 可 。 解 
决 办 法 是 使 用 GPT 分 区 或 者 动态 磁盘 。 而 且 ，Block Size 与 这 个 问题 无 关 。 


19. Loop 与 RAID 


如 果 是 阵列 里 的 Loop 架构 ,那么 RAID 如 何 工作 呢 ? 如 何 保证 多 块 硬盘 同时 读 写 呢 ? 还 有 就 
是 这 个 LO00P 如 何 收 合 呢 ? 冬瓜 兄 , 我 理解 L00P 的 原理 是 一 个 节点 占用 后 需要 完成 操作 再 释放 令 
牌 ,磁盘 干 活 不 就 是 磁盘 读 写 和 传输 么 ， 总 得 让 它 一 次 I/0 操作 结束 才 释 放 令 牌 吧 ， 其 他 磁盘 岂 
不 是 得 等 着 ?呵呵 ， 不 知道 理解 是 否 正确 ， 燕 听 各 位 高 见 。 

请 求 发 过 去 ,磁盘 总 得 干 活 吧 , 干 活 的 时 间 ， 其 他 盘 也 给 了 任务 了 ,就 像 boss 一 样 , 不 让 人 
闲 着 ， 闲 着 成 本 就 高 ， 一 个 道理 。 呵 呵 ， 仲 裁 权 不 是 这 么 弄 的 ， 仲 裁 不 是 一 个 Session。 一 个 写 操 
作 底 层 对 应 着 多 个 Frame， 每 次 尝试 发 送 一 个 Frame， 都 要 仲裁 ， 而 不 是 仲裁 一 次 等 这 个 IO 完成 
的 。 每 个 Frame 都 要 仲裁 , 这 样 才 能 保证 其 他 设备 不 被 俄 死 ， 如 果 是 Session 的 话 , 早 就 被 饿 死 了 ， 
有 Session 的 那 是 更 加 上 层 的 协议 ， 比 如 TCP， 底 层 需要 做 的 是 充分 保证 拓扑 上 每 个 点 的 公平 性 。 
另外 ， 以 太 网 也 是 每 Frame 都 要 进行 CSMA 的 ， 而 且 估 计 你 也 不 知道 网 卡 每 收 到 一 个 Frame， 都 
要 中 断 CPU 来 执行 驱动 程序 提取 这 个 Frame 中 的 上 层 Payload， 这 里 顺便 告诉 你 一 下 。 


20. RAID 初始 化 的 问题 


能 详细 说 明 下 ， 做 了 初始 化 再 使 用 RAID 的 好 处 吗 ? 

与 实现 方法 有 很 大 关系 。 如果 所 有 磁盘 在 加 入 RAID Group 前 都 预 处 理 过 , 则 不 需要 初始 化 。 
如 果 没 有 预 处 理 比 如 以 前 用 过 的 磁盘 而 没有 清 零 直 接 加 入 RAID Group， 则 需要 初始 化 。 有 两 种 
方式 : 前 台独 占 性 初始 化 , 后 台 初 始 化 。 前 者 初始 化 结束 之 前 不 能 接受 IO。 而 后 者 可 以 一 边 接受 
IO 一 边 初始 化 ， 但 是 后 者 对 IO 的 性 能 有 很 大 影响 ， 控 制 器 会 在 后 台 连 续 地 对 所 有 条 带 初 始 化 清 
零 操 作 ， 或 者 读 取 所 有 数据 盘 上 的 数据 进行 校 验 并 将 校 验 值 写 入 Parity 盘 ， 视 不 同 设计 而 定 。 期 
间 一 旦 遇 到 上 层 下 发 的 写 IO ， 则 临时 跳跃 到 对 应 的 条 带 进行 操作 ， 完 成 后 再 转 回来 继续 。 写 IO 
刷 盘 之 前 如 果 对 应 的 目标 条 带 尚 未 初始 化 过 ， 那 么 控制 器 会 直接 在 内 存 中 就 计算 好 这 个 条 带 的 内 
容 然 后 整 条 写 , 这 个 整 条 中 包括 此 写 IO 的 数据 Segment， 其 他 磁盘 的 全 0 的 Segment 以 及 计算 好 
的 Parity Segment。 对 于 RAID 初始 化 的 详细 描述 本 附录 后 文 还 有 。 

你 的 书 上 说 初始 化 有 两 种 情况 : 一 种 是 对 所 有 的 盘 全 部 写 0; 另 一 种 是 保持 原来 的 数据 ， 只 
是 写 入 校 验 位 。 我 这 碰 到 的 应 该 是 第 二 种 情况 ， 好 像 没 多 大 必要 都 写 0。 还 有 就 是 我 这 的 RAID 5 
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不 初始 化 也 是 可 以 用 的 ， 是 不 是 对 性 能 上 或 者 安全 上 有 影响 啊 ? 还 望 再 解释 一 下 ， 非 常 感谢 ! 

凡是 没有 写 0， 拿 了 盘 就 加 入 RAID Group 并 且 立 即 可 以 使 用 的 ， 属 于 后 台 初 始 化 ， 性 能 会 
受到 影响 ， 因 为 写 入 的 时 候 它 有 必要 读 出 必需 的 部 分 来 进行 校 验 ， 几 乎 都 是 全 条 带 读 出 校 验 ， 所 
以 这 个 时 候 ，RAID 5 写 惩罚 将 达到 最 大 。 

写 的 时 候 为 什么 还 要 读 出 以 前 的 旧 数据 来 校 验 啊 ? 直接 写 入 对 应 的 扇 区 不 就 可 以 吗 ? 还 望 
再 解释 一 下 ， 很 想 搞 懂 它 的 具体 过 程 ， 谢 谢 。 

请 先 理解 校 验 型 RAID 写 入 时 候 的 具体 动作 。 直接 写 , 其 他 什么 都 不 干 ? 那 还 叫 RAID 5 么 ， 
那 不 RAID 0 了 么 。 未 初始 化 的 RAID 5, 其 校 验 值 根本 就 是 不 匹配 的 ， 因为 盘 是 拿 来 就 用 的 ， 上 
面 的 数据 均 未 清 零 ， 写 入 某 个 块 ， 就 需要 读 出 整个 条 带 上 其 他 所 有 块 来 共同 进行 校 验 ， 并 写 入 正 
确 的 校 验 值 。 这 个 条 带 校 验 完毕 后 , 如 果 再 有 写 IO 针对 这 个 条 带 , 那么 就 按照 正常 RAID 5 写 入 
十 候 的 动作 。 具 体 请 参考 《大 话 存储 》， 仔 细 思 考 。 


21. 热点 盘 是 什么 东西 


存储 中 他 们 说 的 热点 盘 是 哈 意 思 ? 

热点 盘 就 是 几乎 每 次 IO 都 会 读 写 的 那个 盘 。 比 如 RAID 4 中 的 校 验 盘 , 每 次 写 IO 无 一 例外 
均 会 读 写 这 个 校 验 盘 ， 使 得 这 个 盘 的 速度 成 为 瓶颈 ， 而 且 也 容易 疲劳 而 损坏 。 除 了 RAID 机 制 比 
如 RAID 4 导致 的 不 可 避免 的 热点 之 外 , 其 他 因素 , 比如 某 个 应 用 程序 长 时 间 不 停 地 读 写 某 个 盘 ， 
而 系统 中 其 他 的 磁盘 则 相对 空间 ， 则 这 个 频繁 读 写 的 盘 相 比 于 其 他 盘 也 是 热点 盘 。 比 如 数据 库存 
放 日 志 的 盘 ， 相 对 于 存放 数据 文件 的 磁盘 ， 就 是 热点 盘 。 

如 何 解决 热点 盘 的 瓶颈 呢 ? 

避免 用 RAID 4， 将 需要 频繁 读 写 的 盘 放 在 RAID 0/RAID 10/RAID 5 之 上 ， 使 这 种 潜移默化 
的 损害 平衡 到 多 个 物理 磁盘 上 ， 降 低 每 盘 损坏 的 几率 和 提高 IO 性 能 。 其 次 ， 合 理 设计 应 用 程序 。 


22. 如 何 放置 数据 文件 的 问题 


0racle 的 库 ， 其 中 一 个 2TB， 一 个 2. 6TB， 对 应 数据 和 索引 文件 ， 从 0racle 的 性 能 来 ， 最 
好 能 放 到 不 同 的 10 上 。Windows Server 2003 目前 使 用 存储 ，RAID 0+1 后 总 空间 是 5TB 多 ， 当 
前 这 种 方案 整个 做 RAID 0+1， 然 后 在 Windows 中 分 两 个 区 ， 分 别 放 数据 和 索引 。 我 的 想法 ， 能 否 
在 存储 上 分 别 做 两 个 RAID 0+1， 在 Windows 上 被 认 成 两 个 不 同 的 物理 盘 ? I0 性 能 更 好 一 点 ， 这 
点 能 实现 吗 ? 不 清楚 存储 的 原理 ， 这 样 做 性 能 是 否 更 好 一 些 ? 

后 者 更 好 一 些 。 如 果 做 成 一 个 大 的 RAID Group, 数据 和 索引 的 IO 会 有 冲突 , 只 能 排队 , 但 
好 处 是 空间 分 配 灵活 。 打 成 两 个 RAID Group， 各 自 就 有 了 专用 盘 , 在 RAID 这 一 级 上 就 不 会 冲 
突 , 但 是 在 底层 比如 FCAL 上 依然 是 冲突 的 , 但 这 是 无 法 避免 的 。 一 个 例外 就 是 两 个 RAID Group 
的 盘 分 属 不 同 的 Loop， 就 不 会 在 Loop 这 层 冲 突 ， 但 是 依然 会 在 FC 控制 器 处 有 冲突 的 可 能 。 比 
如 同一 个 FC Chip 管理 共享 的 多 个 AL 环 ， 避 免 方法 就 是 使 用 每 Loop 独立 FC Chip 的 卡 。 然 而 
FC Chip 这 一 层 可 以 解决 , 但 是 再 下 一 层 也 就 是 IO 总 线 这 一 层 ， 依然 可 能 冲突 ， 比 如 多 个 AL 环 
多 个 Chip 多 个 FC 卡 同 处 一 个 IO 总 线 ， 避 免 方法 是 让 其 分 属 不 同 的 总 线 。 再 往 下 就 是 CPU 冲 
突 ， 和 避免 方法 使 用 多 核 的 、 前 端口 的 共享 等 。 顺 带 说 了 一 大 堆 ， 呵 呵 。 


附录 1 存储 系统 问 与 答 精华 集锦 @ 


23. RAID 10 和 RAID 5 的 详细 对 比 


RAID 10 和 RAID 5 相 比 ， 哪 个 性 能 比较 高 呢 ? 


所 带 来 的 ， 而 是 因为 RAID 5 比 RAID 10 多 了 一 个 Parity 盘 ， 无 法 接受 用 户 数据 IO。 我们 来 举 
个 例子 如 何 。8 块 盘 。 

RAID 10 

11223344 

55667788 

RAID5 

1234567P 

8 

有 12345678 这 四 个 数据 放 在 这 个 8 盘 RAID 10 上 , 而 8 盘 的 RAID 5， 则 是 1234567P，P 
代表 parity。 先 来 看 随机 小 块 IO， 比 如 上 层 发 来 这 样 一 组 IO, 读 1, 然后 3、2、4、8、5、7, 此 
时 , 抛 开 FCAL 底层 不 讲 , RAID 10 之 上 可 以 并 发 这 8 个 IO 的 , 每 个 盘 处 理 一 个 IO , 此 时 RAID 
5 之 上 只 能 并 发 7 个 IO， 也 就 是 1234567， 废 了 一 个 P 盘 。 所 以 说 读 方面 ， RAID 10 的 性 价 比 远 
不 如 RAID 5。 

再 来 看 写 方面 ， 同 样 是 上 面 的 RAID 组 ，RAID 10 上 , 抛 开 镜像 过 程 是 异步 还 是 同步 ,全 部 
按照 同步 镜像 来 算 ， 也 就 是 说 写 入 一 块 盘 则 必须 同步 写 入 另 一 块 盘 。 假 设 上 层 某 时 刻 发 来 一 组 写 
IO, 1、6、3、4、5、7、8，RAID 10 可 以 并 发 的 IO 只 有 4 个 ,也 就 是 永远 等 于 磁盘 总 数 除 以 2。 
再 来 看 RAID 5， 同 样 这 组 IO ， 其 可 并 发 的 是 1~7， 构 成 整 条 写 ， 写 效率 大 大 高 于 RAID 10 了 。 
这 个 例子 貌似 对 RAID 10 不 公平 ,我们 先 来 看 单一 Segment 的 IO 行为 。 单 个 Segment 写 的 情况 
下 ，RAID 10 之 上 会 产生 两 个 实际 Segment 的 IO， 而 RAID 5 则 对 应 了 两 个 读 和 两 个 写 的 IO， 
比 RAID 10 多 了 两 个 读 。 如 果 是 两 个 Segment 的 IO, 比如 1、2, 则 RAID 10 对 应 了 4 个 写 操作 ， 
RAID 5 此 时 采用 了 读 改 写 , 即 3 个 读 3 个 写 , 比 RAID 10 多 了 3 个 读 , 少 了 一 个 写 。 依 此 类 推 ， 
3 个 IO 情况 下 ，RAID 10 是 6 个 写 ， RAID5 则 是 4 个 读 ，3 个 写 , 比 RAID 10 少 了 3 个 写 , 多 
了 4 个 读 。 至 此 ，RAID 5 已 经 达到 读 改 写 和 重 构 写 持平 态 ，IO 再 多 可 以 实现 重 构 写 ,极端 态 下 
可 以 实现 整 条 写 。 显 然 ， 重 构 写 和 整 条 写 就 比 RAID 10 高 效 多 了 。 

然而 ， 上 述 结果 是 基于 小 范围 的 随机 ， 也 就 是 一 批 IO 很 大 几率 都 分 布 到 同一 个 条 带 中 。 如 
果 上 层 的 随机 IO 离散 度 过 大 以 至 于 分 布 到 同一 个 条 带 的 几率 大 大 降低 ， 此 时 ，RAID 10 的 优势 
凸显 ， 因 为 不 管 IO 离散 度 如 何 ，RAID 10 始终 可 以 并 发 半数 磁盘 数 的 IO。 而 RAID 5 此 时 就 要 
碰 运 气 了 ， 可 并 发 几率 大 大 降低 ， 此 时 RAID 5 性 能 与 RAID 10 相 比 就 差别 比较 大 了 。 

综 上 所 述 ， 相 同情 况 下 ，RAID 5 的 写 操作 总 是 小 于 等 于 RAID 10 写 操 作 ， 而 读 操 作 总 是 
于 RRAID 10， 在 高 度 随 机 写 IO 的 情况 下 ，RAID 5 读 改 写 的 几率 最 大 ， 所 以 相 比 RAID 10 多 出 
了 很 多 读 操作 ; 而 在 随机 性 不 太 高 并 且 并 发 几率 比较 高 的 情况 下 , RAID5 重 构 写 甚至 整 条 写 的 几 
率 大 大 增加 ， 此 时 RAID 5 效率 与 RAID 10 接近 。 加 上 读 操 作 比 写 操作 成 本 和 效率 更 低 ， 而 且 
如 果 考 虑 入 Cache 的 预 读 效果 加 成 , 总 体 来 讲 RAID 5 与 RAID 10 实际 使 用 中 , 在 小 范围 随机 IO 
的 情况 下 效果 差别 不 是 很 大 , 如 果 考 虑 性 价 比 , 首选 RAID 5。 如 果 写 IO 离散 度 过 大 , 此 时 RAID 
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5 性 能 下 降 就 比较 厉害 了 。 优 化 的 控制 嚣 会 平衡 IO Queue 的 大 小 ,Queue 越 大 , 就 有 更 大 的 几率 
优化 成 并 发 IO， 但 是 延迟 和 开销 却 越 大 ;Queue 越 小 ， 优 化 成 并 发 IO 的 几率 越 小 ， 然 而 开销 和 
延迟 就 越 小 。 


24. 磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 


磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 ? 

一 个 RAID 组 中 的 磁盘 数量 越 多 ，IO 性 能 就 越 高 。 当 然 控 制 器 起 到 至 关 重 要 的 作用 ， 有 些 
控制 器 的 硬件 规格 不 能 承受 太 多 磁盘 同时 IO, 总 有 上 限 。 通 常情 况 下 , 一 个 RAID 组 推荐 磁盘 数 
量 为 8~ 14 块 。 磁 盘 太 多 也 有 缺点 ， 比 如 扩展 性 差 ， 因 为 RAID 组 一 旦 创建 完成 就 不 可 以 剔除 其 
中 磁盘 ， 拔 掉 任 何 一 块 磁盘 ， 便 处 于 降级 状态 ， 危 险 增加 ， 必 须 插 入 新 磁盘 来 项 蔡 。 所 以 创建 
RAID 组 是 不 可 逆 过 程 ， 如 果 一 次 就 用 了 太 多 磁盘 ， 今 后 余地 就 很 少 了 ， 尤 其 是 拥有 磁盘 数量 不 
多 的 情况 下 。 还 有 一 个 缺点 ， 就 是 Rebuild 过 程 会 很 长 ，Rebuild 需要 读 出 整个 条 带 的 数据 ， 如 果 
磁盘 数量 太 多 ， 则 Rebuild 时 间 会 严重 增加 ， 系 统 不 堪 重 负 。 


25. 多 主机 共享 LUN 的 问题 


我 们 公司 用 HP-MSA2000 磁盘 柜 存储 8TB 的 数据 ， 有 三 台 Dell 的 1950 服务 器 (操作 系统 为 
Centos ) 访问 这 个 存储 柜 ， 存 取 数 据 。 连 接 方式 是 服务 器 通过 光纤 交换 机 直 连 磁盘 柜 ， 然 后 挂 载 
到 本 地 访问 。 问 题 : 从 其 中 一 台 服 务 器 往 磁盘 柜上 传 文件 ， 这 个 时 候 其 他 服务 器 从 本 地 挂 载 的 硬 
盘 上 看 不 到 刚才 上 传 的 文件 ， 除 非 是 先 印 载 掉 ， 然 后 再 挂 载 才能 看 到 。 这 是 为 什么 呢 ? 另外 这 种 
连接 方式 是 不 是 SAN 呢 ? 

多 主机 共享 同一 个 LUN， 除 非 所 有 主机 上 都 安装 集群 文件 系统 或 者 SAN 共享 仲裁 软件 比如 
SANergy ImageSAN 之 类 ,否则 会 出 问题 。 问 题 的 根源 就 在 于 三 台 主机 上 的 文件 系统 写 入 LUN 的 
信息 不 是 同步 的 ， 而 是 各 有 各 的 缓存 ， 写 入 的 数据 先进 入 缓存 。 而 且 也 没有 锁 机 制 ， 致 使 数据 不 
同步 不 一 致 。 要 达到 你 的 目的 , 多 主机 共享 数据 , 要么 用 NAS 要 么 用 特殊 的 文件 系统 , 但 是 推荐 
用 NAS, 成 熟 , 方便 , 只 不 过 带宽 可 能 满足 不 了 要 求 。SAN 共享 软件 当然 所 有 节点 都 得 装 。 不 知 
道 Reiserfs 本 身 是 否 支持 共享 ， 不 支持 的 话 ， 上 面 已 经 回答 了 。 至 于 DAS 还 是 SAN 的 ， 不 重要 。 

而 这 方面 我 自己 的 定义 是 这 样 的 : 广义 来 讲 ,SAN 指 的 是 存储 网 络 和 其 中 的 所 有 元 素 , 也 就 
是 说 ， 只 要 通过 网 络 来 传输 存储 数据 的 ,都 属于 SAN 范畴 。NAS 也 属于 SAN。FC 直 连 也 应 当 属 
于 SAN, 因为 FC 是 一 个 包 交换 的 现代 网 络 传输 协议 , 不 管 物理 拓扑 上 是 直 连 还 是 通过 交换 设备 ， 
其 协议 本 质 已 经 是 Network。 而 目前 的 存储 架构 中 ， 唯 一 排除 在 SAN 范畴 之 外 的 应 该 是 传统 的 
SCSI 线 缆 、SATA 线 缆 、IDE 线 缆 、USB 、1394 等 访问 方式 。 因 为 它们 不 具备 包 交 换 的 特性 ， 如 
果 硬 说 它们 也 是 网 络 的 话 ( 其 实 就 是 网 络 ) ， 那 么 也 是 一 个 共享 总 线 的 网 络 ， 不 具有 次 世代 网 络 
特征 。 然 而 ， 如 果 从 最 大 的 角度 来 看 ， 目 前 所 有 存储 架构 都 属于 SAN， 从 一 开始 就 属于 SAN。 


26. 如 何 利用 多 以 太 网 链 路 达到 最 大 带宽 的 问题 


环境 描述 : 服务 器 端 安装 了 多 路 软件 , iSCSI 磁盘 阵列 只 有 一 个 LUN 分 区 , 控制 器 上 面 有 4 个 
iSCSI 主机 接口 。 假 设 此 款 磁 盘 阵 列 的 每 个 主机 接口 只 有 100MB 的 带宽 ,连接 到 千 兆 交换 机 , 此 款 
交换 机 支持 链 路 聚合 功能 , 即 Port Trunking。 即 把 四 条 百 兆 链 路 聚合 成 一 条 总 共 400MB 带宽 的 链 
路 。 磁盘 阵列 的 这 个 分 区 根据 四 个 端口 都 映射 给 了 服务 器 ， 即 服务 器 在 没有 配置 多 路 径 软 件 时 可 


附录 1 存储 系统 问 与 答 精 华 集锦 @ 


以 看 到 四 个 完全 一 样 的 分 区 。 使 用 了 多 路 径 软 件 之 后 ， 系 统 只 有 一 个 分 区 ， 即 任何 一 条 链 路 出 现 
故障 ， 不 影响 对 磁盘 阵列 的 正常 读 写 。 问题: 

(1) 服务 器 向 磁盘 阵列 读 写 数据 时 ， 是 否 能 够 通过 链 路 聚合 而 达到 400MB 的 带宽 ? 

(2 ) 多 路 径 软 件 只 认可 一 条 链 路 ， 主 要 功能 是 容错 ， 然 而 ， 是 否 在 读 写 时 只 使 用 一 条 链 路 把 
数据 写 入 磁盘 阵列 呢 ? 假设 此 磁盘 阵列 本 身 不 支持 链 路 聚合 的 功能 。 如 果 支 持 链 路 聚合 功能 的 
话 ， 直 接 在 磁盘 阵列 把 四 个 主机 接口 绑 定 成 一 条 链 路 ， 那 什么 问题 都 解决 了 。 

第 一 个 问题 : 这 种 情况 ， 只 有 在 同时 满足 下 列 几 个 条 件 的 情况 下 ， 才 能 达到 400MB/s。 

”多 路 径 软 件 支持 多 路 径 并 发 。 

， ，” 盘 阵 端的 每 个 以 太 口 必 须 都 设计 为 独 享 带 宽 ， 不 允许 有 任何 一 个 与 其 他 端口 共享 带宽 ， 

也 就 是 不 允许 两 个 或 者 几 个 端口 在 一 个 HUB 上 。 我 说 的 带宽 是 说 盘 阵 内 部 背 板 上 的 带 
宽 ， 而 不 是 说 外 部 的 交换 机 或 者 HUB。 

= 客户 端的 IO 类 型 ， 随 机 小 Size 的 IO ， 达 到 400MB 不 可 能 。 需 要 连续 大 块 的 并 发 IO。 

= 后 端 前 端 中 部 总 线 以 及 处 理 能 力 均 满 足 400MB/s 的 需求 。 

值得 一 提 的 是 ， 利 用 多 路 径 达到 的 聚合 ， 是 原生 的 ， 不 需要 盘 阵 “支持 ”， 但 是 盘 阵 一 定 要 
支持 同时 向 多 个 前 端口 映射 这 个 LUN。 

第 二 个 问题 : 多 路 径 软件 一 般 是 支持 多 路 径 并 发 的 ， 不 过 效率 很 少 有 满载 的 。 可 以 单 Active 
也 可 以 多 Active。 单 Active, 最 大 带宽 只 能 是 100m。 多 Active，, 带宽 恐怕 也 达 不 到 400m, 理论 值 
而 已 ， 实 际 上 很 难 达到 。 

多 路 均衡 在 OSI 的 多 个 层次 上 均 可 实现 。 

链 路 层 : Nic Teaming，Trunking/Channelling。 

网 络 层 : 根据 IP 地 址 和 MAC 地 址 的 均衡 。 

传输 层 : 用 Multi TCP Connection 进行 均衡 ， 每 个 TCP 连接 使 用 单独 的 也 和 网 卡 出 去 ， 达 
到 对 端 虽然 是 不 同 的 IP 和 网 卡 , 但 是 上 层 给 屏蔽 掉 了 。 一 个 例子 就 是 iSCSI 中 的 Multi Connection 
Per Session 

应 用 层 : 利用 多 路 径 软件 进行 均衡 。 

所 以 说 ， 达 到 多 少 带宽 ， 使 用 什么 方法 ,在 哪 一 层 实现 ， 都 会 对 结果 产生 影响 ， 而 所 有 这 些 
方法 的 本 质 皆 相 同 。 


27. 关于 LUN 切换 的 问题 


大 家 好 ， 我 有 一 个 问题 向 大 家 请 教 。 环 境 是 : 一 台 双 控 磁盘 阵列 ， 分 别 直 连 两 台 服务 器 ， 有 
两 个 疑问 是 : 

(1) 正常 是 应 该 用 A 控 管理 LUN1，B 控 管 理 LUN2， 但 我 划分 LUN 的 时 候 把 LUN1 分 配给 了 B 
控 ， 结 果 也 能 在 服务 器 上 看 见 LUN1， 请 问 这 种 情况 正常 么 ? 

(2 ) 我 按 正常 分 配 A 控 管理 LUN1，B 控 管理 LUN2 ， 如 果 A 控制 器 坏 了 ， 是 不 是 B 控 能 自动 
接管 LUN1? 这 种 情况 还 用 在 服务 器 上 装 多 路 径 软 件 么 ? 

脱离 了 实际 设备 , 这 个 问题 就 没有 确切 答案 。 有 的 在 盘 阵 端 支持 LUN 切换 到 活着 的 控制 器 ， 
而 主机 端 不 需要 切换 ， 当 然 主 机 端 需要 有 其 他 程序 来 控制 这 种 行为 。 有 的 则 全 靠 主 机 端 多 路 径 软 
件 ， 所 有 控制 器 都 可 以 映射 所 有 LUN， 具 体 问题 具体 分 析 。 
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28. 关于 星 形 拓扑 、FC 拓扑 的 问题 


我 记得 你 的 书 里 面 有 提 到 光纤 的 星 状 拓扑 ， 不 知道 和 HDS 高 端 产品 的 Hi-Star 光纤 交换 ， 还 
有 EMC 高 端的 光纤 矩阵 是 什么 关系 。 搞 混 了 擒 不 清楚 ， 麻 烦请 教 下 。 

FC 拓扑 中 的 星 型 拓扑 ， 和 盘 阵 控制 器 内 部 CPU 内 存 外 设 之 间 的 拓扑 ， 好像 是 两 码 事 吧 …… 
我 一 再 强调 不 要 再 用 什么 “光纤 硬盘 ”什么 “光纤 交换 机 ”了 ， 这 里 又 来 了 个 “光纤 和 矩阵”， 本 
来 已 经 很 不 容易 入 门 ， 如 果 再 搅 浑 水 ,会 误导 很 多 人 ,甚至 自己 都 糊涂 了 。HDS 高 端 存储 内 部 控 
制 器 总 线 类 型 多 少年 未 变 , 全 部 使 用 Crossbar 交换 矩阵 芯片 ， 高 成 本 高 性 能 。EMC 的 高 端 存储 内 
部 总 线 架构 则 使 用 点 对 点 直 连 结构 ， 非 Crossbar 交换 矩阵 。 


29. 一 些 专业 术语 的 理解 


小 弟 刚 接触 存储 设备 ， 一 次 面试 过 程 中 不 知道 以 下 这 些 专 业 术 语 是 什么 意思 ， 请 知道 的 兄弟 
们 解释 下 ， 谢 谢 ! 快照 代理 ， 虚 拟 快 照 ， 分 裂 镜像 。 

快照 代理 : 泛 指 安装 于 OS 中 的 一 个 程序 ,可 以 与 FS 或 者 应 用 发 生 交互 作用 ， 使 得 Snapshot 
开始 之 前 FS 缓存 中 的 内 容 被 写 入 硬盘 或 者 应 用 层 触 发 一 系列 动作 ,让 FS 和 应 用 程序 产生 一 致 点 ， 
避免 恢复 Snapshot 后 不 必要 的 fck 过 程 和 应 用 级 恢复 过 程 。 

虚拟 快照 ， 不 懂 。 你 可 以 反问 他 这 是 谁 家 的 定义 。 

分 裂 镜像 : 对 某 份 数据 做 同步 镜像 ， 空 间 双 倍 占 用 ， 当 需要 这 份 数据 某 时 刻 的 Snapshot 的 时 

候 ，Freez IO ， 然 后 解除 镜像 关系 ， 脱 离开 的 镜像 就 是 这 份 数据 此 刻 的 一 份 Snapshot。 这 时 你 可 
以 回答 , 嗯 ,这 么 看 来 , 分裂 镜像 产生 的 Snapshot 是 实 Snapshot， 而 通过 复制 MetaData Tree 产生 
的 Snapshot 就 是 虚 Snapshot， 或 者 就 是 上 文中 的 所 谓 “ 虚 拟 快 照 ” 吧 。 


30. RAID 5 的 读 写 步骤 


RAID 5 的 读 写 步骤 是 怎样 的 ? 

这 个 Imternet 上 都 可 以 搜索 到 的 。 分 4 个 步骤 的 是 写 ， 而 且 写 也 是 分 情况 的 ， 不 一 定 都 是 4 
步 。 随 机 写 的 情况 下 ， 写 惩罚 严重 ， 先 读 出 被 覆盖 的 数据 和 Parity 数据 ， 然 后 用 待 写 的 数据 和 被 
覆盖 的 数据 计算 新 Parity， 然 后 写 入 新 数据 和 Parity。 就 是 这 样 。 


31. SAN 共享 问题 


有 个 问题 ， 书 中 说 到 NAS 可 以 提供 同时 对 同一 个 目录 或 文件 夹 的 访问 ， 而 如 果 是 SAN 网 络 ， 
如 果 共 享 同一 存储 空间 , 需要 借助 软件 。 如 果 把 SAN 后 端 存储 中 设置 为 只 一 个 人 可 写 , 其 他 只 读 ， 
不 是 也 称 之 为 多 台 客 户 端 在 一 台 存 储 中 共享 访问 么 ? (当然 了 ， 虽 然 具 体 的 访问 模式 不 一 样 。 ) 

一 写 多 读 理论 上 是 可 以 的 ， 不 过 需要 在 特定 情况 下 。 比 如 所 有 客户 端 统一 使 用 Direct 
IO+Write Through 模式 对 目标 进行 IO, 但 是 DIO+WT 模式 并 不 能 保证 客户 端 缓存 的 文件 
Metadata 也 同步 被 写 入 磁盘 ， 如 果 目 标 文件 的 Metadata 对 程序 没有 什么 影响 的 话 ， 那 么 这 种 方式 
是 可 以 满足 要 求 的 。 但 是 现实 中 很 少 这 么 实现 的 ， 因 为 大 多 数 情 况 都 是 多 写 多 读 的 ， 只 不 只 读 是 
应 用 的 事情 了 。 如 果 不 使 用 DIO 和 WT 模式 ， 就 算 用 只 读 mount, 对 方 写 入 之 后 , 我 方 也 不 能 得 
到 最 新 的 数据 ， 除 非 等 下 一 次 FS 从 磁盘 提取 最 新 的 inode tree 到 buffer， 这 样 会 造成 不 一 致 的 。 
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如 果 写 方 和 读 方 之 间 有 其 他 上 层 关键 业 务 逻 辑 ， 数 据 不 同步 造成 的 后 果 可 能 是 极其 严重 的 。 
32. 如 何 判 断 造 成 邮件 队列 堵塞 的 原因 ? 


这 是 我 上 网 看 到 的 一 个 方案 根据 作者 列 出 的 4 点 可 能 造成 邮件 队列 堵塞 的 现象 ， 感 觉 不 是 
一 个 NAS 就 可 以 解决 这 四 个 问题 ， 方 案 如 下 。 

1) 用 户 现状 

某 ISP 信息 网 原 邮 件 服务 器 采用 某 公 司 小 型 机 及 其 磁盘 阵列 组 , 邮件 服务 器 每 日 处 理 邮件 能 
力 不 足 3000 封 ， 每 日 早晨 上 班 和 下 午 下 班 使 用 邮件 高 峰 都 会 出 现 发送 邮 件 队列 堵塞 。 

2 ) 需求 分 析 

造成 邮件 队列 堵塞 的 现象 可 能 因为 : 

(1) 小 型 机 无 法 同时 响应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 

(2) UNIX 系统 的 文件 管理 服务 在 文件 读 写 操作 过 程 中 ， 占 用 I/0 资源 无 法 释放 ， 小 型 机 处 
理 并 发 I/0 进程 的 能 力 有 限 。 

(3) 即使 网 络 带宽 充足 ， 几 千 封 邮 件 排队 等 待 处 理 ， 也 会 造成 堵塞 现象 。 

(4) 另外 ， 网 络 带宽 不 够 ， 还 可 能 造成 数据 在 网 络 传输 中 的 读 写 瓶颈 。 

3 ) 系统 设计 

购买 一 台 NAS 存储 设备 作为 原 服务 器 的 数据 存储 设备 , 将 原 服务 器 中 的 电子 邮件 数据 全 部 转 
移 到 该 设备 上 ， 保 持原 服务 器 继续 作为 电子 邮件 服务 的 应 用 服务 器 。 此 时 ， 一 切 问题 迎刃而解 。 

原作 者 的 方案 点 评 : 

NAS 产品 采用 了 专用 技术 优化 了 文件 访问 的 I/0 效率 问题 ,提供 了 比较 理想 的 文件 访问 能 力 。 
尤其 是 Veritas NAS 解决 方案 还 提供 了 容 灾 和 故障 管理 能 力 ， 使 得 NAS 技术 也 可 以 成 为 容 灾 系统 
的 组 成 部 分 。 

个 人 理解 : 

(1 ) 如 果 原 来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 器 中 的 电子 邮件 数据 全 部 转移 
到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 只 能 用 于 其 他 需求 了 ? 

(2 ) 保持 原 服务 器 继续 作为 电子 邮件 服务 的 应 用 服务 器 。 (这 里 的 服务 器 应 该 不 是 前 面 说 的 
小 型 机 吧 (会 拿 小 型 机 做 服务 器 吗 ) ? 如 果 不 是 ， 购 买 NAS 后 ，NAS 是 不 是 取代 的 是 原 有 的 磁盘 
阵列 呢 ? ) 

(3 ) 优化 了 文件 访问 的 I/0 效率 问题 ， 提 供 了 比较 理想 的 文件 访问 能 力 。 (小 型 机 配置 没有 
提升 ， 只 是 买 了 台 NAS， 这 样 小 型 机 就 可 以 同时 响应 来 自 NAS 上 的 邮件 分 发 工作 了 吗 ? 这 么 说 原 
来 的 颈 瓶 不 就 是 出 于 原来 的 磁盘 阵列 不 能 提供 一 个 好 的 文件 访问 能 力 了 吗 ?可 作者 说 的 是 小 型 机 
无 法 同时 响应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 怎 么 感觉 是 小 型 机 性 能 跟 不 上 呢 ? ) 

(4) 网 络 带宽 不 够 (增加 一 台 NAS 带宽 就 够 用 了 吗 ? ) 

太 多 不 理解 了 ， 和 希望 各 位 不 要 见笑 ， 新 人 阶段 ， 各 位 能 解析 下 吗 ? 

(1) 如 果 原来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 器 中 的 电子 邮件 数据 全 部 转移 
到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 只 能 用 于 其 他 需求 了 ? 

可 以 将 数据 文件 分 别 放 在 原来 的 阵列 和 NAS 中 ,平衡 负载 。 
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(2 ) 当然 还 是 原来 的 机 器 。 不 拿 小 型 机 做 服务 器 难道 用 笔记 本 做 ? 

(3 ) 这 个 方案 ,一 点 根本 的 调查 分 析 都 没 做 ， 只 是 给 出 了 几 个 猜测 ， 也 都 在 理 ， 其 实 只 要 在 
小 型 机 上 用 各 种 命令 查看 输出 ， 就 能 初步 推断 到 底 瓶颈 出 在 哪里 。 一 点 确切 结论 都 没有 ， 把 所 有 
可 能 摆 上 了 ， 然 后 就 说 换 NAS。 他 也 没 提 到 以 前 的 到 底 还 用 不 用 ,新 NAS 是 分 担负 载 还 是 全 盘 
替换 过 来 。 而 且 , 就算 换 了 NAS, 也 不 一 定 会 有 改善 , 也 得 看 NAS 的 规格 、 后 端 带宽 和 IO 需求 。 

(4 ) 他 说 的 是 前 端 带宽 也 许 不 够 ， 都 是 推测 。 后 端 存 储 带 宽 他 没有 调查 ， 不 明确 。 


33. 随机 和 连续 IO 的 问题 


随机 (random) 和 连续 (sequential ) 读 写 的 区 别 ， 是 对 Volume 来 说 连续 的 读 写 还 是 对 物 
理 硬盘 来 说 连续 的 读 写 ? 

是 哪个 层面 的 “磁盘 ”, 物理 磁盘 么 ? 一 般 来 讲 就 是 根据 一 定 算法 , 比如 前 几 个 是 连续 地 址 ， 
后 来 这 个 差 太 大 了 ， 就 算 random 了 。 至 于 哪个 层次 上 的 ， 哪 个 层次 都 有 。 但 是 最 终 影响 性 能 的 
还 是 要 看 最 底层 也 就 是 物理 磁盘 ， 因 为 最 终 是 磁头 臂 的 寻 道 影 响 了 性 能 。 有 意义 的 就 是 最 终 物 理 
上 的 地 址 。 关 于 各 种 IO 属性 的 总 结 和 联系 ， 请 阅读 《大 话 存储 》 相 关 章 节 。 


34. 负载 均衡 的 方法 


有 一 个 SAN 环境 ， 有 几 台 存储 管理 服务 器 ， 现 在 想 实 现 I0 负载 均衡 ， 就 是 几 台 服务 器 用 一 
个 虚拟 IP 给 用 户 ， 用 户 有 数据 I0 时， 自动 找到 I0 负载 较 小 的 服务 器 ， 有 些 类 似 于 LVS 的 思想 。 
不 知道 有 没有 实现 这 个 想法 的 软件 或 方法 。 

LVS 不 就 是 么 ? 硬件 比如 F5、Packteer 之 类 的 。 都 是 基于 TCP 及 以 上 层次 的 ， 高 级 点 的 可 
能 还 会 识别 应 用 层 内 容 来 均衡 。 如 果 你 的 意思 是 说 仅仅 均衡 存储 的 Block IO， 比 如 用 一 个 前 端 设 
备 接收 主机 IO, 然后 后 端 向 多 个 存储 设备 分 发 负载 , 这 种 思想 是 存在 的 。 但 是 这 种 物理 拓扑 目前 
是 不 存在 的 ， 真正 体现 这 种 思想 的 拓扑 是 存储 集群 ， 比 如 NAS 集群 ， 集 群 中 并 没有 一 个 前 端 
Gateway 设备 ,而 是 多 个 节点 共同 提供 访问 。 它们 有 一 个 虚拟 IP 地 址 用 于 接受 前 端 IO, 而 且 负载 
均衡 并 不 是 随机 分 发 ， 而 是 按照 预先 设 定好 的 目录 来 判断 对 应 数据 IO 应 分 发 给 哪个 存储 设备 。 
数据 一 旦 存储 之 后 ,是 一 直 都 在 固定 的 地 方 的 ， 当 然 一 些 带 有 Tier 数据 迁移 功能 的 设备 除外 , 不 
管 是 否 带 有 迁移 功能 ， 数 据 被 写 入 后 ， 绝 不 是 可 以 随机 乱 跑 的 ， 所 以 要 做 到 IO 随机 分 发 是 不 可 
能 的 。 随 机 分 发 方式 的 负载 均衡 只 能 在 相对 上 层 来 做 ， 将 所 有 数据 人 工分 目录 分 类 按照 访问 频 度 
和 要 求 存放 在 多 个 后 端 存储 设备 上 来 达到 人 工 的 均衡 。 


35. 单个 目录 下 的 文件 数量 和 性 能 问题 


为 什么 单 目录 下 子 文件 过 多 会 影响 性 能 ? 如 1 个 目录 下 有 10000 个 子 文件 , 那么 读 取 某 个 文 
件 的 速度 将 会 明显 慢 下 来 ， 这 和 文件 索引 有 关 吗 ? 索引 中 如 何 组 织 这 些 节点 ? 谢谢 大 家 帮忙 。 

是 的 ， 与 索引 有 关 。1 万 个 不 算 多 。 上 百 万 个 就 看 出 来 了 。 

上 百 万 个 慢 是 文件 系统 整体 吧 ， 那 么 和 当前 目录 怎么 关系 上 呢 ? 

一 个 差不多 的 文件 系统 支持 几 百 万 个 文件 不 算 什么 。 我 是 说 一 个 目录 下 , 不 分 子 目 录 , 直接 
放 它 几 十 万 上 百 万 的 文件 ， 此 时 检索 这 个 目录 索引 很 费 资源 。 支 持 数量 有 限 是 因为 目录 这 个 对 象 
本 身 容纳 的 大 小 有 限制 ， 目 录 就 是 一 个 容纳 文件 名 和 文件 对 应 inode 号 的 容器 ,被 限制 了 ， 那 么 
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容纳 的 条 目 也 就 被 限制 了 。 读 取 某 个 文件 速度 没 影响 。 但 是 查找 就 费劲 了 。 某 些 文件 系统 的 索引 
机 制 不 完善 ， 甚 至 没有 什么 优化 算法 ， 致 使 每 次 查找 耗费 更 多 的 时 间 。 


36. Spare 的 数量 与 风险 的 关系 


一 个 DS 3200， 打 算 建 一 个 RAID 5， 本 来 设 2 块 hot spare 的 。 后 来 由 于 容量 限制 ， 想 改 成 
一 块 ， 这 样 会 增加 风险 吗 ? 

2 块 是 为 了 防止 Rebuild 结束 之 后 过 一 段 时 间 又 坏 了 一 块 ， 能 坏 第 一 块 就 证 明 其 他 的 也 离 坏 
不 远 了 。2 块 同时 坏 的 几率 是 比 一 块 小 。 一 旦 某 条 件 达成 ， 坏 的 就 不 只 是 2 块 了 ,说 不 定 坏 一 批 
或 者 HBA 问题 直接 Loop 上 的 全 不 认 ， 真 这 样 的 话 ， 多 少 块 spare 也 没 用 ， 一块 就 够 了 。 所 以 需 
要 综合 考虑 。 


37. 接口 带宽 与 磁盘 传输 率 的 关系 


1000M 带宽 满 跑 流量 是 多 少 ?SCSI 硬盘 的 最 大 传 流量 是 多 少 ? 在 不 考虑 其 他 因素 的 情况 下 . 当 
两 者 满 跑 的 时 候 ， 谁 先 成 为 瓶颈 ? 

1Gb 的 跑 满 是 120MB ( 包含 协议 开销 ) 。iSCSI 硬盘 ,没有 这 种 硬盘 。 有 iSCSI 盘 阵 ， 多 块 
盘 一 起 做 成 LUN， 这 样 的 话 ， 大 块 连续 IO 瓶颈 在 网 络 ， 小 块 随机 IO 瓶颈 在 磁盘 ， 不 过 也 得 具 
体 分 析 ， 与 磁盘 数量 ， 控 制 器 等 都 有 关 。 理 想 状况 下 100 ~ 110MBA 是 没 问题 的 。 


38. Page Cache 作 崇 


有 一 个 卷 lv1， 块 大 小 为 4KB。 此 时 我 用 dd 做 写 测 试 ，dd if=/dev/zero of=lvl bs=4k， 当 
测试 的 bs 为 4KB 时 ， 数 据 正常 。 当 把 bs 的 值 减 小 到 4KB 以 下 ， 发 现 读 和 写 都 有 数据 ， 而 且 流 量 
相当 ， 不 知道 是 为 什么 。 也 就 是 ， 不 理解 当 测试 的 块 大 小 “小 于 ” 卷 的 块 大 小 时 ， 就 会 产生 读 的 
数据 。 

呼 呼 ， 正 常 现象 了 。lvl 是 块 设备 ， 你 用 的 什么 os? 块 设备 你 对 它 写 小 于 4KB 的 数据 ， 它 要 
先 读 出 来 ， 然 后 写 进 去 。 用 裸 设 备 就 不 会 出 现 这 种 情况 ,1KB、512B 都 可 以 。Page Cache 在 作 尝 。 


39. 关于 标 称 带 宽 与 实际 带宽 的 问题 


简单 的 说 ，DS 4700 的 机 器 用 两 个 FC 4Gbps 的 接口 ， 怎 么 样 才 能 让 它 可 以 提供 8Gbps 的 主 
机 连接 带宽 ? 

估计 很 难 达到 。4700 标 称 后 端 带宽 没 记 错 的 话 是 1.6GB/s， 而 且 实 际 中 一 半 估 计 都 达 不 到 ， 
0.83GB/s 不 可 能 达到 的 。 


40. 卷 共 享 的 问题 


A 机 和 B 机 都 接 在 SAN 上 面 ， 操 作 系统 是 Redhat Linux AS 4. 5; 存储 是 卫 的 设备 。 在 A 机 
上 写 的 文件 ， 在 B 机 上 不 能 访问 ， 请 问 有 无 解决 办 法 ? 需要 在 磁盘 阵列 上 做 什么 设置 么 ? 谢谢 。 

共享 同一 个 卷 ， 请 小 心 ， 弄 不 好 就 数据 损毁 ， 得 用 集群 文件 系统 ， 例 如 Stomext， 或 者 集群 
卷 软件 Sanergy 之 类 。 还 有 一 个 野蛮 办 法 ， 使 用 DIO+WT 模式 ， 不 过 只 能 保证 弱 一 致 性 。 


937 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


41. Proactive Copy 与 Rebuild 的 关系 


热 备 盘 的 前 摄 性 模式 和 重建 模式 什么 区 别 ? 
可 能 这 就 是 英文 Proactive 吧 。 一旦 发 现 哪 块 盘 不 对 劲 ，Prefail， 复制 数据 ， 盘 对 盘 ， 而 不 是 
Rebuild， 这 样 速度 快 很 多 ， 性 能 受 影响 也 很 小 。 


42. Loss of Sync 的 含义 


Loss of sync 过 高 意味 着 什么 ? 
意味 着 物理 层 两 端 时 钟 或 者 接口 接触 等 方面 有 问题 。 这 种 是 可 以 自行 恢复 的 ， 恢 复 不 了 就 是 
link Bil 了 。 


43. 数据 删除 之 后 如 何 恢复 ? 


一 块 SCSI 366B 硬盘 ， 作 为 SYBASE 12. 5 数据 库 的 数据 文件 设备 ， 最 近 出 现 读 写 错误 ， 估 计 
是 硬盘 有 坏 块 ， 做 了 FSCK 后 问题 依旧 ， 数 据 文件 无 法 备份 也 无 法 复制 ， 昨 天 一 哥们 来 通过 数据 
库 倒 数据 ， 结 果 误 操作 ， 把 原来 数据 的 表 全 部 删除 后 ， 又 重新 创建 ， 我 现在 都 只 了 ， 大 侠 们 看 看 


能 恢复 到 误 操作 前 的 数据 状态 吗 ? 
得 找 数据 恢复 公司 了 。 重新 创建 的 , 往 里 填 数 据 了 么 ? 没 填 的 话 可 能 只 是 hole, 还 有 希望 恢复 的 。 
44. FC 阵列 是 否 可 以 直 连 的 问题 
FC 磁盘 阵列 是 否 可 以 直 连 ? 
可 以 直 连 ,只 能 以 FCAL 模式 直 连 了 。 因 为 用 交换 机 的 情况 下 ,各 个 节点 都 是 N 端口 ,都 需 


要 进行 Flogin 等 一 系列 FC 逻辑 ， 直 连 情 况 下 ， 如 果 两 端 都 还 是 N 端口 ， 则 无 人 会 响应 Flogin。 
FCAL 则 是 各 个 节点 自 初始 化 自选 举 自 仲裁 的 ， 所 以 可 以 直 连 。 


45. RAID 3 的 IO 问题 


RAID 3 每 进行 一 笔 数据 传输 ， 都 要 更 新 整个 Stripe， 即 每 一 个 成 员 磁 盘 驱 动 器 相对 位 置 的 
数据 都 一 起 更 新 , 因此 不 会 发 生 需 要 把 部 分 磁盘 驱动 器 现 有 的 数据 读 出 来 , 与 新 数据 做 XOR 运算 ， 
再 写 入 的 情况 。 这 种 情况 在 RAID 4 和 RAID 6 中 会 发 生 ， 称 之 为 Read、Modify、Write Process， 
即 读 、 改 、 写 过 程 。 因此， 在 所 有 的 RAID 级 别 中 ，RAID 3 的 顺序 写 入 性 能 是 最 好 的 。 怎 么 理解 ? 

RAID 3 任何 情况 下 都 保持 整 条 写 ， 解 释 完了 。 其 实 上 面 已 经 解释 的 很 清楚 了 ， 不 理解 的 话 
表明 对 更 加 基本 的 一 些 底层 概念 还 没有 理解 ， 所 以 请 再 阅读 4 大 话 存储 》。 


46. 脑 分 裂 是 怎么 回 事 ? 


谁 能 帮 我 解释 下 到 底 Split-brain 即 脑 裂 是 怎么 一 回 事 ? 

就 是 说 , 本 来 一 个 大 脑 的 两 半球 互相 配合 , 变 成 了 分 裂 成 两 个 独立 的 大 脑 , 都 认为 对 方 已 死 。 
此 时 ， 双 方 都 尝试 接管 集群 资源 ， 造 成 冲突 ,后 果 严 重 。 解 决 办 法 : 使 用 Vote 磁盘 仲裁 , 利用 对 
特定 数量 的 磁盘 放置 SCSI reservation 的 方式 来 决定 谁 最 终 掌 管 集群 资源 ,或 者 ， 最 极端 的 
Powerfence， 谁 抢先 关 掉 对 方 的 电源 谁 就 获胜 。 
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47. 硬盘 的 Block 与 Extent 的 区 别 


硬盘 中 block 和 extent 有 何 区 别 ? 

这 些 名 词 都 请 参阅 具体 厂家 的 定义 。 硬 盘 上 只 有 sector,， 还 有 track。Cylinder 也 是 由 track 组 
成 的 一 个 逻辑 定义 。 其 他 什么 都 没有 。 再 往 上 的 都 是 逻辑 结构 ,并 非 物 理 结构 ,牵扯 到 逻辑 结构 ， 
那 就 和 定义 者 有 关 了 。 


48. 一 些 IO 测试 结果 的 分 析 


先 介绍 一 下 大 概 情况 : 阵列 是 EMC 的 CX-310， 全 光纤 盘 ， 与 主机 连接 用 的 是 46B 的 光纤 通道 
卡 ， 做 的 RAID 5。 机 器 是 IBM System x3650 (7979B9C ) 。 服 务 器 的 硬盘 是 SAS 盘 。 操 作 系统 是 
Centos5.2， 文 件 系统 是 ext3。 下 边 是 用 dd 测 出 来 的 速度 (偶尔 会 更 低 ) : sda 是 本 机 sas 盘 。 

sda 

写 

dd if=/dev/zero of=/appl/test/dd.1og 

# dd if=/dev/zero of=/appl/test/dd.1og 

1975913+0 records in 


1975912+0 Tecords out 

1011666944 bytes (1.0 GB) copied, 15.0658 seconds, 67.1 MB/s 
读 

dd if=/appl/test/dd.1og of=/dev/null 

# dd if=/appl/test/dd.1og of=/dev/null 

1975912+0 records in 

1975912+0 records out 

1011666944 bytes (1.0 GB) copied, 6.53719 seconds, 155 MB/s 
读 写 

dq if=/appl/test/dd.1og of=/appl/test/dd2.1og 

# dd if=/appl/test/dd.1og of=/appl/test/dd2.1og 

1975912+0 records in 

19759124+0 records. out 

1011666944 bytes (1.0 GB) copied, 17.1978 seconds, 58.8 MB/s 
十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 
阵列 

/home/sakai/mount/bak 

写 

dq if=/dev/zero of=/home/sakai/mount/bak/dd.1og 

# dd if=/dev/zero of=/home/sakai/mount/bak/dd.1o0g 

3544417+0 records in 


939 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


940 


3544417+0 records out 

1814741504 bytes (1.8 GB) copied, 24.3567 seconds, 74.5 MB/s 

读 

dd if=/home/sakai/mount/bak/dd.1og of=/dev/null 

# dd if=/home/sakai/mount/bak/dd.1og of=/dev/null 

3544417+0 records in 

3544417+0 records out 

1814741504 bytes (1.8 GB) copied, 11.9376 seconds, 152 MB/s 

读 写 

dd if=/home/sakai/mount/bak/dd.10g of=/home/sakai/mount/bak/dd2.1o0g 

# dd if=/home/sakai/mount/bak/dd.10g of=/home/sakai/mount/bak/dd2.10g 

3544417+0 records in 

3544417+0 records out 

1814741504 bytes (1.8 GB) copied, 26.4129 seconds, 68.7 MB/s 

569MB 速度 显然 是 Cache 速度 ， 既 然 读 入 的 是 FS 文件 ， 那 么 显然 FS 缓存 在 作 崇 。umount 
然后 mount ( 或 者 # echo 3 > /proc/sys/vm/drop_Caches ) ， 然 后 再 测试 你 就 会 发 现 根本 没有 500 
多 MB。 至 于 155MBA 的 速度 ， 与 很 多 因素 有 关 ， 如 IO 调用 方式 、IO Size 等 。centos 不 熟悉 。 
dd 在 Linux 下 一 般 都 是 sync 同步 IO 调用 , 每 次 IO Size = 4KB， 此 时 除非 同时 运行 多 个 dd， 否 则 
只 一 个 dd，155MB 速度 也 算是 不 错 了 ! 

df 查看 的 是 文件 系统 使 用 率 ， 磁 盘 使 用 率 如 何 获 取 呢 ?大 家 谈 谈 思 路 也 行 ， 谢 谢 。 

这 是 个 匪夷所思 的 问题 。 如 果 拿 一 块 细 新 的 磁盘 ， 你 可 以 说 它 使 用 率 是 0, 一 旦 使 用 了 一 段 
时 间 ， 就 不 好 说 了 。 只 有 其 上 “有 用 ”的 区 域 ， 才 能 算是 使 用 率 ， 如 何 计算 “有 用 ”的 区 域 呢 ? 

文件 系统 之 外 的 有 两 部 分 : 操作 系统 其 他 逻辑 层 比 如 VM, 在 disk 上 写 的 数据 ; 磁盘 控制 器 比 
如 RAID 控制 器 在 磁盘 某 些 区 域 写 入 的 数据 ， 这 些 也 算 “ 有 用 ”的 ,但 是 不 能 通过 FS 来 查看 了 。 

这 个 问题 脱离 了 上 层 的 卷 管 理 软件 或 者 文件 系统 ， 是 没有 意义 的 。 磁 盘 本 身 并 不 知道 自己 身 
上 哪些 是 正在 被 使 用 的 , 哪些 是 没 用 的 。“ 有 用 ”和 “ 没 用 ”是 FS 或 者 VM 管理 的 , VM 用 磁盘 ， 
FS 用 VM, 应 用 程序 用 ES， 人 用 应 用 程序 ,如果 人 说 一 句 ， 这 些 数据 都 没 用 了 , 扔 了 吧 ， 那 么 不 
就 是 都 没 用 了 么 ?顺便 说 一 句 ,FS 里 面 都 有 bitmap 来 记录 对 应 存储 空间 上 的 每 个 扇 区 或 者 簇 区 是 
否 被 基文 件 占用 ， 占 用 则 有 用 ， 未 占用 则 没 用 ， 也 就 是 空闲 。 空 闲 的 扇 区 不 一 定 里 面 都 是 0， 可 
能 是 原来 数据 的 Zombie， 这 个 请 阅读 4 大话 存 储 》 相 关 章 节 。 其 他 的 OS 不 谈 , 在 AIX 里 面 应 用 
能 使 用 多 少 硬盘 空间 在 lspv 里 面 可 以 看 到 ( Free PPs+Used PPs=Total PPs ) 。Free PPs 是 还 可 以 使 
用 的 空间 , 而 Total PPs 就 是 总 空间 。 这 个 总 空间 肯定 比 磁盘 的 裸 空间 要 小 , 但 通常 相差 不 是 很 大 ， 
通常 就 是 相差 一 个 PP 的 大 小 。 所 以 我 说 如 果 不 严格 要 求 的 话 可 以 近似 用 lspv 来 看 。 不 过 如 果 你 
说 的 是 磁盘 阵列 上 物理 磁盘 的 利用 率 ， 那 我 们 说 的 就 不 是 一 回 事 了 。 说 白 了 ，VM 就 是 个 粗 线 条 
的 ES。 最 终 知道 使 用 率 的 ， 除 了 FS 就 是 VM， 最 终 物 理 Disk， 没 法 知道 。 
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49. NAS 控制 器 和 服务 器 的 区 别 


存储 设备 是 通过 NAS 控制 器 挂 到 网 络 上 的 ，NAS 控制 器 也 被 称 为 瘦 服 务 器 ， 实 践 方面 接触 的 
比较 少 ， 谁 知道 这 个 NAS 控制 器 的 具体 结构 请 介绍 一 下 ， 主 要 是 和 一 般 的 服务 器 的 区 别 ( 从 结构 
上 谈 ， 功 能 上 网 上 搜 的 到 ) 。 如 果 可 以 ， 其 他 方面 的 也 谈 一 下 ， 比 如 具体 的 工作 流程 。 

NAS 就 是 一 个 提供 文件 服务 的 设备 ， 后 端 既 可 以 使 用 自己 本 地 硬盘 ， 也 可 以 连接 到 SAN 设 
备 上 拿 硬盘 。 之 后 上 面 加 一 些 虚拟 化 的 层 ， 比 如 Volume、LUN， 然 后 必须 再 添加 一 层 本 地 文件 
系统 层 ， 最 终 一 层 必须 是 网 络 文件 系统 ， 比 如 CIFS、NFS 等 。 就 是 这 么 个 架构 。 


50. 关于 RAID 信息 是 否 写 盘 的 问题 


我 知道 很 多 RAID 控制 器 为 了 好 管理 都 会 写 类 似 超级 块 的 信息 到 组 成 RAID 的 硬盘 上 . 我 想 知 
道 有 没有 一 种 控制 器 除了 上 层 操 作 系统 的 写 数据 外 是 不 会 写 任何 信息 到 硬盘 上 的 。 

稍微 高 端 一 点 的 RAID 控制 器 好 像 没有 哪 家 这 么 做 ,原因 很 简单 , 一 是 卡 上 没有 足够 的 地 方 
存放 ， 而 是 写 到 硬盘 上 ， 卡 坏 了 ， 换 个 卡 ， 载 入 ， 照 样 用 。 后 者 是 根本 原因 。 早 期 的 RAID 卡 甚 
至 不 允许 磁盘 模 位 错乱 ， 很 有 可 能 就 是 因为 它 没 向 磁盘 上 写 入 对 应 的 信息 ， 而 只 是 在 卡 上 自己 保 
存 了 一 份 ， 磁 盘 一 旦 错乱 ，RAID 就 不 认 了 。 写 到 磁盘 上 之 后 ， 磁 盘 不 管 放 到 哪个 槽 位 ， 逻 辑 上 
的 结构 依然 没有 变 ， 依 然 可 以 组 成 RAID Group。 


51. 测试 速度 达 不 到 要 求 


曙光 磁盘 阵列 柜 ， 挂 到 服务 器 上 用 HDTune 测试 只 有 5MB。 
提供 可 能 的 原因 : 

(1 ) IO 不 对 齐 或 者 其 他 原因 导致 的 内 部 惩罚 。 

(2 ) 用 IOmeter 试 试 。 

(3 ) Queue Depth 太 低 。 

(4 ) 用 多 线程 并 发 访问 ， 不 会 只 用 了 一 个 线程 吧 ? 

(5 ) 也 是 最 有 决定 性 的 原因 ，IO 属性 是 什么 。 


52. FCOE 和 iSCSI 的 区 别 


请 问 下 fcoe 和 iSCSI 的 区 别 是 什么 ? 

用 于 存储 网 络 时 : 

FCOE: SCSI over FC over Ethernet 

iSCSI: SCSI over IP over ( any kind of link that support IP ) 

其 实 ,底层 链 路 不 管 是 什么 , 都 可 以 支持 IP。 支 持 这 个 词 似 乎 用 得 不 好 , 但 是 链 路 层 帧 中 应 
该 有 个 字段 来 描述 其 承载 的 上 层 协 议 是 什么 , 这 就 是 所 谓 的 支持 。IP 和 链 路 层 位 于 OSI 不 同 层次 ， 
之 间 可 以 适 配 的， 所 以 ,不管 怎么 连通 ， 用 什么 方式 连通 ， 其 上 都 可 以 盖 一 层 人 P 来 进入 TCPIP， 
这 就 是 OSI 的 精 骨 。 另 外 ，FCOE 现在 已 经 远 非 这 么 简单 了 ，FCOE 已 经 逐渐 脱离 传统 以 太 网 基 
础 架构 ， 适 配器 ， 甚 至 交换 机 都 需要 专用 的 ， 这 还 谈 什么 OE 呢 ? 本 来 就 是 为 了 和 以 太 网 基础 架 
构 结合 ， 降 低 成 本 ， 现 在 却 越发 走向 不 开放 的 道路 ， 个 人 不 看 好 。 
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53. 判断 IO 瓶颈 


现 有 一 台 LSI 3994 磁盘 阵列 (IBM 的 4000 系列 即 是 0EM 它 的 ) ，2 台 HPDL38065 与 这 台 磁 
阵 相 连 ， 这 两 台 服务 器 各 自 有 自己 的 LUN， 不 做 双 机 ， 只 是 2 台 服 务 器 一 起 给 磁 阵 写 数 据 ， 写 到 
各 自 的 LUN 上 。 但 是 现在 只 要 使 用 业务 ，2 台 服 务 器 开始 给 磁 阵 写 数据 ，2 台 一 共 大概 有 180MB/s 
的 写 入 量 。 这 时 读 磁 阵 上 保存 的 数据 时 ， 速 度 很 慢 ， 大 概 1MB/s 多 的 速度 吧 。 这 台 服 务 器 的 主机 
通道 是 46b/s 的 ， 应 该 有 400MB 的 读 写 能 力 ， 怎 么 会 这 么 慢 呢 。 服 务 器 使 用 的 是 Windows 2003 
操作 系统 。 服 务 器 分 别 直接 连接 两 个 控制 器 ， 没 有 使 用 光纤 交换 机 。 磁 阵 已 经 设置 为 46 的 模式 ， 
磁盘 条 带 化 已 经 为 了 适应 视频 而 调节 到 最 大 值 了 。 

呵呵 。 兄 弟 , 看 来 你 这 瓶颈 没 出 在 网 络 上 。 虽 然 用 了 80 个 500G 的 SATA, 但 是 控制 器 此 时 
的 行为 不 好 说 是 否 都 用 在 了 写 数 据 上 。180M 的 写 IO, 请 问 这 些 IO 的 属性 估计 一 下 是 IO 密集 的 
还 是 IO Size 很 大 的 ? 如 果 是 前 者 ， 具 体 多 少 ? 有 没有 达到 IOPS 瓶颈 ? 其 次 ，IO 的 时 候 , 不 一 
定 就 真正 分 摊 在 了 这 80 块 盘 上 , 而 很 有 可 能 只 用 到 了 其 中 几 块 盘 。 最 好 能 用 盘 阵 监视 工具 看 一 下 
当前 的 磁盘 IO 情况 , CPU 和 RAM 情况 , 综合 分 析 。 读 的 时 候 用 什么 读 的 ? 读 的 多 大 的 文件 ? 
RAID 类 型 是 什么 ”这 些 都 要 心 有 一 幅 图 ， 不 然 没 法 做 下 去 的 。 


54. 网 卡 瓶颈 


在 由 服务 器 网 卡 到 交换 机 再 到 磁盘 阵列 的 传输 链 路 中 ， 瓶 颈 在 哪里 ， 值 是 多 少 ? 

假设 : 

(1) 网 卡 为 普通 千 光 网卡 ， 且 服务 器 只 有 这 一 块 网 卡 用 于 连接 IP SAN 中 的 交换 机 ; 

(2 ) 交换 机 为 全 千 光 全 线 速 转发 交换 机 ; 

(3) 磁盘 阵列 通过 对 硬盘 做 RAID 能 够 从 出 口 对 交换 机 提供 足够 的 传输 带宽 。 

那么 瓶颈 应 该 可 能 在 两 个 位 置 : 

(1 ) 服务 器 网 卡 , 千 光 网卡 理论 带宽 128MB/s， 然 而 它 的 实际 工作 带宽 能 达到 多 少 ? 有 60% 吗 
(77MB/s ) ? 如 果 除 去 IP 协议 的 开销 ， 还 剩 多 少 ? 

(2 ) 交换 机 端口 传输 带宽 ， 千 兆 的 端口 ， 最 大 实际 工作 带宽 能 达到 128MB/s 的 60% 吗 ? 

我 想 准确 地 知道 这 个 值 ， 因 为 我 想 知道 ， 在 这 种 情况 下 的 IP SAN 与 服务 器 本 地 硬盘 相 比 ， 
在 传输 性 能 上 有 没有 优势 。 本 地 硬盘 按 SATA 平均 内 部 传输 率 60MB/s 来 算 。 

我 觉得 为 何 这 帖子 至 今 无 人 回答 , 是 因为 没 法 回答 。 你 也 说 了 , 瓶颈 点 一 在 网 络 , 二 在 磁盘 ， 
就 这 两 个 。 磁盘 外 面 是 清 一 路 的 干 兆 通路 ,所 以 算 一 个 瓶颈 点 。 盘 阵 网 口 后 面 是 控制 器 OS 以 及 
其 他 硬件 ， 这 里 算是 个 潜在 瓶颈 点 , 但 是 再 烂 ，125MB/s 的 速度 也 至 少 能 提供 ， 所 以 本 案 ， 此 处 
没有 瓶颈 。 再 就 是 后 端 磁盘 了 。 还 是 那 句 话 ， 再 烂 ， 一 百 来 兆 的 速度 起 码 也 能 给 出 来 吧 。 综 合 分 
析 ， 您 这 系统 瓶颈 将 会 在 网 络 。 

而 实际 中 只 要 是 大 带宽 需求 的 环境 ， 确 实 很 大 比例 都 出 现在 网 络 瓶 贷 上 ，1Gb/s 的 速率 实在 
是 很 低 了 。 如 果 IO Size 很 大 的 话 ，106MB 左右 是 正常 的 ， 这 也 是 我 平时 所 见 的 。IO Size 很 小 的 
话 ， 五 六 十 兆 甚至 十 几 兆 都 有 可 能 ， 得 根据 IO 属性 综合 判断 。 实 际 中 可 能 发 生 各 种 问题 。 有 客 
户 甚至 测试 过 ,用 盘 阵 不 如 用 USB 硬盘 盒 。 性 能 分 析 一 定 要 有 如 下 条 件 : @ 什 么 应 用 ; @ 什 么 盘 
阵 , 内 部 行为 如 何 设计 的 , CPU 和 RAM 如 何 ; @ 什 么 IO, 读 写 , 大 小 , 随机 程度 ，QueueDepth 
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并 发 程度 ; @ 什 么 RAID 类 型 ,具体 参数 ，Stip、Block 之 类 , 并 发 度 怎样 ; @ 各 种 适 配 卡 线 等 是 
否 底层 缺乏 兼容 性 或 者 参数 不 匹配 。 


55. IO 是 怎么 定义 的 ? 


(1) 怎样 的 操作 才 算 是 一 个 10 操作 ? 什么 操作 才 算 一 个 transaction? 

(2) Transaction 和 I0 有 什么 关系 ? 

你 好 ， 关 于 如 何 才 算 一 个 IO 的 问题 ,我 可 以 在 这 里 简要 讲解 ， 不 过 更 详细 的 内 容 请 参考 本 
书 前 几 章 。IO 在 不 同 层次 有 不 同 的 概念 和 单位 。 一 次 IO 就 是 一 次 请 求 , 对 于 磁盘 来 说 , 一 个 IO 
就 是 读 或 者 写 磁 盘 的 某 个 或 者 某 段 扇 区 ， 读 写 完 了 ， 这 个 IO 也 就 结束 了 。 

至 于 transaction ， 就 是 更 高 层 的 内 容 了 ，transaction 往往 与 业务 逻辑 有 关系 。 比 如 你 去 银行 存 
一 笔 钱 ， 你 存 这 笔 钱 的 过 程 中 ， 服 务 器 向 数据 库 中 写 入 的 所 有 关联 的 操作 就 算是 一 个 ransaction， 
而 完成 这 一 个 transaction， 往 往 对 应 了 底层 对 磁盘 的 多 次 IO。 比 如 ， 读 出 数据 库 中 原来 的 数据 ， 
比如 你 原来 存款 是 10000 元 , 他 读 出 来 了 , 然后 显示 在 柜台 终端 上 ,然后 操作 员 存 入 5000 元 , 数 
据 传 输 到 数据 库 服务 器 ， 数 据 库 服务 器 在 内 存 中 更 改 这 个 数值 ， 从 10000 更 改 为 1.5000， 然 后 数 
据 库 Flush 的 时 候 ， 将 对 应 的 数据 库 写 入 磁盘 ， 完 成 后 ， 柜 台 终端 显示 成 功 。 这 个 过 程 中 对 应 了 
多 次 磁盘 IO。 

补充 几 点 : IO 类 型 有 多 种 ,数据 型 IO 和 非 数 据 型 IO。 前 者 是 指 IO 请 求 中 包含 读 写 扇 区 的 
数据 的 ， 后 者 是 指 IO 中 不 包含 肩 区 数据 ， 而 是 承载 其 他 信息 的 ， 如 SCSI 协 议 中 的 很 多 操作 码 ， 
比如 0x 01 就 是 zero 指令 ,命令 磁盘 自行 向 所 有 扇 区 中 写 0。 或 者 诸如 report LUN 这 种 常见 的 指 
令 ， 它 们 是 命令 磁盘 做 一 些 其 他 的 动作 ， 而 不 是 真正 的 读 写 扇 区 中 的 数据 。 对 于 网 络 文件 系统 来 
说 , 也 有 数据 型 IO 和 非 数据 型 IO, 前 者 比如 读 写 操作 , 后 者 比如 NFS 中 的 mount、 fsinfo、fstat、 
getattr 等 。 这 就 是 transaction 与 IO 的 关系 。 


56. Cache 与 IOPS 的 关系 


增 大 阵列 的 Cache 能 对 IOPS 有 多 大 的 影响 ? 对 于 顺序 读 \ 写 、 随 机 读 \ 写 影响 会 有 多 大 ? 

Cache 对 于 连续 IO 具有 较 好 的 效果 ， 尤 其 是 连续 小 块 IO。 针 对 Cache， 不 同 的 产品 有 不 同 
的 算法 , 但 是 大 部 分 是 众人 皆 知 的 算法 。 连续 小 块 IO 效果 较 好 的 原因 是 因为 预 读 程 序 会 预先 读 
入 与 本 次 IO 相连 的 周围 地 址 的 数据 ， 而 IO 的 Size 越 小 ， 并 且 IO 越 连续 ， 性 能 提升 的 效果 就 越 
明显 了 。 

连续 大 块 IO 为 何 效果 不 明显 ? 其 实 这 里 所 说 的 明显 与 否 是 相对 的 。 连续 大 块 IO 的 时 候 , 更 
多 的 压力 在 于 磁盘 和 通道 带宽 ，Cache 只 起 到 一 个 缓冲 作用 ， 并 没有 体现 出 任何 优化 的 效果 。 大 
块 连续 IO 情况 下 ，Cache Eject 率 非常 高 ， 系 统 没 有 必要 也 没有 这 个 精力 去 青 做 什么 优化 ， 也 没 
有 可 优化 的 地 方 。Cache 在 重复 读 的 情况 下 效果 最 佳 。 所 谓 重复 读 ， 也 就 是 外 部 频繁 地 读 取 某 些 
地 址 的 数据 ,而 从 来 不 更 改 它们 。 这样, 这 些 数 据 就 会 长 时 间 地 停留 在 Cache 中 而 无 须 访问 硬盘 。 

随机 IO 的 情况 下 ，Cache 效果 最 小 。 随 机 IO 的 瓶颈 在 于 磁盘 寻 道 ， 并 且 更 加 考验 一 个 产品 
针对 IO 的 优化 程度 。 但 是 广泛 来 讲 , 随机 IO 性 能 低下 的 问题 在 机 械 硬 盘 的 世界 里 ， 永 远 不 可 能 
有 本 质 上 的 解决 办 法 。 只 有 SSD 或 者 其 他 概念 的 存储 方式 才 可 以 从 本 质 上 解决 随机 IO 的 性 能 问 
题 。 但 是 面 对 随机 IO ，Cache 也 不 是 一 点 效果 也 起 不 到 的 ,比如 某 种 算法 ， 类 似 数据 库 的 优化 方 
法 ， 即 让 数据 在 磁盘 上 的 分 布 单位 加 大 ， 每 次 读 都 读 出 整个 extent 来 碰 运 气 。 也 就 是 类 似 这 种 思 
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想 ， 比 如 有 一 群 蚂蚁 ， 你 要 把 它们 全 收集 起 来 ， 而 你 的 筷子 每 次 来 的 太 少 ， 麻 烦 费 力 低 效 ， 而 如 
果 你 换 成 勺子 ， 直 接 将 蚂蚁 和 泥土 一 起 挖 起 来 ， 同 样 可 以 达到 收集 蚂蚁 的 效果 。 也 就 是 用 大 炮 打 
子 ， 炮 弹 爆 炸 了 ， 那 肯定 周围 的 蚊子 也 被 烧 死 了 。 

连续 读 : 对 于 小 块 连续 读 IO ，Cache 优化 效果 最 好 ; 对 于 大 块 连续 读 IO， 优 化 效果 不 明显 。 

连续 写 : 对 于 连续 小 块 写 IO ， 如 果 Cache 是 write back 模式 ( 通常 都 应 当 是 write back ) ， 
由 于 IO Size 比较 小 ，Cache 剩余 空间 充裕 ， 不 至 于 频繁 引起 Cache flush 操作 ， 加 之 系统 不 繁忙 ， 
有 更 多 时 间 去 进入 算法 流程 对 这 些 IO 进行 优化 调度 重 排 等 ， 所 以 此 时 Cache 效果 良好 。 对 于 连 
续 大 块 写 IO ，Cache flush 频繁 ， 整 体 瓶 颈 归 于 磁盘 ，Cache 优化 不 明显 ， 仅 作 缓 冲 之 用 。 

随机 读 : 瓶颈 归于 磁盘 ，Cache 优化 不 佳 ， 只 作为 缓冲 之 用 。 

随机 写 : 对 于 随机 小 块 写 IO ， 如 果 Cache 是 write back 模式 ， 则 Cache 表现 出 来 的 优化 效果 
良好 ， 使 得 程序 有 充分 时 间 去 重 排 、 优 化 这 些 IO 数据 从 而 为 更 高 效 的 并 行 写 入 磁盘 做 准备 。 对 
于 随机 大 块 写 IO ， 此 时 Cache 效率 最 为 低下 ， 整 体 瓶 颈 归 于 磁盘 但 是 表 于 Cache， 因 为 Cache 快 
速 被 充满 而 后 端 磁盘 处 于 瓶颈 态 ， 此 时 系统 最 为 难受 。 

增加 Cache 会 对 连续 大 块 IO 性 能 提升 比较 明显 ， 但 是 对 于 小 块 IO ，Cache 空间 足够 ， 再 增 
加 也 无 济 于 事 。 不 过 依然 要 综合 来 看 ， 比 如 如 果 太 多 客户 端 写 入 导致 Cache 不 够 用 ， 那 当然 就 考 
虑 增加 Cache， 总 之 ， 都 是 相对 的 。 只 要 后 端 磁盘 没有 达到 瓶颈 ， 增 加 Cache 有 好 处 ， 而 且 大 块 
和 小 块 ， 在 Cache 相对 很 大 的 时 候 ， 大 和 小 的 区 别 就 可 以 忽略 了 。 

不 知道 其 他 厂商 产品 底层 如 何 flush 的 ， 我 猜测 应 该 是 一 直 在 tush， 也 就 是 源源 不 断 地 利用 
满 后 端的 带宽 。 如 果 一 次 tush 非 要 等 待 所 有 dirty block 写 盘 ， 而 此 时 其 他 线程 都 挂 死 的话 ， 那 绝 
对 是 划 不 来 的 。 所 以 我 推测 是 少食 多 餐 制 ，flush 频率 非常 快 ， 或 者 是 完全 异步 处 理 ， 后 端 细 水 长 
流 ， 而 前 端 洪水 暴发 进入 水 库 蓄 水 ,同时 进行 。 而 某 些 产 品 受制 于 日 志方 式 ， 日 志保 存 的 地 方太 
小 以 至 于 flush 频繁 并 日 是 同步 阻塞 模式 。 前 者 那 种 细水长流 模式 下 ，Cache 越 大 当然 越 好 ， 再 大 
不 怕 因 为 电池 保护 ; 而 少食 多 餐 模 式 下 ， 太 大 的 Cache 对 写 IO 也 没什么 效果 。 而 后 者 那 种 电池 
只 保护 日 志 空 间 的 模式 下 ， 则 太 大 的 Cache 没有 用 处 ， 充 其 量 读 缓存 占 大 部 分 ， 剩 余 的 写 缓存 根 
据 保存 日 志 的 空间 来 定 。 

上 述 是 Cache 管理 的 大 概 思 想 ， 至 于 更 多 细节 的 实现 方式 ， 比 如 多 流 合并 、 分 区 等 思想 和 技 
术 ， 就 要 看 不 同 产品 不 同 设计 方式 和 开发 人 员 富 有 创造 力 的 头脑 了 。 

但 我 有 个 阵列 ， 把 Cache 由 原来 的 16B 增加 到 3GB。 做 SPC1 测试 从 BSU 240 增加 到 300， 增 
加 了 25%， 是 因为 原来 Cache 就 太 少 了 吗 ? 

不 否认 这 个 测试 结果 ， 但 是 他 的 系统 缓存 只 有 1GB， 示 人 免 太 小 ， 况 且 spc 结果 中 随机 写 这 部 
分 到 底 提升 了 多 少 , 无 从 考证 , 况且 不 知道 是 什么 产品 ,底层 destage 的 机 制 等 。 但 是 不 可 否认 的 
是 ,增加 Cache， 对 读 优化 肯定 是 增加 的 了 。 

更 多 的 缓存 意味 着 可 以 将 更 多 的 I0 直接 写 到 缓存 里 面 ,马上 response 给 主机 说 I0 complete， 
然后 等 积累 到 一 定 程 度 在 后 台 destage 给 磁盘 ， 性 能 应 该 更 好 才 对 ， 为 何 说 是 相对 的 呢 ? 

Cache 太 大 ,有 太 多 的 数据 没有 destage, 虽然 放 到 Cache 中 有 电池 保护 ,但 是 还 是 要 尽快 destage 
到 硬盘 上 才 保 险 的 , 这 就 引出 了 我 对 于 destage 方式 的 讨论 , 如 果 是 一 次 全 部 destage, 那么 太 大 的 
Cache 当然 会 耗费 很 多 资源 了 ,所 以 上 面 才 请 林 总 介绍 一 下 目前 大 Cache 的 产品 destage 是 怎么 个 
机 制 啊 。 


附录 1 存储 系统 问 与 答 精华 集锦 @ 


当然 ,后 端 通道 和 磁盘 越 多 ,相应 Cache 就 得 跟 上 去 ， 这 个 无 可 和 否认。 而且 如 果 他 的 destage 
方式 是 按照 Cache 容量 比例 来 的 ， 而 且 后 端 没有 瓶颈 ， 那 当然 是 缓冲 空间 越 大 越 好 了 ， 如 果 后 端 
捉襟见肘 ， 还 配 百 八 十 GB 的 缓存 ， 那 也 是 没 必要 的 。 但 是 为 何 我 说 随机 IO 下 Cache 优化 效果 
最 小 ,也 就 是 性 能 提升 最 小 ,因为 毕竟 是 随机 IO, 缓存 再 多 ,形成 整 条 写 的 几率 也 是 相对 其 他 类 
型 的 IO 低 ， 这 点 必须 承认 ， 所 以 后 端 依然 是 会 产生 瓶颈 的 。 既 然 这 样 ， 后 端 产生 瓶颈 的 几率 增 
大 , 那么 必然 需要 destage 相对 频繁 一 些 而 不 是 积攒 太 多 一 次 destage, 因为 一 旦 积攒 太 多 而 待 写 数 
据 过 于 离散 ， 则 后 端 需要 很 长 时 间 才 能 完成 destage， 资 源 消耗 比较 大 ; 反 过 来 说 ，destage 如 果 频 
繁 ， 则 Cache 对 于 写 数据 所 占 的 空间 也 就 不 需要 太 大 了 ， 而 可 以 放 更 多 的 读 prefetch 数据 。 这 方 
面 可 以 继续 讨论 研究 。 


57.SAS 和 FC 


据说 SAS 接口 的 普通 盘 阵 ， 十 几 块 盘 就 可 以 达到 600MB/s 的 吞吐 量 ， 这 样 我 还 用 买 高 端 FC 
盘 阵 么 ? 

SAS 香 阵 达到 700MB/s,800MB/s,900MB/s 的 速度 都 是 常 有 的 事情 ,SAS 卡 上 的 多 路 SAS PHY 
可 以 形成 宽 端 口 的 , 一 般 可 以 达到 12Gb 的 带宽 , 也 就 是 4 个 3Gb 的 合并 , 所 以 才能 有 这 个 速度 。 
目前 SAS 已 经 可 以 达到 单 PHY 速率 6Gb/s。SAS 相对 FC 是 不 错 的 选择 。 至 于 高 端的 FC 盘 阵 ， 
往往 其 他 功能 强 ， 接 口 也 多 ， 而 且 线 缆 方 面 也 比 SAS 方便 ， 更 容易 扩大 至 很 大 的 扩展 柜 数 量 ， 所 
以 SAS 目前 并 未 非常 流行 ， 取代 FC 的 路 程 还 有 很 长 要 走 ， 让 我 们 拭目以待 。 

我 一 直 有 个 疑问 , 就 是 SAS 在 Sequential 环境 中 的 表现 到 底 如 何 ? 理论 上 可 是 有 12Gb 带宽 
啊 。 从 我 看 到 的 几 个 产品 上 看 ， 好 像 是 用 SAS 的 产品 在 Seq 环境 中 带宽 表现 不 是 十 分 好 ， 反 而 在 
Tandom 环境 效果 更 佳 。 

不 知道 是 哪 款 产 品 ， 怎 么 测 的 ，SAS 一 RAID 卡 市 面 上 有 很 多 : 软 , 硬 , 半 软 半 硬 。 带 RAID 
功能 的 SAS 箱 的 表现 与 外 置 RAID 卡 再 接 JBOD 的 性 能 没什么 差别 。 随 机 和 seq 环境 下 的 性 能 主 
要 取决 于 参差 不 齐 的 RAID 卡 了 ， 看 其 优化 是 否 到 位 。 能 否 提 供 一 下 实际 数据 ， 研 究 研究 。 


58. 软 RAID 和 RAID 控制 器 有 何不 同 ? 


基于 软件 的 RAID 和 基于 控制 器 的 RAID 有 什么 区 别 ? 

前 者 泛 指 利用 主机 自己 的 硬件 资源 来 实现 RAID。 由 于 主机 上 没有 针对 RAID 的 硬件 芯片 比如 
XOR 运算 器 或 者 其 他 硬 逻 辑 芯 片 ,所 有 RAID 功能 全 部 由 主机 上 的 CPU 通过 运行 操作 系统 底层 的 
RAID 逻辑 代码 执行 。 后 者 泛 指 RAID 逻辑 运行 在 独立 的 硬件 上 ， 这 些 独立 设备 一 般 都 配 有 特殊 的 
硬 ASIC 芯片 来 将 复杂 的 运算 硬化 入 芯片 从 而 相对 于 全 靠 CPU 来 运行 的 系统 性 能 大 为 提升 。 

当然 , 也 有 的 控制 器 全 部 用 CPU 来 执行 RAID 功能 和 其 他 存储 系统 的 所 有 功能 。 二 者 的 区 别 : 
前 者 耗费 主机 资源 ,不 过 如 果 主 机 CPU 不 繁忙 、 系 统 负载 不 高 而 且 CPU 内 存 够 强劲 ， 其 表现 的 性 
能 不 亚 于 硬 RAID。 后 者 不 耗费 主机 资源 ， 但 是 要 求 一 个 独立 的 设备 ， 成 本 增高 ;前 者 由 于 在 主机 
上 运行 ,一般 不 考虑 实现 复杂 的 逻辑 而 尽量 保持 高 效率 ， 后 者 则 由 于 在 独立 的 设备 上 ， 可 以 方便 实 
现 更 多 的 复杂 功能 ; 前 者 运行 于 主机 之 上 , 一 旦 出 现 问 题 或 者 需要 维护 ， 则 很 可 能 要 停机 ， 而 后 者 
如 果 不 出 现 大 问题 ， 对 主机 端 一 般 没 多 少 影响 ， 灵 活 。 
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59. 关于 RAID 的 初始 化 


几 块 盘 创建 好 一 个 RAID 5 后 ， 一 般 是 采用 什么 方式 初始 化 的 ? 我 现在 想到 有 两 种 : 

(1) 每 个 Stripe 都 是 写 0, 这 样 只 需要 进行 写 操 作 ， 不 需要 进行 读 操作 和 XOR 操作 ， 而 且 最 
后 的 Stripe 数据 是 呈 异 或 关系 的 。 

(2) 每 个 Stripe 是 模拟 RAID5 坏 掉 一 块 盘 后 插入 一 块 新 盘 重 新 recovery， 即 先 读 同步 的 
盘 上 的 数据 然后 作 XOR， 计 算 结果 最 后 写 入 被 同步 的 盘 。 

我 知道 Linux 内 核 中 是 采用 后 一 种 方式 的 , 但 是 在 性 能 较 弱 的 CPU 上 会 显得 有 点 吃力 ， 因 为 
要 作 XOR 计算 ， 不 知道 有 没有 其 他 RAID 厂家 采用 第 一 种 方式 的 ? 

另外 ， 不 知道 有 没有 不 做 初始 化 就 直接 使 用 的 RAID 厂家 ? 

前 台 初 始 化 的 时 候 是 不 能 接受 IO 的 ， 必 须 等 待 。 比 如 DS 6800 就 是 这 样 。 前 台 初 始 化 理论 
上 也 有 两 种 方式 ， 也 就 是 上 面 列 出 来 的 两 种 方式 ，Zero Disk， 或 者 读 出 整个 条 带 的 原来 数据 然后 
计算 Parity 数据 然后 写 Parity。 不 过 一 般 倾向 于 Zero Disk， 因 为 这 种 方式 最 为 简便 ， 只 需要 发 送 
一 个 SCSI Operation 0x01 指令 到 磁盘 然后 等 待 返回 即 可 。 控制 器 不 耗费 一 点 资源 。 如 果 是 第 二 种 ， 
则 有 点 兴 师 动 众 的 意思 ， 速 度 慢 效率 低 ， 也 没有 必要 这 样 做 。 

后 台 初 始 化 , 这 种 方式 可 以 接受 IO, 理论 上 是 控制 器 从 RAID Group 被 建 好 的 那 一 刻 起 即 开 
始 做 初始 化 ,不 可 能 使 用 Zero Disk 的 方法 了 ， 因 为 此 时 需要 接受 上 层 下 发 的 IO 了 ， 必 须 由 控制 
器 做 读 写 操作 ,所 以 只 能 用 Parity 重 算 的 方法 。 一 旦 某 个 Stripe 有 IO 进来 ， 则 控制 器 跳 转 到 这 个 
Stripe， 初 始 化 这 个 Seipe， 朱 带 上 下 发 进来 的 写 数据 一 起 将 这 个 Seripe 处 理 好 ， 使 得 其 Parity 与 
user Data 是 一 致 的 。 如 果 是 读 IO， 而 且 目 标 地 址 落 在 了 尚未 初始 化 的 条 带 上 ,那么 控制 器 直接 在 
内 存 中 返回 全 0 给 发 起 IO 的 主机 ; 如果 落 在 了 已 经 初始 化 过 的 条 带 中 ， 则 此 时 由 于 控制 器 无 法 
判断 这 个 条 带 初 始 化 之 后 是 否 已 经 被 写 入 实际 数据 ， 只 能 假设 已 经 被 更 改过 ， 所 以 需要 从 对 应 目 
标 地 址 读 出 数据 并 返回 。 处 理 完 后 ， 继 续 跳 回 原来 的 断 点 然后 继续 顺序 处 理 其 他 Stripe。 控 制 器 
在 后 台 初 始 化 过 程 中 会 对 已 经 初始 化 和 未 初始 化 的 条 带 做 记录 , 这 个 记录 很 小 , 比如 一 个 bitmap， 
每 个 位 代表 一 个 条 带 ， 初 始 化 完成 就 标 为 1， 未 初始 化 就 标 为 0， 所 以 查找 起 来 不 费力 。 

为 了 避免 不 必要 的 麻烦 ， 前 台 初 始 化 过 程 应 当选 择 Zero Disk 的 方式 。 校 验 型 RAID Group 
必须 初始 化 , 只 不 过 是 前 台 还 是 后 台 而 已 。 有 后 台 初 始 化 的 产品 , 一 些 低 端 RAID 卡 都 可 以 做 到 。 

前 提 是 RAID 5 边 初始 化 ， 边 要 写 数据 。 当 RAID 5 初始 化 到 了 10%， 而 数据 写 到 了 20%。 假 
如 这 时 RAID 5 中 掉 了 一 个 盘 ， 请 问 我 这 写 的 20% 数 据 能 够 恢复 吗 ? 如 果 不 能 ， 前 10% 的 数据 能 恢 
复 吗 ? 或 者 数据 就 是 不 能 恢复 ? 能 举 个 例子 帮 分 析 一 下 吗 ? 谢谢 。 

RAID 5 本 身 是 容许 一 个 磁盘 损坏 或 者 丢失 。 不 管 前 台 或 者 后 台 初始 化 ， 凡 是 已 经 初始 化 完 
成 的 Stipe， 皆 可 以 容许 一 块 磁盘 丢失 ， 而 未 初始 化 完成 的 Stipe， 保 护 它们 也 没有 意义 。 这 样 的 
话 ， 系 统 必须 依然 可 以 从 剩余 的 磁盘 来 校 验 出 丢失 磁盘 对 应 Stipe 上 的 数据 。 不 过 实际 上 , 一 个 
未 初始 化 完成 的 RAID Group 已 经 坏 盘 ， 那 么 正好 是 破 钠 子 破 摔 了 。 你 想 想 ， 此 时 系统 就 等 于 初 
始 化 完成 了 并 且 进 入 等 待 Rebuild 状态 ， 插 入 好 盘 之 后 ， 重 新 逐 Stipe 的 Rebuild， 此 时 就 无 所 谓 
初始 化 与 否 了 。 

所 以 ， 不 知道 上 面 这 个 例子 是 假想 的 还 是 实际 的 ， 理 论 上 讲 系统 依然 可 以 接受 IO， 只 不 过 
一 旦 未 被 初始 化 的 Stipe 上 有 IO , 则 数据 一 致 性 要 靠 应 用 层 来 判断 了 。 所 以 上 面 这 个 例子 应 该 不 
会 发 生 , 如 果实 际 中 真 的 发 生 了 RAID Group 因为 未 初始 化 完 而 掉 盘 就 停止 接受 IO, 则 可 能 系统 


附录 1 存储 系统 问 与 答 精 华 集锦 @ 


为 了 充分 保证 安全 性 吧 ， 此 时 你 可 以 插 上 新 盘 让 它 Rebuild 就 可 以 了 。 如 果 这 样 都 不 行 ， 那 只 能 
证 明 这 个 后 台 初 始 化 系统 设计 的 不 完善 。 数 据 是 可 以 手动 恢复 的 ， 找 专门 的 恢复 结构 ， 只 要 他 用 
的 RAID 5 校 验 方式 是 常规 套路 。 


60. 关于 SAN 共享 


SAN 为 什么 不 能 文件 共享 ? 谢谢 ! 也 就 是 说 ， 为 什么 块 级 存储 ， 不 能 提供 共享 ? 

SAN 是 一 个 大 家 访问 存储 设备 的 通道 , 处 于 底层 。 对 于 一 个 目标 设备 , 可 以 有 多 个 客户 端 设 
备 对 其 访问 ， 同 时 读 写 ， 没 有 问题 。 块 级 的 访问 是 最 低级 别 的 ， 接 受 访问 的 设备 根本 就 不 去 管 有 
多 少 客户 端 访问 ， 谁 写 了 哪些 扇 区 ， 是 否 被 不 正确 地 覆盖 了 。 

底层 就 是 要 实现 高 效率 的 访问 ， 如 果 把 这 些 东 西 都 做 到 硬盘 上 或 者 SAN 盘 阵 中 ， 那 逻辑 就 
相当 复杂 了 。 当 然 ，NAS 设备 就 是 这 样 一 个 提供 文件 共享 的 设备 ， 因 为 NAS 协议 的 一 个 作用 就 
是 解决 多 客户 端 共享 文件 ， 保 证 文件 的 一 致 性 。 然 而 这 也 取决 于 客户 端的 决定 ， 如 果 客 户 端 在 使 
用 NAS 的 时 候 ， 不 进行 Lock 操作 ， 那 同样 也 会 出 现 后 来 写 入 的 覆盖 之 前 写 入 的 情况 ， 就 是 这 样 
设计 的 。 这 些 逻 辑 全 处 于 应 用 层 上 。 

至 于 Block 级 别 的 Lock, SCSI Reservation 算 一 个 , 但 是 它 不 会 像 NAS 协议 的 Lock 一 样 去 保 
证 一 致 性 ， 其 功能 也 不 是 为 了 共享 ， 最 大 一 个 作用 是 为 了 解决 Brain Split。 还 是 那 句 话 ，Block 级 
别 是 低级 智能 的 。 要 实现 文件 共享 ， 必 须 在 Block 卷 这 一 层 解决 ， 也 就 是 使 用 集群 文件 系统 ,或 
者 使 用 一 个 诸如 Sanergy 的 卷 共享 软件 ， 上 层 依然 使 用 诸如 NTES 这 种 常规 的 FS， 卷 共享 软件 可 
以 保证 访问 同一 LUN 的 多 个 客户 端 上 的 FS 时 刻 从 这 个 LUN 读 取 的 数据 都 是 最 新 的 数据 ， 当 某 
个 客户 端 写 入 数据 的 时 候 , 卷 共享 软件 会 将 其 他 客户 端 FS 缓存 中 对 应 被 写 入 块 的 数据 进行 过 期 作 
废 处 理 ， 重 新 读 入 最 新 数据 。 

各 个 客户 端 上 的 和 缓存 , 此 时 在 卷 共 享 软件 的 全 盘 管 理 下 , 实现 了 全 局 共 控 。 如 果 不 这 么 做 ， 
举 个 例子 , 假如 T1 时 刻 设备 1 将 10000 这 个 数值 写 入 了 扇 区 0, 而 设备 2 不 知道 , 没有 人 通知 它 ， 
设备 2 的 FS 缓存 中 对 应 这 个 扇 区 的 数据 依然 是 0。 随后， 设备 2 上 的 程序 做 了 一 次 运算 ， 比 如 : 
余额 + 5000， 其 实 此 时 ,余额 应 该 = 10000, 但 是 由 于 没 人 通知 设备 2 扇 区 0 的 内 容 已 经 更 改 , 所 
以 设备 2 仍然 用 0 来 当 余 额 ,这 样 算出 的 结果 是 5000， 然 后 写 入 磁盘 , 之 后 , 余额 变 成 了 5k,， 你 
赔 了 10000 元 啊 ! 

上 面 的 例子 是 一 个 概要 ， 现 实 中 ， 多 设备 同时 读 写 同一 LUN, 会 产生 各 种 各 样 的 后 果 。 有 
时 候 设 备 1 下 次 读 出 的 时 候 会 完全 混乱 ， 就 像 刚 才 的 例子 ， 应 该 是 1 50000， 结 果 错 误 保 存 成 了 
5000。 这 种 结果 算是 杀人 于 无 形 之 间 。 有 时 候 如 果 遇 到 FS 的 MetaData 扇 区 不 一 致 , 则 FS 轻 则 fck， 
重 则 崩溃 。 崩 演 了 比 上 一 种 情况 好 ， 如 果 不 崩 溃 就 这 么 以 旋 传 放 将 牛头 不 对 马 嘴 的 数据 返回 给 上 
层 ， 那 后 果 可 是 不 堪 想 象 了 。 然 而 ， 用 了 上 面 的 方法 ， 只 能 保证 数据 在 文件 系统 和 卷 之 下 逻辑 的 
一 致 性 , 却 不 能 保证 上 层 业 务 方面 的 一 致 性 .业务 层 的 逻辑 不 可 能 也 没有 必要 放 到 FS 之 下 去 实现 。 
所 以 还 需要 实现 业务 层 的 一 致 性 ， 举 个 例子 : 比如 设备 1 在 这 个 LUN 的 0 扇 区 写 入 了 数据 ， 而 
设备 2 在 卷 共 享 软件 或 者 集群 FS 的 控制 下 ， 它 的 FS 缓存 对 应 的 这 个 扇 区 的 数据 过 期 ， 重 新 读 入 
最 新 的 由 设备 1 写 入 的 数据 ， 读 入 之 后 ， 设 备 2 对 其 做 了 更 改 ， 写 入 覆盖 扇 区 0。 

这 个 过 程 是 一 个 正常 的 过 程 ， 不 会 产生 数据 不 一 致 性 。 然 而 ， 如 果 设 备 1 和 设备 2 之 间 没 有 
足够 的 配合 ， 比 如 ,我 用 同一 个 账户 在 设备 1 和 设备 2 同时 登录 进行 数据 更 改 ， 假 设 还 是 刚才 那 
个 银行 账户 吧 ， 原 来 余额 是 0，T1 时 刻 我 在 设备 1 上 存 入 10000, 设备 1 将 数据 写 到 扇 区 1 保存 ， 
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然后 关闭 终端 应 用 程序 。 

此 刻 设备 2 缓存 过 期 重新 读 入 新 扇 区 0 数据 。 然 后 我 来 到 设备 2 查看 我 的 余额 ， 仍 是 0， 为 
什么 呢 ? 为 何 FS 缓存 都 更 新 了 但 是 终端 显示 仍然 是 呢 ? 这 是 应 用 程序 编写 的 时 候 没有 考虑 数据 
业务 层 的 一 致 性 , 如 果 程 序 随时 参考 FS 缓存 内 的 最 新 数据 而 不 是 自身 缓存 内 的 数据 , 那么 最 新 的 
数据 就 会 生效 ， 不 管 是 使 用 Push 还 是 Pul 的 方式 获得 最 新 数据 。T2 时 刻 ， 在 设备 2 上 直接 退出 
应 用 程序 ， 此 时 设备 2 上 的 应 用 程序 由 于 这 个 错误 ， 将 一 直 缓存 在 程序 Buffer 中 的 数值 0 写 入 扇 
区 0， 这 样 ，10000 变 成 了 0。 你 损失 了 10000。 所 以 ， 业 务 层面 ， 也 就 是 应 用 程序 层面 ， 一 定 要 
考虑 周到 ， 利 用 各 种 方式 来 相互 通信 ， 或 者 从 底层 时 刻 获得 最 新 的 数据 ， 是 很 重要 的 。 


61. Cache 和 Buffer 的 区 别 


请 问 ，Cache 和 了 Buffer 的 主要 区 别 是 什么 ? 都 是 缓存 ， 区 别 在 哪 ? 

其 实 Cache 和 Buffer, 物理 上 讲 都 是 RAM。 逻辑 上 讲 , 你 把 Cache 叫 成 Buffer, 或 者 把 Buffer 
叫 成 Cache, 都 没有 错 。 不 过 Buffer 多 用 于 编程 方面 ，Cache 多 用 于 非 编程 方面 的 叫 法 。 比 如 为 某 
程序 分 配 一 段 Buffer, 而 一 般 没 有 说 为 某 程序 分 配 一 段 Cache 的 ,但 是 你 可 以 说 这 个 程序 有 Cache， 
或 者 说 Cache 是 泛 指 ，Buffer 是 特 指 。 见 仁 见 智 。 而 对 于 磁盘 阵列 来 讲 ，Buffer = Cache。 

另外 ， 从 本 质 上 讲 ，Buffer 是 “缓冲 ”， 而 Cache 是 “缓存 ”， 即 Buffer 中 的 数据 是 一 定 要 
在 短 时 间 内 被 处 理 的 ， 而 Cache 则 可 以 作为 一 个 数据 的 长 期 的 容器 而 其 中 的 数据 不 一 定 非 要 被 立 
刻 处 理 。 


62. 关于 存储 系统 中 的 CPU 的 作用 


高 端 存储 中 CPU 起 的 作用 到 底 有 多 大 ? 

高 端 存储 的 CPU 对 性 能 影响 很 大 。 因 为 高 端 产品 其 出 发 点 不 单单 是 把 磁盘 数据 拿 出 来 扔 出 
去 ， 或 者 等 着 别人 写 进来 ， 然 后 写 到 磁盘 这 么 简单 了 。 高 端 存储 中 CPU 主要 决定 下 列 4 个 大 方 
面 的 作用 : 

(1 ) 基本 的 数据 吞吐 服务 。 

(2 ) 物理 上 ,大 量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 各 种 附加 硬 asic， 比 如 xor 的 
芯片 ， 或 者 数据 压缩 硬 芯片 等 功能 芯片 ， 使 CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 亲 地 执行 任务 。 

(3 ) 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 IO 操作 的 优化 ， 需 要 消除 逻辑 上 IO 的 瓶颈 。 

(4) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 snapshot、mirror、dr、dedup 等 。 

CPU 的 高 性 能 对 整个 存储 的 性 能 起 到 多 大 的 作用 ? 

有 了 上 面 的 4 个 方面 ， 下 面 就 来 一 一 描述 一 下 CPU 如 何 影响 其 性 能 。 

(1 ) 基本 的 数据 吞吐 服务 。 

这 是 一 个 盘 阵 最 基本 的 功能 。prefetch、queue、read wirte、flush， 这 些 过 程 都 是 最 基本 的 要 
求 。 这 些 过 程 ， 看 算法 复杂 度 和 IO 类 型 而 定 ， 基 本 上 连续 大 块 IO 对 CPU 耗费 不 大 ， 主 要 在 于 
磁盘 和 Cache 的 瓶颈 ， 因 为 连续 大 块 IO 不 要 求 CPU 做 出 多 少 运 算 。 而 对 于 连续 小 块 IO， 此 时 
虽然 IO 是 连续 的 , 但 是 Size 变 小 , 系统 整体 吞吐 量 相对 于 大 块 IO 来 说 降低 不 多 ， 当然, 前 提 是 
除了 磁盘 之 外 的 其 他 节点 没有 瓶颈 ， 而 CPU 利用 率 却 显著 上 升 ， 此 时 对 CPU 的 要 求 就 逐渐 显现 
出 来 。 
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当前 端的 IO 逐渐 增加 ，CPU 一 Cache - diskchannel 这 条 线 上 随处 可 以 产生 瓶颈 ,比较 好 的 表 
现 应 该 是 disk 首先 瓶颈 ， 如 果 是 Cache 或 者 CPU 首先 瓶颈 ， 那 么 这 个 系统 就 不 是 最 优 的 。 对 于 
随机 IO 来 讲 ， 此 时 程序 会 进入 优化 随机 IO 的 算法 模块 中 ， 视 算法 复杂 度 而 定 ， 此 时 要 求 CPU 
足够 强劲 来 抵消 一 部 分 磁盘 固有 的 面 对 随 机 IO 的 瓶颈 。 此 时 ， 算 法 越 精良 ，CPU 越 强 ， 性 能 就 
越 提升 ， 当 然 如 果 算 法 本 身 已 经 达到 瓶颈 ， 此 时 提升 CPU 也 没有 用 。 所 以 ,这些 东西 都 要 经 过 
详细 的 测试 、 考 察 。 

(2 ) 物理 上 ， 大 量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 各 种 附加 硬 asic， 比 如 xor 的 
芯片 ， 或 者 数据 压缩 硬 芯片 等 功能 芯片 ， 使 CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 率 地 执行 任务 。 
高 端 存储 有 大 量 的 IO 卡 设备 ， 从 底层 角度 来 讲 ， 如 此 多 的 IO 设备 和 接口 ， 就 要 求 多 CPU 和 够 
多 的 总 线 与 其 对 应 来 响应 源源 不 断 的 中 断 和 数据 收发 操作 了 。 其 次 ， 高 端 存储 的 架构 大 多 硬件 模 
块 化 ， 各 个 模块 细 分 功能 ， 比 如 xor 模块 专门 计算 xor 值 ， 其 他 模块 人 t 通道 控制 、Cache 控制 、 
数据 压缩 等 ， 这 些 硬件 芯片 在 一 个 高 端 存储 中 有 多 个 ， 这 些 功能 的 相互 配合 和 运作 要 求 CPU 数 
量 足 够 与 之 匹配 ， 而 频率 则 没有 过 多 要 求 。 

(3 ) 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 IO 操作 的 优化 ， 需 要 消除 逻辑 上 IO 的 瓶颈 。 

高 端 存 储 的 一 个 必须 考虑 的 东西 就 是 同时 满足 大 量 客户 端的 并 发 操作 。 大 量 的 不 同 种 类 的 IO 
类 型 同时 进入 ， 此 时 要 求 算法 能 够 临危 不 惧 不 乱 ， 井 井 有 条 地 对 这 些 IO 进行 queue、requeue 分 
类 等 操作 。 首 先 算法 本 身 应 该 效率 足够 高 ， 其 次 CPU 应 当 足够 强 或 者 核心 足够 多 从 而 使 得 算法 
更 快 地 执行 而 不 产生 等 待 ， 这 样 才能 满足 大 量 数据 源源 不 断 地 进出 而 不 是 堵塞 在 Cache 中 ， 高 端 
存储 Cache 动 辑 几 百 GB， 这 就 要 求 操作 手 需要 更 快 地 充满 或 者 清空 这 些 空间 以 便 接 受 更 多 IO。 

(4 ) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 Snapshot、Mirror、DR 、Dedup 、Cache 分 区 
等 。 这 些 东西 可 以 说 是 纯 软 件 操作 了 ， 对 磁盘 速度 没有 过 高 要 求 。 而 对 算法 要 求 很 高 ， 比 如 
Snapshot、Dedup 等 ， 你 看 Datadomain 为 什么 两 家 来 抢 他 ， 就 是 因为 它 的 算法 能 让 Dedup 在 在 线 
数据 上 运行 而 效率 足够 高 。 越 是 好 的 算法 ， 越 是 能 在 耗费 CPU 相对 较 小 的 情况 下 完成 相对 较 好 
的 任务 , 如 果 算 法 不 好 , CPU 利用 率 又 高 , 那 只 能 提升 CPU 来 补偿 了 。 还 有 诸如 Snapshot、 Mirror、 
Sync 等 操作 ， 其 底层 是 很 复杂 的 东西 ， 其 底层 要 保存 很 多 结构 比如 bitnap 之 类 ， 都 要 求 算法 和 
CPU 的 。 

个 人 认为 高 端 存储 主要 在 于 磁盘 数据 与 缓存 的 交换 ， 那 么 主要 性 能 就 体现 在 这 里 ， 那 CPU 的 
性 能 体现 在 哪里 ? 

刚才 已 经 列举 了 高 端 存储 除了 基本 的 数据 吞吐 服务 之 外 的 功能 以 及 CPU 对 其 影响 ， 这 里 就 
不 多 说 了 。 

仅仅 是 对 数据 预 读 或 控制 读 写 队列 ? 那么 现 有 的 CPU 是 不 是 足以 满足 需要 ? 

如 果 仅仅 是 prefetch、queue optimization，RAID 卡 上 的 CPU 也 做 的 不 错 ， 但 是 高 端 存储 需 
要 更 多 的 prefetch， 更 多 更 复杂 的 queue， 更 多 更 复杂 的 算法 ， 考 虑 的 更 多 ， 所 以 需要 CPU 足够 
强劲 。 现 有 的 CPU 都 是 根据 整个 系统 可 以 提供 的 动力 来 选用 的 ， 或 者 存在 商业 价值 的 因素 ， 不 
满足 要 求 就 花 钱 买 更 强 的 CPU。 

HDS、EMC 的 高 端 中 采用 的 类 似 分 布 式 的 结构 ， 采 用 大 量 相对 低频 率 的 CPU; 而 IBM 则 是 对 称 
多 处 理 器 结构 ， 抛 开 可 靠 性 等 因素 单纯 考虑 控制 器 性 能 ，IBM 的 DS8000 的 结构 通过 提升 小 机 性 能 
来 提升 存储 性 能 ， 究 竞 能 提升 到 什么 程度 ? 

CPU 性 能 提升 有 两 种 方式 : 整体 核心 数 和 整体 频率 和 。 这 两 种 提升 方式 的 选择 , 与 系统 软件 
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底层 结构 有 很 大 关系 。 如 果 系 统 底层 的 各 个 模块 之 间 是 互 不 牵制 ， 独 立 并 发 运行 的 多 个 进程 或 者 
线程 ， 并 且 明 显存 在 线程 并 发 数 已 经 受到 整体 CPU 核 数 的 限制 成 为 瓶 磊 了 ， 那 么 这 种 系统 采用 
提升 CPU 核心 数量 的 方法 ， 性 能 提升 最 为 有 效 。 

而 如 果 某 系统 软件 底层 采用 的 多 是 各 个 模块 之 前 有 牵制 不 能 并 发 运行 或 者 直接 单线 程 ， 这 
种 结构 很 容易 受到 CPU 频率 的 限制 ， 而 提升 核心 数 对 这 种 结构 没有 很 大 的 提升 ， 反 而 提升 单个 
CPU 的 频率 ,性 能 提升 很 大 。 然 而 ,不 管 什么 样 的 软件 架构 ， 随 着 产生 瓶颈 的 触发 因素 不 同 ， 比 
如 IO 的 行为 、 并 发 量 或 者 其 他 功能 性 模块 比如 snapshot 等 设计 的 不 同 , 对 这 两 种 架构 产生 的 影响 
也 不 同 ， 有 时 候 前 者 反而 可 能 受 频率 影响 ， 而 后 者 可 能 受 核心 数 的 影响 ， 这 时 候 就 需要 综合 判断 
取 平衡 了 。Ds8000 软件 层面 采用 什么 方式 ,我 不 清楚 。 但 是 无 外 乎 上 面 的 两 种 架构 。 

IBM 把 P6 装 到 DS8000 里 能 起 多 大 作用 ? 

这 不 是 起 多 大 作用 的 问题 ， 而 是 这 个 产品 就 是 这 么 设计 的 ， 用 小 机 充当 控制 器 。 


63. 数据 库 系统 与 文件 系统 的 关系 


数据 库 系 统 与 文件 系统 的 区 别 是 什么 ? 最 近 买 了 《大 话 存储 》， 正 在 读 ， 感 觉 不 错 。 

数据 库 是 应 用 程序 ,一般 都 是 运行 在 操作 系统 之 上 的 。 而 文件 系统 是 操作 系统 内 核 的 一 个 模 
块 ， 运 行 于 操作 系统 内 核 。 然 而 ， 数 据 库 也 有 文件 系统 的 功能 ， 即 ， 可 以 自己 管理 和 分 配 磁盘 上 
的 Block， 读 写 数据 ， 当 然 也 可 以 利用 OS 内 核 的 文件 系统 来 读 写 文件 数据 。 


64. Iometer 中 Worker 的 问题 


您 好 ,我 想 请 教 您 一 下 在 使 用 IOmeter 进行 测试 的 时 候 , 多 个 worker 连 一 个 盘 和 一 个 worker 
连 一 个 盘 测 试 有 什么 区 别 呢 ?谢谢 ! 还 有 当 经 过 samba 和 NAS 导出 的 盘 显 示 成 黄色 红 杠 的 时 候 , 怎 
么 开始 测试 。IOmeter 写 入 iobw. tst 文件 的 时 候 , 怎么 写 入 , 写 入 多 大 啊 ? 非 常 感谢 您 ! 

如 果 你 这 多 个 盘 是 同一 台 盘 阵 , 如 果 想 测试 整体 性 能 , 得 需要 知道 这 个 盘 阵 内 部 是 如 何 对 IO 
进行 处 理 的 ,如 果 只 测试 一 个 盘 , 可 能 并 不 能 反映 这 人 台 设 备 的 真实 能 力 ,因为 设备 有 可 能 基于 LUN 
来 分 配 资源 ， 如 果 只 对 一 个 LUN 进行 IO 测试 , 则 这 样 的 话 很 有 可 能 盘 阵 列 就 有 所 保留 ,所 以 最 
好 是 每 个 盘 都 多 个 worker 测试 。Iometer 好 像 不 能 对 NAS 盘 符 的 ， 可 以 对 iSCSI。 那 个 文件 是 要 
充满 整个 盘 的 ， 如 果 直 接 测试 raw 设备 ， 则 不 会 写 文件 。 测 试 格式 化 后 的 磁盘 ,会 一 直 写 满 。 这 
个 不 用 我 说 你 自己 试 试 也 能 试 出 来 。 


65 . 测试 用 Block 大 小 的 问题 


网 络 存储 测试 中 测试 存储 系统 性 能 的 I0PS 时 ， 为 什么 块 大 小 选择 512B ~ 64KB 啊 ? 512B 肯 
定 是 因为 磁盘 的 扁 区 原因 ， 可 64KB 是 怎么 回 事 ? 

要 获取 IOPS，IO Size 当然 要 最 小 , 也 就 是 512B 了 ,IO Size 过 大 的 话 , 会 在 IOPS 较 低 的 情 
襄 下 就 已 经 达到 饱和 链 路 带宽 了 。 此 时 不 足以 反映 设备 的 真实 饱和 IOPS。 达 到 最 大 IOPS 的 条 件 
是 完全 利用 所 有 前 端 接 口 发 送 请 求 , 512B 的 连续 IO , 并 且 链 路 带宽 没有 饱和 , 此 时 所 得 到 的 IOPS 
数据 便 是 系统 饱和 IOPS。 

当然 这 种 情况 下 的 IOPS 吞吐 能 力 是 没 多 少 意义 的 。 在 小 块 随机 IO 情况 下 的 IOPS 更 具有 意 
义 。 更 有 甚 者 要 求 不 使 用 内 部 Cache， 甚 至 连 物理 磁盘 的 读 Cache 都 不 使 用 ， 在 这 种 情况 下 所 得 
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到 的 IOPS 数据 则 可 以 反映 设备 对 后 端 磁盘 IO 的 优化 程度 。 至 于 64KB， 这 个 就 因 人 而 异 了 , 总 
之 ， 要 根据 环境 来 进行 测试 。 比 如 你 的 环境 中 主机 的 IO Size， 最 好 能 做 成 一 个 图 ， 取 几 个 点 ， 然 
后 针对 存储 IOPS 吞吐 ， 结 果 再 做 一 个 图 ， 这 样 比较 直观 地 反映 存储 在 各 种 Size 和 随机 率 IOPS 
情况 ， 并 判断 这 个 设备 是 否 比较 均衡 而 不 是 大 起 大 落 。 

但 是 我 想 测试 网 络 存储 系 统 的 性 能 ， 也 就 是 通过 网 络 连接 后 的 存储 系统 ,希望 能 尽 可 能 地 模 
拟 真实 的 环境 ， 就 需要 不 同 的 I0 Size 了 。 但 是 I0 Size 的 选择 有 个 范围 ， 测 试 时 想 采 用 I0 Size 
线性 递增 的 方式 进行 ， 即 512B，1KB，2KB，4KB ，.….… 64KB，.….…， 但 是 最 大 多 大 合理 ， 是 否 
是 一 直 递 增 ， 直 到 系统 的 响应 时 间 使 用 户 不 能 接受 为 止 。 我 在 某 个 资料 上 看 到 TCP 的 窗口 大 小 是 
64KB， 不 知道 是 不 是 跟 这 些 因素 有 关 ? 

根据 你 环境 中 主机 的 行为 而 定 , 如 果 主机 平均 在 64KB, 你 去 用 512B 测试 出 来 看 性 能 ， 那 就 不 
对 口 了 。IO Size 最 大 值 是 有 的 ， 两 个 地 方 限 制 : 协议 本 身 , 设备 本 身 。 前 者 是 协议 固有 限制 , 后 者 
则 根据 存储 端的 考虑 ， 有 些 存 储 设 备 并 不 严格 遵循 协议 ， 这 也 是 兼容 性 参差 不 齐 的 原因 。 最 后 你 又 
说 TCP 了 ， 那 么 我 更 不 明白 了 ， 你 这 是 测试 的 iSCSI 还 是 NAS 呢 ? IO Size 和 TCP 一 层 的 没有 直 
接 关系 。TCP 的 Buffer 大 或 者 小 ， 并 不 制约 上 层 的 东西 ， 倒 是 MSS 和 MTU 有 点 制约 关系 。 


66. 存储 性 能 的 衡量 指标 


存储 系统 的 性 能 衡量 指标 有 哪些 ?目前 , 我 用 三 个 海量 存储 系统 测试 的 性 能 指标 (元 数据 知 
吐 率 ， 并 发 访问 量 和 聚合 带宽 I0PS/ 响 应 时 间 ) 来 判断 网 络 存储 系统 性 能 是 否 正确 ? 由 于 网 络 存 
储 系 统 测试 时 是 通过 文件 系统 接口 来 测量 的 ， 因 此 不 知 能 否 测 出 网 络 存 I0PS/ 响 应 时 间 指 标 。 在 
衡量 磁盘 阵列 时 ， 这 个 指标 是 必需 的 ， 但 是 哪个 测试 是 基于 文件 系统 之 下 得 出 来 的 ? 疑问 中 .….… 

元 数据 吞吐 量 ， 其 实 没有 多 少 实 量 ， 看 元 数据 IOPS。 而 对 于 NAS 来 说 ， 这 些 IO 大 部 分 会 
Cache hit， 因 为 NAS 内 部 可 以 感知 自己 的 FS 逻辑 ，FS 预 读 元 数据 。 并 发 访问 ， 聚 合 带宽 ， 这 两 
点 IOPS 响应 时 间 曲 线 可 以 反映 出 一 台 设备 大 概 的 素质 了 。 当 然 可 以 不 通过 文件 系统 接口 ， 使 用 
RAW 直接 读 写 测试 。 

可 是 在 小 文件 模式 下 ， 元 数据 的 量 就 上 来 了 。 

我 的 意思 是 说 实 量 和 虚 量 的 概念 。 实 量 直接 导致 吞吐 量 上 升 ,而 虚 量 直接 导致 IOPS 的 上 升 ， 
小 文件 多 的 情况 下 ， 虚 量 相对 比较 多 ，IOPS 相对 较 大 。 

请 教 冬瓜 见 ， 如 果 别 人 只 给 我 们 提供 文件 系统 接口 ， 我 们 只 能 把 别人 给 的 网 络 存储 系统 当成 
黑 盒 子 ， 那 我 怎么 得 到 系统 的 I0PS 与 其 对 应 的 响应 时 间 ? 我 知道 在 磁盘 阵列 里 是 阵列 管理 器 决 
定 了 IOPS 的 大 小 ， 但 是 在 存储 系统 中 ， 由 于 磁盘 阵列 之 上 可 能 要 做 虚拟 化 和 并 行文 件 系统 等 ， 
用 IOPS 与 其 对 应 的 响应 时 间 来 衡量 这 样 的 存储 系统 可 信人 么 ? 还 有 几 个 问题 : 看 元 数据 更 应 该 看 
IOPS? 元 数据 操作 速率 和 IOPS 的 关系 怎样 ? 

看 来 你 的 存储 空间 就 是 一 个 基于 NAS 的 Volume。 如 果 你 使 用 linux/unix 系统 ， 那 么 可 以 将 
NAS 客户 端 也 就 是 主机 端 上 的 NAS 缓存 关闭 ，mount 选项 中 有 好 几 项 可 以 控制 这 个 行为 ， 这 样 
得 出 来 的 IO 是 可 以 排除 本 地 缓存 加 速 的 宰 IO 结果 。 不 管 怎么 虚拟 化 ,怎么 并 行 ， 最 终 我 们 要 的 
是 应 用 程序 能 够 得 到 快速 的 IO 处 理 服务 , 而 IO 测试 软件 就 是 可 以 从 一 定 角度 反映 应 用 程序 获得 
这 种 服务 的 具体 情况 的 。IOPS 和 响应 时 间 ， 以 及 吞吐 量 , 这 是 最 终 我 们 需要 看 的 ， 当 然 可 信 。 所 
谓 元 数据 操作 , 在 NAS 中 ， 比 如 NFS 中 的 getattr0 、fsinfo() 、fsstat() 、lookup(0 、 create( 等 。 这 些 
操作 根本 没有 实 量 ， 也 就 是 IO 中 没有 传输 实际 文件 数据 ， 而 都 是 元 数据 ， 这 个 你 去 抓 包 看 看 就 
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理解 了 。 这 些 没 有 实 量 的 IO， 块 小 ,频繁 ， 容 易 导 致 IOPS 上 升 而 吞吐 量 很 低 。 
67. 单 块 硬盘 的 IOPS 问题 


一 块 硬盘 的 I0PS 约 为 多 少 ? 通常 看 储存 的 性 能 IOPSIOPS 和 Throughput 这 两 个 参数 ， 那 一 块 
300GB SAS 硬盘 的 IOPSIOPS 大 约 多 少 ? 有 谁 知道 , 单 块 硬盘 , 不 配置 RAID, 不 使 用 RAID 卡 的 IOPS? 

这 个 不 能 顺 嘴 就 说 。 你 可 以 自我 测试 一 下 。 硬盘 有 Cache 的 ， 读 IOPS 在 一 定 条 件 下 甚至 可 
以 达到 上 千 。 小 块 随机 IOPS， 就 很 低 了 ， 几 十 都 有 可 能 。 通常 情况 下 ， 综合 来 说 ，15000 RPM 
的 FC 和 SAS 能 有 300 差不多 ，SATA， 差 不 多 160 吧 ， 这 是 8X 2 比例 混合 读 写 时 的 大 概 结果 。 
如 果 是 100% 随 机 读 ， 那 么 大 概 400 左右 ; 100% 比 例 随 机 写 ， 不 到 400。 


68. 何谓 “ 端 到 端 ”? 


端 到 端 到 底 是 什么 意思 ? 总 看 有 些 资料 说 “ 端 到 端 ”的 什么 什么 ， 这 个 词 到 底 什么 意思 啊 ? 
跟 什 么 相对 呀 ? 端 到 端 到 底 有 什么 好 处 ? 是 支持 的 传输 距离 更 远 么 ? 

端 到 端 不 是 好 处 和 坏处 的 问题 ， 只 是 一 个 事实 而 已 。 端 到 端 就 像 是 字面 上 理解 的 一 样 ， 一端 
到 另 一 端 ，through， 穿 透 性 的 。 具 体 还 要 根据 上 下 文 来 解释 。 比 如 TCP 是 端 到 端 有 状态 协议 ， 
意味 着 TCP 是 在 通信 双方 的 两 端 各 保存 状态 机 ， 不 管 两 端 之 间 经 过 什么 链 路 ， 用 什么 设备 相连 ， 
数据 包 走 的 哪 条 路 ,TCP 不 管 ,TCP 管 的 就 是 ed it 依次 循环 
下 去 。 再 比如 描述 存储 设备 ， 诸 如 “ 端 到 端 4Gb 带宽 ”， 这 里 的 端 到 端 ， 就 是 说 从 存储 前 端 到 后 
端 ， 接 口 带 宽 都 是 4Gb， 而 不 是 前 端 4Gb， 后 端 降低 到 2Gb， er 生 瓶 人 开 。 也 许 这 
就 是 所 谓 的 “好 处 ” 吧 ， 还 是 那 句 话 ， 端 到 端 和 好 处 坏处 没有 关系 ， 与 传输 距离 更 是 没有 一 点 关 
系 。 是 一 个 事实 而 已 。 


69. MSCS 对 iSCSI 阵列 的 要 求 


MSCS 双 机 ， 使 用 iSCSI 阵列 ， 目 前 担心 有 些 iSCSI 阵列 实现 不 是 很 完整 ， 咨 询 一 下 MSCS 对 
iSCSI 阵列 有 什么 特殊 要 求 么 ? 

只 要 注意 iSCSI 阵列 支持 SCSI2 Reservation 即 可 ， 最 好 支持 SCSI3 Reservation。SCSI3 的 
Reservation 是 SCSI2 Reservation 的 进化 版 , 专 为 并 行 多 客户 端 访问 LUN 而 生 , MSCS 是 一 种 HA， 
而 不 是 并 行 访问 。 MSCS 用 的 是 SCSI2 Reservation , 也 就 是 传统 的 Reserve 和 Release 的 command。 
Break reservation 是 要 由 客户 端 也 就 是 主机 端 来 实现 ， 主 机 不 Release，Reserve 永远 存在 ，SCSI2 
时 候 只 要 存储 端的 SCSI Stack 重新 reset 或 者 设备 断 电 重启 后 ， 即 Release。SCSI3 中 简单 的 reset 
或 者 reboot 并 不 能 release。 


70. IOPS 与 带宽 的 关系 


IOPS 与 带宽 有 什么 区 别 ? 存储 阵列 以 哪个 参数 为 性 能 指标 ? 

(1) IOPS 与 带宽 有 什么 区 别 ? 每 次 IO 就 是 一 次 操作 ， 比 如 读 从 哪 开始 的 多 少 扇 区 的 数据 ， 
这 就 是 一 次 IO。 每 次 IO 请 求 的 数据 量 乘 以 IOPS， 就 等 于 带宽 。 

(2 ) 存储 阵列 以 哪个 参数 为 性 能 指标 看 客户 端 对 存储 的 需求 了 ， 有 些 要求 高 带宽 比如 视频 编 
辑 ， 有 些 则 要 求 高 IOPS 吞吐 能 力 比如 一 些小 块 离散 的 ID。 前 者 虽然 达到 高 带宽 但 IOPS 可 能 较 
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低 ， 因 为 每 个 IO 请 求 的 数据 量 很 大 ， 后 者 IOPS 高 但 是 可 能 带宽 较 低 ， 因 为 每 次 IO 请 求 的 数据 


量 小 。 
71. 随机 与 连续 的 比较 


(1) 随机 读 是 不 是 比 顺 序 读 速 度 快 ? 

你 搞 反 了 吧 。 随 机 读 是 不 可 能 比 连续 读 快 的 。 这 里 “顺序 ”应 为 连续 ， 顺 序 和 并 发 是 一 对 ， 
连续 和 随机 是 一 对 。 如 果 没 有 Cache 的 作用 ， 随 机 读 更 是 慢 上 加 慢 。 有 了 Cache， 有 了 prefetch 
预 读 的 效果 ， 能 轻微 增加 随机 读 的 效果 ， 但 是 效果 的 提升 不 像 连 续 读 那么 显著 。 另 外 ， 如 果 你 用 
SSD， 那 么 又 另 当 别 论 了 。SSD 下 随机 IO 和 连续 IO 的 差别 没有 机 械 硬 盘 那 么 大 。 

(2 ) 随机 写 是 不 是 比 顺 序 写 慢 ? 

随机 写 同 样 比 顺序 写 慢 ， 如 果 没有 Cache， 那 后 果 是 很 严重 的 。 有 了 Cache， 能 大 大 提升 随 

写 的 速度 ， 但 是 仍然 比 连续 写 要 慢 一 些 。 即 便 有 了 Cache， 还 要 看 Cache 策略 ， 是 write back 
模式 还 是 write through 模式 ，write through 模式 的 话 ， 随 机 写 虽然 比 没有 Cache 情况 下 要 快 一 些 ， 
但 是 依然 很 慢 。write back 模式 下 ， 只 要 Cache 足够 大 ， 控 制 器 将 Data 收 进 来 并 作 妥 善 安置 后 便 
会 对 主机 返回 ack，IO 完成 ， 然 后 控制 器 会 对 这 些 随 机 的 IO 进行 重新 优化 写 盘 。 

(3) 存储 阵列 的 随机 读 写 是 不 是 比 顺序 读 写 性 能 差 ? 

只 要 是 随机 ， 总 比 连续 慢 。 不 管 单 盘 还 是 阵列 ， 有 无 Cache。 但 是 读 和 写 之 间 谁 快 谁 慢 ， 就 
得 看 Cache 了 。 


72. 关于 ZONE 和 争 抢 资源 的 问题 


“在 设计 Zone 时 ， 有 一 个 最 基本 的 原则 一 一 每 个 Zone 中 只 有 一 台 主 机 。 遵 循 这 样 规则 设计 
出 的 Zone, 结构 非常 清晰 , 不 会 有 错误 产生 .另外 可 以 防止 不 同 的 主机 争夺 对 磁盘 控制 权 的 情况 .” 
争夺 磁盘 控制 权 ， 如 何 理解 ? 

那 句 话 估计 是 作者 估 摸 着 乱 说 的 ， 说 的 时 候 又 没 说 底层 机 制 ， 可 以 不 必 在意 。 并 不 存在 所 谓 
争 抢 问 题 ， 争 抢 是 应 该 的 ， 如果 强 者 胜出 , 那 岂 不 是 只 有 一 个 Initiator 可 以 访问 target 了 么 ?这 个 
所 谓 “和 争 抢 ”是 正常 现象 。 所 以 说 这 个 作者 在 估 摸 着 乱 说 ， 只 是 为 了 体现 Zone 的 重要 性 而 已 。 
SCSI3 PR 用 于 并 行 访 问 ， 集 群 脑 裂 后 的 vote， 与 这 个 “ 争 抢 ”就 没有 关系 了 ，vote 就 是 在 争 抢 ， 
有 什么 反常 么 ? 


73. LAN Free 的 问题 


IP SAN 能 做 到 LAN Free 吗 ? 如 果 是 iSCSI 必然 用 到 Lan， 那 么 还 能 Lan Free 么 ? 

我 们 用 的 是 SL 500 磁带 库 ， 不 知道 如 何 实现 IP SAN 环境 下 的 LAN Free ? 

呵呵 ，Lan Free 这 个 概念 早 该 被 干掉 了 。 取 而 代 之 的 是 Front-End Free。 所 谓 Lan 不 一 定 就 
非得 指 代 前 端 客户 端 与 服务 器 通信 的 网 络 , 你 单独 弄 个 交换 机 用 于 存储 和 主机 , 不 一 样 是 Lan Free 
么 ? 但 是 这 个 单独 交换 机 ,是 不 是 也 是 “Lan" 啊 ?所 以 ,这 个 词 该 被 干掉 了 。 用 frontend 和 backend。 
后 文 对 这 些 概念 还 有 更 加 详细 的 论述 。 


953 


外 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


954 


74. 如 何 选择 磁盘 以 及 磁盘 阵列 的 问题 


冬瓜 头 , 你 好 ! 很 早 就 一 直 看 你 的 文章 ， 最 近 又 重新 拜读 了 你 的 《大 话 存储 》。 在 存储 应 用 
中 ， 我 一 直 在 思考 几 个 问题 : 

(1) 在 数据 库 等 关键 应 用 环境 下 ， 一 般 建议 配置 146GB 的 15krpm 光纤 磁盘 ， 而 不 选择 用 大 
容量 光纤 磁盘 。 我 的 理解 是 : 1466B 的 磁盘 重 构 时 间 短 ， 能 够 有 效 减 少 对 应 用 的 影响 。 但 是 在 性 
能 方面 似乎 没有 提升 。 

(2 ) 如 何 根据 一 个 应 用 来 选择 相应 的 磁盘 阵列 (例如 : 磁盘 阵列 的 前 端 端口 数 、 后 端 磁盘 通 
道 数 、Cache 大 小 ) ? 我 的 理解 是 : 前 端 端口 数 = 对 应 的 IOPS/ 单 块 磁盘 平均 IOPS/ 主 机 端口 平均 
并 发 磁盘 数 。 但 是 Cache 没有 办 法 来 计算 了 。 主 机 平均 并 发 磁盘 数 是 否 根据 不 同 厂商 不 同 ， 是 否 
有 经 验 值 呢 ? 

不 知道 ， 我 的 理解 是 否 有 偏差 。 还 请 帮助 指正 ， 谢 谢 ! 

感谢 支持 ! 就 我 的 理解 回答 一 下 。 

(1) 你 讲 的 有 一 定 道理 ， 即 从 Rebuild 时 间 角 度 考虑 。 但 是 选择 多 大 容量 的 硬盘 ， 得 根据 盘 
位 、 价 格 、 今 后 扩展 、 当 前 需求 量 等 因素 综合 考虑 。 我 想 你 说 的 “而 不 选择 大 容量 FC 磁盘 ”只 
是 某 种 条 件 下 做 出 的 决定 ， 没 有 普遍 性 。 理 论 上 讲 ， 磁 盘 越 多 ， 性 能 越 高 ， 不 管 是 从 带宽 吞吐 量 
还 是 IOPS 吞吐 量 的 角度 。 如 果 对 性 能 要 求 不 高 但 是 又 要 求 大 容量 ， 那 么 没有 理由 不 选择 容量 大 
的 盘 了 。 多 一 块 盘 ， 多 耗 电 ， 多 花 成 本 。 

(2 ) 不 同 的 应 用 的 确 会 产生 不 同类 型 的 IO ， 但 是 这 不 是 用 来 选择 盘 阵 的 最 重要 的 标准 。 如 
果 你 的 盘 阵 只 给 一 台 主机 、 一 个 应 用 来 用 ， 那 可 以 根据 这 个 往 下 调查 。 但 是 多 主机 并 行 访 问 情 况 
下 , 并 行 的 IO 在 一 起 会 将 原本 单 路 IO 的 属性 混沌 化 , 使 得 IO 属性 对 盘 阵 的 影响 降 为 次 要 矛盾 。 
此 时 主要 看 盘 阵 的 硬件 规格 参数 ， 还 有 其 SPC 评测 理论 值 ，Cache IOPS, 非 Cache 的 IOPS， 即 
Write Through 模式 下 的 IOPS。 首 先 需 要 弄 清楚 主机 端 到 底 可 以 以 多 大 的 速率 、IO 来 轰炸 存储 ， 
然后 再 根据 存储 的 理论 规格 来 定 ， 最 直接 的 办 法 就 是 进行 模拟 测试 ， 以 实际 数据 为 准 。 我 不 清楚 
“主机 并 发 磁盘 数 ” 具 体 你 指 的 是 什么 意思 。 


75. 所 谓 “ 坏 扇 区 转移 ”功能 


“ 另 一 个 额外 的 容错 功能 是 坏 遍 区 转移 (Bad Sector Reassignment ) 。 坏 扇 区 转移 是 当 磁 盘 
阵列 系统 发 现 磁 盘 有 坏 扇 区 时 , 以 另 一 空白 且 无 故障 的 扁 区 取代 该 扁 区 ， 以 延长 磁盘 的 使 用 寿命 ， 
减少 坏 磁盘 的 发 生 率 以 及 系统 的 维护 成 本 。 所 以 坏 扇 区 转移 功能 使 磁盘 阵列 具有 更 好 的 容错 性 ， 
同时 使 整个 系统 有 最 好 的 成 本 效益 比 。” 上 面 这 段 话 中 ， 这 个 坏 扇 区 转移 是 所 有 的 商家 都 有 这 个 
技术 ， 还 是 个 别 厂 家 的 ? 

被 忽悠 了 。 这 个 技术 是 SCSI3 中 详细 定义 的 协议 ， 他 只 是 实现 罢了 ， 没 什么 神秘 的 。 去 找 份 
SCSI 文档 看 看 就 知道 了 。 


76. 关于 不 同 设备 不 同 IOPS 的 问题 


向 冬瓜 头 请 教 一 个 问题 : NETAPP 不 同 设备 的 I0PS 数据 的 改变 是 依靠 什么 ? 软件 结构 还 是 硬 
件 型 号 ， 例 如 CPU、 主板 、 网 卡 还 是 什么 ? 


附录 1 存储 系统 问 与 答 精 华 集锦 @ 


CPU 总线， 外 部 接口 ， 磁 盘 数量 。ONTAP 系统 内 核 效率 不 同 平台 几乎 相同 的 ， 发 挥 到 多 少 
就 看 硬件 指标 了 。 


77. 3 块 盘 做 RAID 6， 坏 2 块 怎么 恢复 ? 


3 个 盘 做 的 RAID 6 是 如 何 实现 掉 2 盘 容 错 的 ? 3 盘 做 RAID 6 的 ，LSI8708 可 以 做 ， 那 么 怎 
么 使 用 1 块 盘 恢 复 其 他 2 块 盘 呢 ? 

不 过 ,你 就 3 块 盘 ， 有 必要 这 样 折腾 ?如 果 你 明白 RAID 6 基本 的 算法 ， 你 就 明白 了 。3 块 
盘 的 RAID 6， 我 做 个 比喻 吧 ， 数 据 盘 上 的 内 容 是 中 文 ， 校 验 盘 1 上 的 数据 是 英文 ， 校 验 盘 2 上 
的 数据 是 德 文 。 数 据 盘 和 校 验 盘 1 被 拿 掉 ， 一 样 可 以 从 德 文 盘 经 过 翻译 ， 回 到 中 文 。 

木质 上 ，RAID 6 就 是 将 数据 盘 用 两 种 不 同 的 校 验算 法 校 验 出 两 套 独立 的 校 验 数据 来 保存 。 
对 于 三 块 盘 的 RAID 6， 几 乎 所 有 算法 算出 来 的 其 实 等 同 于 3 盘 RAID 1。 


78. IOMETER 测试 问题 


问题 一 是 : 我 要 用 Iometer 测试 磁盘 阵列 的 最 大 IOPS，1lrt (10% 负 载 下 的 响应 时 间 ) 设置 
的 参数 里 面 有 一 项 是 并 发 I0 请 求 数 (在 Iometer 里 面 只 能 设置 进程 数 ， 这 个 我 知道 ) ， 现 在 要 
确定 这 个 参数 的 典型 值 (比如 10000 为 基数 ， 以 5000 为 步 长 递增 ) ， 但 是 我 不 知道 如 何 确定 这 
个 值 ， 我 只 知道 IOPS 的 峰值 2800000， 我 需要 根据 其 他 什么 参数 ， 如 何 来 确定 呢 ? 我 在 网 上 看 了 
很 多 测试 的 结果 报告 ， 发 现 大 家 并 发 数 大 多 定 为 64， 还 有 说 是 128 或 256 的 ， 这 是 为 什么 呢 ， 如 
何 确定 的 呢 ? 用 的 2 的 几 次 方 ， 这 是 什么 原因 ? 为 什么 不 用 整数 比如 我 写 的 10000 这 样 的 呢 ? 

这 个 并 发 IO 请 求 数 需要 根据 不 同 层次 的 限制 来 判断 : user level 和 kernal level 之 间 的 限制 ， 
device driver 处 的 限制 ， 适 配 卡 硬件 firmware 处 的 限制 ， 存 储 设备 处 适 配 卡 和 device driver、 
application 处 的 限制 。 取 它们 之 间 的 最 小 值 来 作为 这 个 并 发 IO 数 ， 再 大 的 话 ， 就 已 经 任意 一 处 被 
限制 ， 没 有 意义 了 。 至 于 每 一 处 的 数值 ， 需 要 你 去 调查 。 这 个 数值 也 就 是 queue depth， 看 到 这 个 
字眼 就 差不多 是 了 。 针 对 你 的 问题 ，10000 是 不 可 能 的 ， 也 没 必要 ， 一 般 来 讲 ，device driver 和 适 
配 卡 frmware 处 不 会 超过 256 的 ，64 是 折 中 数值 。 

问题 二 是 : 我 看 冬瓜 头 版 主 在 别 的 帖子 里 回复 说 ， 一 个 系统 测试 IJ0PS、 响 应 时 间 、 知 吐 量 ， 
这 三 个 指标 是 基本 的 。 我 想 请 问 ， 在 随机 I0 应 用 环境 下 ， 需 要 测 吞 吐 量 吗 ? 这 个 吞吐 量 是 指 什 
么 ? 单位 是 MB/s 吗 ? 如 果 是 的 话 ， 那 在 Iometer 测试 结果 里 面 ， 不 是 有 这 个 值 么 ， 还 需要 单独 
测试 么 ? 我 的 意思 是 在 测试 1rt 和 IOPS 的 时 候 就 可 以 得 出 这 个 值 。 如 果 测 量 吞 吐 量 的 峰值 ， 我 
知道 应 该 是 在 顺序 I0 应 用 环境 下 测试 对 吧 , 问题 是 我 现在 在 随机 I0 环境 下 , 测 吞 吐 量 有 意义 吗 ? 
并 且 是 可 以 直接 通过 IOPSX 块 大 小 得 出 的 啊 。 

这 属于 明知 故 问 了 。 随机 IO 下 主要 看 IOPS 和 响应 时 间 , 吞吐 量 意 义 不 大 。 当 然 如 果 某 个 设 
备 在 相当 随机 和 人 小 块 IO 下 依然 能 够 饱和 链 路 带宽 ， 那 是 相当 好 的 情况 了 。 


79. 计算 IOPS 


假定 : 
(1) 硬盘 没有 Cache，512B 下 随机 IOPS 为 150 
(2 ) RAID 卡 和 存储 都 没有 Cache 
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(3) 主机 端 I0 Size 512B 的 随机 I0， 读 写 比例 是 2: 3 

(4) RAID 5 

问题 ， 计 算 要 10000 的 I0PS 需要 多 少 块 盘 ? 

10000 x 0. 4+10000 x 0. 6 x 4=28000 

28000= 150=186. 7 即 需要 187 块 盘 才 可 以 达到 需求 ， 

则 最 大 的 吞吐 量 为 10000 x 512B=5. 12MB/s 

请 问 ， 这 样 的 计算 是 否 正确 ? 

你 还 少 了 一 个 假定 ， 就 是 RAID 控制 器 不 能 并 发 IO ， 也 就 是 这 个 RAID 5 时刻 处 于 单个 IO 
的 读 改写 的 状态 。 有 了 这 些 假设 , 就 可 以 大 致 算出 了 。RAID 5 写 惩罚 , 在 单个 随机 IO 读 改写 模 
式 下 , 共和 额外 产生 1 个 写 和 两 个 读 。 所 以 10000 x 0.4 x 2+10000 x 0.6 x 2=20000，20000=150=134。 
不 过 这 个 数字 基本 没 多 大 意义 。 实 际 情况 下 ，RAID 5 视 磁盘 数量 多 少 ， 可 以 并 发 不 少 IO 的 , 最 
好 的 情况 下 是 可 以 整 条 写 , 写 惩罚 没有 读 IO, 而 RAID 5 任何 情况 下 写 惩罚 中 的 写 IO 只 有 一 个 ， 
就 是 写 Parity。 而 随 着 并 发 几率 增加 ， 读 改写 或 者 重 构 写 时 的 写 惩罚 更 为 严重 ， 增 加 了 大 量 的 读 
操作 。 最 后 ， 还 要 看 后 端的 总 线 或 者 Loop 的 限制 ， 一 个 Loop 所 能 提供 的 带宽 和 IO 都 有 限 。 


80. 存储 系统 后 端 多 链 路 的 问题 


存储 设备 后 端 接口 数量 有 2、4、8、16 等 ， 如 EMC CX120 是 2 个 ，CX240 是 4 个 ，480 是 8 
个 等 。 可 控制 器 都 是 双 控 的 ， 后 端 有 较 多 的 链 路 除了 起 到 宛 余 的 作用 ， 是 否 还 有 其 他 功能 ? 本 人 
理解 一 个 控制 器 单位 时 间 内 只 能 使 用 一 条 链 路 ， 是 否 正解 ? 

宛 余 是 次 要 的 ， 后 端 更 多 链 路 主要 是 为 了 接 入 更 多 磁盘 啊 ! 谁 说 控制 器 单位 时 间 只 能 使 用 一 
条 链 路 的 ? 看 后 端的 芯片 ， 一 般 位 于 同一 共享 总 线 上 的 多 个 链 路 是 单位 时 间 一 条 ， 但 是 高 端 货 后 
端 都 是 无 阻塞 的 。 


81. RAID 类 型 与 IOPS 


情况 是 这 样 的 ， 目 前 本 人 正在 弄 一 家 六 百 台 的 网 吧 ， 原先 打算 买 两 台 游戏 服务 器 ( 就 是 虚拟 
盘 ， 把 游戏 放 在 服务 器 上 面 让 客户 机 来 读 取 ， 相 当 于 网 络 存 储 了 ) ， 原 先是 打算 用 四 块 300G SAS 
做 RAID 0 阵列 。 配 上 32GB 内 存 做 缓存 (因为 虚拟 盘 软 件 都 有 缓存 功能 ， 读 过 一 次 的 东西 会 在 缓 
存 里 ， 第 二 次 读 的 时 候 直接 读 内 存 ) 。 但 这 两 天 听 了 一 个 说 法 ， 讲 的 是 RAID 0 不 能 提高 随机 读 
写 性 能 ， 所 以 没有 必要 做 RAID 0， 因 为 网 吧 读 游戏 都 是 随机 的 多 。 看 了 冬瓜 头 前 募 的 博客 上 有 一 
篇 文章 ，“ 深 入 理解 各 种 RAID 相对 单 盘 速度 的 变化 ”， 他 的 结论 是 RAID 0 随机 读 写 仅 在 并 发 I0 
+ 分割 块 很 大 的 时 候 ，IOPS 显著 增加 。 但 对 这 句 话 不 大 理解 ， 不 知道 在 网 吧 这 个 案例 中 ， 到底 有 
没有 必要 弄 RAID 0。 

不 知道 你 网 吧 里 什么 架构 ，RAID 0 不 安全 ， 坏 一 块 盘 数据 全 丢 ， 除 非 找 数 据 恢复 公司 ， 幸 
运 的 话 能 恢复 一 些 。RAID 0 是 最 好 的 提速 方式 ,那个 文章 中 我 只 是 说 相对 于 单 盘 在 随机 IO 情况 
下 的 IOPS 提升 相对 幅度 。 另 外 ， 需 要 完全 深刻 地 了 解 IO 类 型 ,甚至 存储 系统 ， 首 先 推荐 你 阅读 
《大 话 存储 》 一 书 。 针 对 你 的 具体 问题 , 说 RAID 0 不 能 提高 随机 读 写 性 能 ， 是 错误 的 ， 当 然 可 以 
提高 ,但 是 得 看 情况 ， 有 些 条 件 显著 提高 ， 有 些 则 不 显著 。 

RAID 0 随机 读 写 , 在 并 发 IO+ 分 割 块 大 的 情况 下 显著 提升 IOPS， 你 不 理解 这 句 话 可 能 是 因 


附录 1 存储 系统 问 与 答 精 华 集锦 @ 


为 分 割 块 的 问题 ， 这 里 所 谓 分 割 块 当时 我 没有 用 Segment 这 个 词 蔡 代 , 如果 蔡 代 了 ,你 就 明白 了 ， 
如 果 还 不 明白 ， 那 么 我 再 说 下 去 就 要 大 费 口舌 了 ， 就 不 如 你 去 看 看 书 来 得 快 和 益处 多 。 到 底 用 不 
用 RAID 0, 刚才 也 说 了 ,RAID 0 最 好 , 但 是 你 要 忍受 数据 丢失 的 风险 ,综合 评判 ， 折 中 方案 是 
使 用 RAID 5， 既 然 客户 端 都 是 读 而 不 写 ， RAID 5 读 的 时 候 与 RAID 0 几乎 相同 效率 。 
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看 到 本 版 讨论 的 都 是 非常 大 型 的 存储 ,我 都 有 点 怕 自 己 的 小 小 系统 问题 拿 不 出 手 ， 不 过 还 是 
鼓 足 点 勇气 请 教 大 家 了 。 不 过 我 这 个 系统 主要 是 我 个 人 用 的 ， 对 个 人 而 言 属于 较为 奢侈 的 存储 设 
备 了 吧 ? 由 于 本 人 的 工作 室内 部 资源 分 享 需要 ， 我 需要 组 建 一 个 六 个 客户 端 并 发 ， 每 个 客户 端 
50MB/s 的 文件 服务 器 ， 复 制 的 都 是 较 大 的 文件 ， 一 般 超 过 16B。 (注意 50MB/s 是 M 字 节 每 秒 ， 
不 是 比特 每 秒 ) 。 这 意味 着 该 服务 器 起 码 需要 300MB/s 的 并 发 速度 。 为 此 ， 我 的 硬件 配置 为 : 

Dell 690 工作 站 (Intel 5110 cCPU / 4g ram / Intel 5000x 芯片 / Intel 632x 南 桥 芯 
片 组 ) ，Intel 9402pt pci-e 4x 双 口 网 卡 ， 共 两 块 。Highpoint 4320 pci-e 8x RAID 卡 。Netgear 
724at 支持 802. 3 ad 动态 聚合 的 交换 机 。4 块 Seagate es.2 500g 企业 级 SATA 硬盘 (备注 ， 
我 本 来 打算 要 购买 8 块 凡 RE3 的 硬盘 的 ， 后 来 打算 先 随便 测试 看 看 能 够 跑 多 少 ， 于 是 找 了 四 块 
希捷 硬盘 来 测 ) 。 我 已 经 完成 的 部 分 测试 : Dell 690 安装 Win2008 SP2 正版 系统 ， 开 启 共享 ， 
关闭 防火 墙 ， 四 个 硬盘 通过 Highpoint 做 RAID 0 测试 。 每 个 客户 端 都 是 Win2008 系统 ， 都 是 千 
兆 pci-e 网 卡 。 

测试 : 

Intel 9402pt 两 块 ， 每 块 两 端口 ， 任 何 一 个 端口 跟 我 的 一 台 客 户 端 机 (也 是 Win2008 SP2 ) 
连接 ， 可 以 达到 90MB/s 的 速度 ， 这 个 时 候 只 让 这 一 个 网 口 工作 ， 不 接 交换 机 ， 不 做 网 卡 聚合 。 
实际 上 就 是 单 测 一 台 客 户 端 连接 到 Dell 690 工作 站 上 的 速度 。 

测试 : 

将 Intel 9402pt 两 块 总 共 四 个 端口 做 聚合 1inkagg0，Netgear 交换 机 也 做 对 应 聚合 。 然 后 
发 动 四 个 客户 端 通过 Netgear 交换 机 同时 连接 到 Dell 690 已 经 做 好 RAID 0 的 硬盘 阵列 复制 东西 
大 约 506B 数据 ， 一 个 客户 端 20MB/s， 一 个 客户 端 多 于 10 MB/s， 另 外 一 个 30MB/s， 另 外 一 个 也 
是 15MB/s。 

测试 : 

因为 对 上 述 结 果 迷 惑 不 解 ， 于 是 将 网 卡 linkaggr 去 除 ， 分 散 成 独立 的 4 个 网 卡 端口 ， 每 个 
网 卡 端口 直接 接客 户 端 机 器 (不 经 过 交换 机 ) ， 这 个 时 候 的 性 能 更 加 可 怜 ， 有 的 40MB/s， 有 的 
5MB/s， 四 个 网 口 加 起 来 总 共 速 度 才 75MB/s。 

测试 : 

Highpoint 4320 卡 为 新 购 入 ， 购 入 后 我 已 经 用 它 倒 入 10006B 的 数据 做 稳定 测试 ， 没 有 任何 
问题 。 另 外 ， 四 个 Seagate es. 2 500g 硬盘 组 成 的 RAID 0 阵列 用 HDtune 测试 速度 在 250MB/s 左 
右 。 我 反复 做 了 很 多 次 测试 ， 但 是 就 没有 看 到 过 四 个 网 卡 总 共 并 发 超过 90MB/s 的 情况 ， 无 论 是 
网 卡 聚合 还 是 网 卡 不 聚合 ， 无 论 是 接 交换 机 还 是 不 接 交 换 机 。 到 此 ， 我 已 经 迷惑 不 解 了 ， 我 虽然 
没有 买 专业 化 的 存储 ， 但 是 我 购买 的 这 些 东 西 都 是 性 能 很 好 的 东西 ， 例 如 Intel 9402 pt 网 卡 ， 
我 放 着 好 几 块 8492mt 网 卡 没有 用 , 花 了 将 近 3000 元 买 了 两 块 回来 . 例如 RAID 卡 , 我 没有 用 Dell 
690 的 RAID, 而 是 花 了 将 近 4000 元 购买 了 Highpoint 4320 卡 。 另外 交换 机 ,都 是 正宗 支持 802. 3 
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ad 聚合 的 Netgear 724at 交换 机 ， 一 个 交换 机 就 是 5000 元 。 至 于 网 线 ， 我 全 部 是 采用 六 类 品牌 
线 。 所 有 这 些 部 件 单 测 都 没有 问题 的 。 

我 自己 整理 的 怀疑 思路 : 可 以 排除 CPU、 内存、 交换机、 网卡 本 身 的 问题 ， 因 为 CPU 源 自 始 
至 终 测试 都 是 在 30% 以 下 ， 内 存 也 足 足 有 余 。 排 除 交 换 机 是 因为 不 接 交换 机 ， 四 个 网 卡 口 独自 工 
作 总 带宽 也 上 不 去 ， 网 卡 每 个 口 我 都 做 过 几 个 小 时 大 数据 测试 的 。 

剩 下 的 怀疑 : 

(1) Dell 690 主板 南 桥 有 问题 ?只 是 猜测 ， 南 桥 那么 大 的 带宽 ， 随 便 给 点 就 超过 100MB/s 了 。 

(2) Win2008 SMB 共享 协议 限制 速度 ? 或 者 这 个 协议 并 发 能 力 上 薄弱 ? 

(3) Seagate 的 SATA 硬盘 阵列 并 发 响应 能 力 薄弱 ?虽然 SATA 的 并 发 能 力 由 于 不 支持 TCQ， 
而 只 是 支持 NCQ， 但 是 并 发 响应 能 力 不 至 于 如 此 薄弱 吧 ? 

瓶颈 究竟 出 在 什么 地 方 ? 请 有 经 验 的 高 手 帮 帮 我 吧 

这 问题 我 遇 到 过 ,而 且 是 在 一 台 专 业 设备 上 , 专业 设备 尚且 如 此 ,更 不 用 说 Win2008 搭建 起 
来 的 DIY 了 。 总 体 来 说 还 是 软件 效能 问题 ，CPU 内 存 和 IO 总 线 没有 瓶颈 ， 而 且 后 端 磁盘 少 说 也 
得 接近 200MBAs 才 算 可 以 ( 你 读 的 大 文件 ) 。 所 以 还 是 软件 处 的 瓶颈 。 另外, 交换 机 上 的 那 种 aggr 
最 好 别 用 ， 根 据 以 前 的 实验 ， 几 乎 无 效 。 很 大 程度 上 与 底层 驱动 层面 有 关系 ， 你 如 果 换 成 FC 的 
方式 ， 则 能 够 利用 全 部 带宽 ， 而 不 管 你 用 CIFS 还 是 ISCSI， 得 到 的 总 是 一 块 卡 的 效果 ， 甚 至 还 不 
到 。 可 以 换 成 WSS 系统 试 一 试 , 或 者 用 FreeNAS，Openfiler，Opene 等 来 DIY。 

了 解 之 前 情况 可 以 参看 我 前 面 的 帖子 。 另 外 ， 我 下 周一 还 预约 了 测试 更 多 的 sas 硬盘 做 成 阵 
列 ， 不 过 我 几乎 不 抱 希望 了 。 

在 之 后 又 完成 了 如 下 测试 。 

一 : 服务 器 商 那 边 测 试 。 前 日 Chinaunix 发 完 帖 以 后 睡觉 ， 睡 到 昨日 下 午 。 因 为 已 经 约 好 到 
一 家 专门 做 服务 器 的 地 方 去 看 。 这 家 服务 器 商 婚 有 品牌 的 味道 , 也 有 DIY 的 味道 .见面 寒 暗 过 后 ， 
直接 开 测 ， 平 台 为 超 微 的 5500 平台 ，RAID 卡 为 RocketRAID 3560， 这 个 卡 支持 的 硬盘 比 我 的 多 ， 
多 达 24 个 , 但 是 我 的 性 能 比 它 的 强 , 我 的 IOP 是 1.2GHz 的 . 用 了 四 个 STes. 2 1TB 企业 级 SATA 
硬盘 。 结 果 性 能 跟 我 之 前 的 测试 差不多 ， 三 台 机 器 并 发 测试 就 是 75MB/s 差不多 。 看 来 可 以 排除 
主板 南 桥 的 问题 了 。 

二 : 回 到 家 中 换 成 FreeNAS 把 系统 换 成 FreeNAS 测试 ， 居 然 并 发 性 能 比 Win2008 的 差 ， 看 来 
Win2008 的 SMB 性 能 比 Win2003 好 不 少 ， 文 件 传输 并 发 性 能 是 不 是 比 Freebsd 好 呢 ? 有 趣 的 是 : 
我 在 三 台 客户 端 机 器 上 同时 从 服务 器 上 复制 一 个 文件 的 时 候 ， 奇 迹 发 生 了 ， 网 卡 居然 可 以 跑 到 
900Mb/s (我 这 时 没有 做 交换 机 聚合 ， 也 没有 做 网 卡 聚合 ) ， 也 就 是 110MB/s， 这 个 速度 显然 是 非 
常 令 人 惊讶 的 ， 千 兆 网 卡 的 极限 啊 。 我 当时 就 开心 的 几乎 跳 起 来 了 ， 然 而 我 马上 冷 下 来 了 ， 如 果 
是 不 同 的 文件 呢 ， 于 是 立即 开始 测试 ， 当 三 台 机 器 每 个 机 器 从 服务 器 上 复制 不 同 的 文件 的 时 候 ， 
整个 速度 立即 下 降 ,， 估计 总 共 就 是 45MB/s, 这 个 速度 还 不 如 Win2008 下 的 呢 .。 而 且 这 个 时 候 SATA 
RAID 0 阵列 速度 忽 高 忽 低 ， 一 会 儿 是 波峰 500MB/s， 一 会 波 谷 60MB/s， 总 体 来 说 跳 得 非常 厉害 。 
于 是 得 出 结论 ， 硬 盘 的 并 发 能 力 是 真正 的 瓶颈 .。 另外， 就 是 Freebsd 的 网 络 性 能 的 确 很 强悍 ， 我 
还 从 来 没有 见 到 过 千 兆 网卡 居然 可 以 持续 跑 到 940MB/s 的 。 还 有 就 是 UFS 文件 系统 性 能 是 不 是 比 
较 弱 呢 ? 怎么 比 Win2008 的 并 发 传输 能 力 差 啊 。 另外 就 是 Freebsd 的 网 络 负载 平衡 能 力 强 啊 ， 几 
个 客户 端的 速度 非常 平均 ， 但 是 在 Win2008 下 ， 高 的 45MB/s， 低 的 10MB/s。 
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三 : 15k6 SAS 硬盘 上 场 。 突 然 记 起 我 还 有 一 个 15k6 146G 15000 转 SAS 硬盘 ， 这 是 个 好 东 
西 ， 于 是 立即 接 上 。 环 境 还 是 FreeNAS。 三 个 客户 端 持 续 并 发 复制 不 同文 件 ， 速 度 总 共 是 18MB/s 
左右 ， 这 个 SAS 传输 东西 的 时 候 速 度 波动 很 少 ， 基 本 上 在 18MB/s 左右 波动 。 这 个 跟 宣 传 的 持续 
读 能 力 110MB/s 差 得 太 远 了 。 但 是 一 个 客户 端 连接 复制 东西 (其 他 客户 端 不 动 ) ， 速 度 可 以 很 轻 
松 跑 到 50MB/s。 

到 目前 为 止 的 结论 是 : 

(1) 硬盘 的 并 发 性 能 是 真正 的 瓶颈 。 我 这 几 天 看 了 些 文章 ,没有 确证 但 是 我 非常 相信 ， 人 家 
15 个 15k6 SAS 硬盘 ， 持 续 大 数据 并 发 读 写 不 过 就 是 100MB/s 多 一 点 。 看 来 一 并 发 ， 硬 盘 阵列 性 
能 就 下 滑 的 非常 厉害 。 

(2 ) 网 上 的 那些 测试 其 实 是 针对 单个 客户 端 而 言 的 ,说白 了 就 是 机 器 的 阵列 就 是 机 器 自己 用 ， 
如 果 组 成 阵列 速度 的 确 会 很 快 。 

(3 ) 并 发 环境 下 的 持续 读 写 速度 要 达到 200MB/s 以 上 ， 估 计 得 等 到 SSD 硬盘 了 。 靠 目前 的 机 
械 硬盘 ， 即 使 是 SAS， 如 果 不 像 大 公司 那样 ， 估 计 根 本 超 不 过 150MB/s 了 。 

(4) 我 觉得 现 阶段 要 达到 较 高 并 发 的 办 法 (不 一 定 对 ) 就 是 在 一 台 机 器 里 多 组 几 个 阵列 ， 放 
不 同 的 内 容 ， 让 客户 根据 内 容 分 流 了 。 例 如 5 个 15k6 SAS 硬盘 RAID， 并 发 持续 读 能 力也 就 是 
120MB/s， 但 是 我 如 果 分 成 5 个 盘 ， 最 好 的 情况 下 ， 五 个 客户 分 别 读 五 个 盘 ， 那 样 的 并 发 总 性 能 
就 超过 250MB/s 了 。 但 是 这 样 一 是 无 法 像 管理 RAID 那样 一 个 整 盘 管理 ， 另 外 一 个 方面 对 客户 的 
需求 无 法 良好 统计 从 而 优化 分 配 。 

(5) RAID 阵列 卡 的 作用 。RAID 阵列 卡 我 觉得 本 身 没 有 什么 大 的 加 速 作 用 (这 个 跟 厂 商 吹 叭 
的 是 两 码 事情 ， 从 这 点 可 以 看 出 ， 厂 商 是 多 么 一 致 的 忽悠 我 们 最 终 客 户 ) ， 就 是 一 点 Cache， 这 
个 起 不 了 什么 大 作用 。 但 是 我 认为 RAID 阵列 卡 在 保证 数据 安全 方面 还 是 比较 有 用 的 . 另外 , RAID 
阵列 卡 把 多 个 硬盘 的 性 能 一 定 程度 上 串联 起 来 了 , 这 样 针对 应 用 而 言 , 磁盘 性 能 得 到 了 很 大 提高 。 

今天 凌晨 完成 的 测试 ， 就 是 在 各 位 的 提醒 下 做 出 的 。 测试 目的 : 瓶颈 究竟 在 哪里 ? 测试 服务 
器 : Dell 690， 测 试 硬盘 : 4 块 Seagate es.2 500g，1 块 15k6 15000 转 SAS 硬盘 ， 不 做 任何 
RAID， 两 块 Intel 9402pt 网 卡 四 个 口 聚合 ， 交 换 机 做 四 个 口 聚合 。Win2008 SP2 系统 测试 客户 端 : 
4 台 笔记 本 电脑 ，1 台 PC， 均 是 千 兆 网 卡 。 测 试 方法 : 每 台电 脑 分 别 对 应 服务 器 上 的 一 个 硬盘 ， 
这 样 避免 硬盘 的 并 发 。 测 试 结 果 : 五 台 客户 端 并 发 的 时 候 ，Win2008 SP2 任务 管理 器 以 及 每 个 客 
户 端 分 别 监测 ， 从 服务 器 出 来 的 流量 稳定 在 2400Mbps， 也 就 是 300MB/s 每 秒 。 

测试 结论 : 

(1) 网 卡 聚合 和 交换 机 聚合 是 成 功 的 ， 网 络 上 许多 朋友 说 无 法 聚合 ， 那 是 因为 自己 的 交换 机 
太 差 ， 不 支持 802. 3 ad， 例 如 H3C 1216 / h3c 1224。 就 我 所 知道 的 ，5000 元 以 下 几乎 没有 支持 
802. 3 ad 的 交换 机 的 ，CISC0 有 支持 的 但 是 端口 是 100Mb/s 的 。 

(2 ) 真正 的 瓶颈 显然 清楚 了 ， 那 就 是 硬盘 阵列 。 之 前 做 的 RAID 0 阵列 死活 上 不 了 75MB/s， 
就 是 因为 并 发 性 能 很 差 , 现在 我 把 硬盘 打 散 不 做 聚合 , 各 自 复制 各 自 的 东西 ,结果 性 能 就 上 来 了 。 

(3) 未 来 的 希望 要 靠 SSD 了 ， 同 时 我 要 高 度 部 视 一 下 硬盘 厂商 ， 部 视 RAID 卡 厂商 ， 在 很 大 
程度 上 他 们 隐 恶 扬 善 ， 强 调 单 一 任务 的 性 能 ， 对 并 发 性 能 只 字 不 提 .。 

另外 ， 我 个 人 花费 了 大 量 的 时 间 和 精力 来 测试 ， 同 时 由 于 自己 之 前 的 一 些 无 知 ， 导 致 购买 了 
不 少 价值 比较 高 的 设备 ， 现 在 哭 啊 ， 大 家 安慰 我 一 下 吧 。 真 希望 SSD 硬盘 1TB 降价 到 3000 元 以 
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内 ， 如 果真 的 降价 到 这 个 程度 ， 明 天 我 就 过 去 打 几 块 回来 。 下 周一 ， 我 将 做 多 个 SAS 15k6 硬盘 
的 RAID 测试 ， 到 时 候 再 发 上 来 。 最 后 再 次 谢谢 冬瓜 头等 诸位 兄弟 们 。 姐 姐妹 妹 ， 估 计 这 儿 没 有 
吧 ， 如 果 有 ， 一 并 感谢 。 

嗯 ,并 发 的 大 块 连续 读 写 效率 确实 低下 的 。 读 同一 个 文件 那 是 Cache 的 速率 了 ， 所 以 能 撑 满 
带宽 。 并 发 情况 下 ， 而 且 数据 是 按照 横向 条 带 分 布 的 话 ， 由 于 磁盘 寻 道 产生 的 致命 影响 ， 多 盘 获 
得 的 IOPS 和 吞吐 量 提升 基本 上 相对 单 盘 幅 度 很 小 。 这 是 所 有 产品 都 不 能 避免 的 。 RAID 0 对 单个 
客户 端的 大 块 连续 读 写 提升 还 是 很 大 的 ， 这 不 能 怪 RAID 卡 ， 而 是 理论 上 已 经 不 可 能 达到 了 ， 
除非 分 多 个 RAID 组 , 或 者 算法 上 提供 用 户 自己 决定 数据 分 布 的 选项 ， 但 是 低 端 产品 别 指望 有 这 
些 ， 甚 至 高 端 产品 灵活 度 也 没有 这 么 高 的 。 楼 主 可 以 继续 做 如 下 实验 。 

实验 1: Size 适中 的 并 发 的 随机 IO。RAID 0 对 这 个 很 拿手 ， 与 单 盘 对 比 效率 定 大 增 。 

实验 2: 做 两 组 RAID 0, 两 个 盘 一 个 , 使 其 互 不 影响 , 调查 数据 并 作对 比 。IO Size 相 比 Stripe 
Size 较 大 的 时 候 ， 也 就 是 楼 主 的 环境 ， 读 写 大 文件 ，RAID 0 就 不 支持 并 发 IO 的。 其 他 RAID 类 
型 和 IO 类 型 ， 可 以 套用 本 书 第 4 章 中 的 几 个 列表 。 

不 错 不 错 ， 通 过 自己 的 试验 有 条 有 理 地 解决 了 疑问 。 不 过 ， 你 说 RAID 对 并 发 不 行 ， 也 是 
激 了 。RAID 0 如 果 增加 条 带 深度 ， 是 可 以 并 发 成 功 的 ， 你 看 那些 分 布 式 集群 存储 ， 比 如 XIV， 
等 效 条 带 深度 为 1IMB, 比如 3PAR ， 等 效 条 带 深度 为 256MB， 局 部 连续 地 址 范围 很 大 ， 所 以 这 样 
的 话 系统 整体 依然 可 以 并 发 多 个 上 层 IO ， 否 则 也 不 可 能 达到 几 万 几 十 万 的 IOPS。 至 于 一 些小 打 
小 六 的 RAID 卡 ， 其 条 待 深度 几 百 k 而 已 ， 局 部 连续 地 址 范围 太 小 ， 导 致 一 个 上 层 IO 同时 占用 
了 多 个 Segment， 此 时 完全 不 能 并 发 IO 了 ， 多 个 IO 得 排队 ， 寻 道 ， 传 输 。 

说 实话 ， 纯 种 RAID 3 估计 现在 没有 设备 可 以 真正 实现 了 ， 首 先 它 要 求 的 磁盘 磁头 位 置 同步 
以 及 转速 的 严格 同步 ， 这 技术 现代 的 存储 系统 都 不 考虑 了 , 现在 RAID 3 都 是 假 RAID 3, 即 条 带 
很 小 的 RAID 4，RAID 3 一 4 一 5 的 演变 过 程 郧 人 几 年 前 有 贴 讨论 过 ，《 大 话 存储 》 中 也 有 收录 。 
RAID 3 更 不 可 能 并 发 IO 的 ， 所 以 并 发 环境 下 ， 还 是 多 组 RAID ， 或 者 条 带 深度 达到 几 百 兆 级 别 
的 高 端 虚拟 化 级 别 的 设备 ， 方 能 满足 要 求 ， 此 时 由 于 算法 的 革新 ，SATA 盘 也 就 可 以 达到 很 好 的 
整体 性 能 。 


83. MPIO 和 MCS 的 关系 


您 好 ， 请 教 个 问题 , MPI0 和 MCS 负载 均衡 ， 具 体 性 能 上 会 有 差异 吗 ? MCS 是 每 个 session 多 
connection, 与 MPI0 多 个 session 具体 区 别 在 哪里 ? 另外 如 果 我 的 存储 两 种 方式 的 负载 均衡 都 支 
持 ， 我 可 不 可 以 先 做 MPI0 的 负载 均衡 ， 再 对 每 个 session 做 MCS 的 负载 均衡 ? 盼 赐教 ， 谢 谢 ! 

MPIO 里 没有 session 的 概念 , MPIO 没有 连接 状态 , 它 不 是 一 个 通信 协议 .MPIO 工作 在 SCSI 
层 之 上 ，iSCSI 的 MCS ( Multi Connections per Session ) 〈 你 问 的 时 候 应 该 注 明 是 iSCSI， 否则 别 
人 不 知道 你 指 什么 ,幸好 我 猜 出 来 了 并 作 在 TCP 层 ，MPIO 一 SCSI 一 iSCSIVFCP layer4 一 TCP/EFC 
lower layer 一 IP/FC lower layer>MAC/FC lower layer—physical bit encoder>physical cable， 这 是 整 
体 层次 。iSCSI 如 果 使 用 MCS， 只 是 底层 连接 链 路 ,或 者 TCP 连接 个 数 ( 使 用 同一 个 物理 接口 ) 
上 增多 了 ， MCS 层 上 发 现 的 还 是 同一 份 LUN 的 一 个 影像 。 而 MPIO 层 是 在 SCSI 之 上 了 , 例如 ， 
在 iSCSI Initiator 处 不 使 用 MCS， 通 过 两 个 网 卡 认 到 同一 个 LUN 的 两 份 影像 ， 这 时 候 就 得 用 到 
MPIO 层次 的 东西 了 。 你 问 到 的 先 用 MCS 对 每 个 session 做 均衡 ， 然 后 多 个 session 再 用 MPIO 来 
管理 ， 当 然 可 以 。 
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84. 链 路 负载 均衡 的 设计 


我 想 做 一 个 从 服务 器 网 卡 到 存储 设备 的 网 卡 之 间 的 线路 宛 余 (包括 网 卡 和 线路 交换 机 也 宛 
余 ) 的 方案 ， 每 台 服务 器 配 三 个 网 卡 (一 个 做 HA 的 心跳 线 ， 另 两 个 分 配 同一 网 络 的 同一 网 段 的 
IP 地 址 ， 如 A 网 卡 是 x. x. 2. 1，B 网 卡 是 x.x. 2.2) ， 把 两 个 网 卡 的 网 线 分 别 连 到 两 个 交换 机 上 
(就 当 它 是 个 普通 的 二 层 千 兆 交 换 机 ) 。 存 储 设备 是 一 个 普通 的 iSCSI 设备 ， 有 四 个 网 络 接口 ， 
两 个 交换 机 上 分 别 连 到 存储 设备 的 A 接口 和 B 接 口 。 这 个 存储 设备 支持 线路 捆绑 ,可 以 把 A 和 B 
网 卡 捆绑 形成 一 个 IP. 不 知道 这 样 的 方案 能 不 能 达到 我 所 需求 的 效果 ? 服务 器 那 边 是 否 也 要 对 两 
个 网 卡 进行 捆绑 ? 交换 机 是 否 要 求 要 三 层 交 换 机 ? 望 高 人 指点 ， 谢 谢 ! 

(1) 存储 端 支持 链 路 聚合 ， 是 什么 协议 ? Etherchannel 还 是 基于 LACP 的 Etherchannel。 但 是 
又 是 用 两 条 线 分 别 连接 两 个 交换 机 ， 这 样 的 话 ， 线 路 上 没有 什么 特殊 聚合 协议 ， 交 换 机 端 就 不 会 
管 什么 Channel 了 ， 不 是 端 到 端的 聚合 ， 而 只 是 存储 端 一 端 自己 的 聚合 ， 而 且 尚 不 知道 存储 端 是 
否 支持 这 种 一 头 自己 聚合 。 

(2 ) 存储 端 是 否 支持 ISCSI 的 Multi Connection per Session， 即 MCS 功能 ， 如 果 支 持 ， 就 多 

了 一 种 选择 ， 相 当 于 可 以 负载 均衡 的 多 路 径 软 件 。 如 果 不 支 持 ， 就 只 能 用 ISCSI Initiator 自 带 的 
MPIO 功能 。 不 过 还 是 推荐 MPIO。 

(3 ) 存储 端 是 否 具有 一 种 叫做 IP Fast Path 或 者 类 似 功 能 ， 即 外 出 流量 Bypass 路 由 表 ， 而 根据 
进入 的 IP Packet 所 流 经 端口 而 直接 转发 出 去 ， 类 似 记 录 session。 如 果 不 支持 ， 就 不 太 好 办 了 , 必 
须 将 两 台 交换 机 级 联 起 来 形成 一 个 广播 域 。 

用 不 着 三 层 交 换 机 。 如 果 存 储 端 支持 自己 本 身 的 聚合 ， 则 交换 机 最 好 连 起 来 ， 因 为 你 弄 不 清 
它 如 何 选择 外 出 转发 链 路 的 ， 除 非 你 有 把 握 。 

(1 ) 存储 设备 支持 以 太 网 的 链 路 聚合 ， 从 存储 端 用 两 条 线 分 别 连 接 两 个 交换 机 ， 是 考虑 到 交 
换 机 的 宛 余 。 如 果 把 捆绑 后 的 两 条 线路 都 接 到 同一 个 交换 机 上 的 话 ， 那 么 这 交换 机 坏 了 ， 线 路 自 
然 断 了 ， 我 也 不 知道 设备 是 否 支持 存储 单 端的 链 路 聚合 , 所 以 不 知道 此 方法 是 否 可 行 ? 

(2 ) 存储 设备 应 该 是 不 支持 MCS 功能 的 ， 您 说 的 在 ISCSI Initiator 使 用 MPI0 功能 ， 此 功 
能 在 Microsoft ISCSI Initiator 有 吗 ? 在 什么 地 方 ? 

(3) 存储 端 应 该 是 不 支持 Bypass 路 由 表 的 ， 我 的 这 个 拓扑 中 ， 服 务 器 的 两 个 网 卡 IP、 存 储 
设备 的 网 卡 IP 都 是 同一 网 段 的 ， 这 种 情况 下 好 像 并 不 需要 用 到 三 层 的 路 由 表 吧 ? 

(4) 另外 ， 至 于 您 说 的 “如 果 存 储 端 支持 自己 本 身 的 聚合 ， 则 交换 机 最 好 连 起 来 ， 因 为 你 
再 不 清 它 如 何 选择 外 出 转发 链 路 的 ， 除 非 你 有 把 握 ”， 你 所 指 的 交换 机 连 起 来 是 指 交 换 级 连 吗 ? 
还 是 交换 机 之 间 互 连 , 若 这 样 的 话 就 形成 二 层 环 路 了 . 假如 服务 器 的 两 网 卡 IP 是 同一 段 IP 的 话 ， 
就 是 不 知道 会 用 哪个 IP 跟 存 储 通信 ? 至 于 回流 的 数据 ( 即 从 存储 到 服务 器 方向 的 数据 流 ) 的 路 
径 应 该 是 可 以 确定 的 ， 从 哪 条 路 过 来 就 从 哪 条 路 回去 。 

呵呵 ， 怎 么 可 能 成 环 …… 难道 你 要 把 服务 器 看 做 一 个 转发 以 太 网 广播 的 网 桥 ? 可 以 ， 两 个 卡 
你 给 桥接 起 来 ， 成 环 了 。 你 怎么 能 确定 回流 的 它 就 哪 条 进来 哪 条 回去 ? 这 个 功能 是 要 单列 的 ， 普 
通路 由 表 模 式 下 就 是 有 一 个 默认 的 出 口 的 。session 模式 下 才 会 哪 条 进 哪 条 出 ， 那 是 一 些 路 由 器 之 
类 才 有 的 功能 ， 存 储 端 当然 也 应 该 实现 ， 你 最 好 和 厂家 去 确认 一 下 。 
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85. 关于 D2D2T 


我 们 公司 现在 有 一 个 这 样 的 FTP 应 用 , 使 用 磁盘 阵列 以 及 磁带 库 进行 二 级 存储 ,现在 想 在 磁 
盘 阵 列 上 开辟 一 个 区 域 用 于 缓存 磁带 库 数 据 。 这 个 缓存 怎么 做 ， 有 现成 的 算法 或 产品 吗 ? 

你 的 需求 貌似 是 一 个 分 级 存储 的 需求 。 既 然 你 的 盘 阵 可 以 直 连 磁带 库 ， 那么 就 证 明 它 已 经 开 
发 了 相关 的 模块 ， 你 要 在 它 上 面 放 缓存 ， 我 理解 缓存 中 的 数据 是 你 近期 可 能 要 调用 的 所 以 不 想 马 
上 就 放 磁带 ， 那 么 你 得 和 这 个 盘 阵 的 厂家 联系 看 看 是 否 有 这 个 功能 。 软 件 方面 灵活 度 就 高 了 ， 一 
般 D2D2T 的 备份 软件 都 提供 这 种 功能 ， 只 不 过 不 一 定 叫 “缓存 ”什么 的 ,一 般 备份 软件 都 把 这 
种 模式 叫做 Disk Stage， 你 可 以 选择 什么 时 候 将 Disk 中 的 数据 转移 到 磁带 。 


86. 断 开 ISCSI Session 时 总 是 报错 


为 什么 用 Windows 自 带 的 ISCSI 客户 端 去 连接 IP SAN ， 并 且 写 入 数据 后 ， 想 在 客户 端 把 
Target 退 掉 ， 为 什么 老 是 会 报错 (提示 session 的 问题 ) ， 老 是 退 不 掉 ， 是 微软 本 身 的 问题 吗 ? 
谢谢 ! 

确保 所 有 与 本 磁盘 操作 有 关 的 程序 都 推出 , 比如 打开 的 窗口 。 还 不 行 就 先 砸 Target 端 Unmap 
这 个 LUN， 然 后 断 开 。 


87. 针对 某 IO 测试 结果 的 分 析 


前 几 天 测试 了 一 台 BVA4400， 服 务 器 系统 Linux， 使 用 0rion 测试 的 ， 读 写 比例 90: 10。 使 
用 sar 和 iostat 监控 ， 其 中 发 现 了 这 种 情况 ， 请 各 位 给 解答 下 : EVA4400 满 配 12 块 硬盘 ， 我 划 
了 一 个 Disk Group, 划分 了 4 个 vdisk, 容量 分 别 为 几 十 6B, 服务 器 与 盘 阵 间 有 光纤 交换 机 ,Linux 
上 打上 了 了 是 的 多 路 径 软 件 ， 系 统 中 fdisk -1 ; 系统 盘 是 c040， 盘 阵 映射 到 服务 器 中 的 是 
sda/sdb/sdc/sdd。 测 试 结 果 如 下 。 

第 一 次 : 

0rion 测试 值 : 0， 46041, 41442， 3 和 3637 4， 3588 5, 3479 6, 
3411 7, 3310 8, 3206 

sar 值 (部 分 ) : 

13:55:34 DEV tps rd sec/s wr sec/s avgrq-sz avgqu-sz await svctm Sutil 

13:55:34 dev8-0 959.74 13795.80” 1564.84 16.00 14.72 15.33. 04 995.66 

L3555:30 ‘devB=16 L071:02 15539066. 169529001620040-8210.05. 02921.99535 

L3855:34 dev8=32. "1104542 171069=533 J968-.53 15s99 16>09 .13:359” 0284 99884 

13:55:34 dev8-48 L33390 L090615049 205751A L1600.220 1 16383 015 988 

iostat 值 (部 分 ) : 

10/26/09 13:55:34 

Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrq-sz avgqu-sz await svctm 
Sutil 

cciss/c0d00.00 0.500.000.40 0.00 3.6018.00 0.01 13.25 11.00 0.44 

sda 0.00 0.00 862.50 97.70 6904.00 781.6016.0114.74 15.34 1.04 


962 


附录 1 存储 系统 问 与 答 精华 集锦 @ 


99.75 

sdb DQ0 O00 SIZ2520 L050 T1600 848.8016.0010.83 10.05 9 
99.44 

sdc 0.00 0.00 1068.80 116.90 8544.00 I95520U999U6 1 9 0.84 
99593 

sdd 0.00 0.00 1186.00 128.80 9490.40 1031.2016.0022.13 16.83 | 
98.96 

第 二 次 : 

0rion 测试 值 : 0， 2470 1,874 2,650 3,653 4,634 5,623 6,597 7,597 8,580 

sar 值 (部 分 ) : 

14:19:04 DEV tps rd sec/s wr sec/s avgrq-sz avgqu-sz await svctm %util 

Lat19504 devi04=0" 1.20 0:00 26-43 22-00" 0:503 21.50 7:25. 0:87 

TAsT904 deve=0L36544 T9105:52227 :43 15511 L63512705937 T3410081L 

T4519:04" dev0=16148.715. 2146.15233.83, 16:00, 1.29 8-65 4-.57 68-03 

14:19:04 dev8-32165.17 2386.39296.30 16.24 46.35250.14 6.06100.11 

14:19:04 dev8-48186.29 2657.06323.52 16.00 1.56 8.39 4.01 74.62 

iostat 值 (部 分 ) : 

10/26/09 14:19:04 

Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrq-sz avgqu-sz avwait svctm 
Sutil 

cciss/c0d00.00 2.100.001.20 0.0013.2022.00 0.03 21.50 7.25 0.87 

sda O00 DD T2530 15.00 956.80 3 0L5 LEG L219 7.34 
100.01 

sdb 0.00 0.00 134.00 14.60 1072.00 116.8016.00 1.298.65 4.57 67.96 

sdc 0.00 0.00 147.00 18.00 1192.00 148.0016.2446.30 250.14 6.06 
100.01 

So” 02.00 05000 L165:90% 20520 1327>20" L616016:00 L1568539 Ta 0. T4555 

问题 : 

(1 ) 为 什么 4 块 盘 第 一 次 测试 负载 相同 ， 而 第 二 次 负载 不 同 ? 负载 相同 时 TPS 值 较 高 ， 而 负 
载 不 同时 TPS 很 低 ? 脚本 相同 。 

(2 ) 请 问 如 何 解决 这 种 问题 ? 在 其 他 客户 那里 也 见 过 这 种 情况 ， 造 成 服务 器 整体 性 能 很 低 。 
后 又 建立 两 个 vdisk， 添 加 到 服务 器 中 ， 发 现 同样 会 出 现 上 述 情况 ，1 个 负载 100%，1 个 百 分 之 
六 七 十 。 

4 个 盘 一 起 IO 么 ? 这 样 的 话 会 造成 所 有 磁盘 全 部 忙于 寻 道 ， 而 且 根据 控制 器 内 部 的 相关 策 
略 ，4 个 虚拟 盘 之 间 平 衔 可 能 会 被 打破 ， 所 以 有 些 高 有 些 低 。 先 单独 测试 每 个 盘 看 看 结果 ， 再 一 
起 测试 。 一 条 定律 ， 如 果 在 一 组 物理 磁盘 上 生成 了 多 个 虚拟 磁盘 ， 而 你 又 想 同时 对 这 多 个 虚拟 磁 
盘 进 行 并 发 的 IO 操作 并 且 想 达到 较 高 的 IO 和 带宽 ， 那么 重要 条 件 就 是 提高 Stipe Depth 或 者 类 
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似 定义 ， 越 高 越 好 。 
补充 一 下 , 尽 可 能 多 的 盘 在 一 个 Disk Group 中 , 适合 于 上 层 单 IO、 连 续 大 块 IO 的 情况 , 非 
常 适合 于 提高 单 IO 的 整体 吞吐 量 。 ws IO, 在 一 个 Disk Group 中 加 再 
多 的 盘 , 效果 也 提升 不 了 , 但 是 有 一 个 例外 ，Stripe Depth 如 果 增 大 到 可 观 的 程度 ， 盘 越 多 当然 越 
。 总 之 ，Stripe Depth 关系 着 上 层 并 发 IO 的 并 发 度 ， 在 并 发 IO 环境 中 起 着 决定 性 作用 。 


88. 关于 CDP 厂商 


现在 做 CDP 的 有 多 少 家 ? 

连续 数据 保护 ， 记 录 每 一 个 写 IO 并 附 以 时 间 戳 ， 在 一 段 时 间 内 可 以 恢复 到 任意 指定 的 时 间 
点 ， 粒 度 不 同 ， 厂 家 不 同 ， 楼 上 说 的 是 一 分 钟 的 力度 ， 也 有 秒 级 ， 毫 秒 级 ， 毫 秒 级 一 般 也 就 够 用 
了 ,因为 你 根本 不 知道 哪个 时 间 点 的 镜像 是 一 致 的 。CDP 相对 于 Snapshot 的 一 个 缺点 就 是 很 难保 
证 一 致 性 ， 只 能 通过 牺牲 RPO 来 保证 一 致 性 。 目前 飞 康 、EMC、IBM、Symantec 都 有 做 ， 其 中 
飞 康 和 EMC 功能 较 强 。 


89. Snapshot 与 CDP 在 一 致 性 保证 方面 的 区 别 


请 教 冬瓜 见 : (1) Snapshot 是 如 何 保证 一 致 性 的 ? (2) CDP 为 何不 能 保证 一 致 性 ? 原理 
是 哈 ? 

Snapshot 在 主机 端 有 各 种 文件 系统 甚至 应 用 程序 级 的 Agent 来 强制 将 一 致 性 的 缓存 数据 写 入 
硬盘 之 后 立即 做 一 次 Snapshot。CDP 是 记录 很 细 粒 度 的 写 IO, 你 总 不 能 每 秒 强制 应 用 或 者 文件 系 
统 将 缓存 刷 到 硬盘 吧 ? CDP 只 能 通过 牺牲 RPO 来 达到 一 致 性 ， 随 便 找 个 时 间 点 恢复 除非 磁 巧 ， 
一 般 是 不 一 致 的 。 所 以 需要 一 些 回 滚 手 段 ， 如 EMC RecoverPoint 就 是 利用 日 志 来 回 深 到 上 一 个 
Commitpoint 处 。 

是 不 是 可 以 说 是 以 镜像 的 方式 进行 数据 保护 的 ? 

因为 CDP 底层 实现 起 来 比较 复杂 ， 在 Online 存储 上 直接 实现 对 性 能 有 影响 ， 所 以 飞 康 等 都 
是 使 用 镜像 的 方式 先 将 Online 数据 镜像 之 后 再 在 镜像 上 实现 各 种 功能 。 三 种 镜像 方式 : 主机 端 
Agent (比如 LVM 等 卷 镜 像 软件 ) ，Fabric API 比如 SANtap Service ( FC 交换 机 端口 镜像 ) ， 存 
储 设 备 处 对 卷 镜 像 。 

对 于 CDP 对 数据 保护 的 一 致 性 方面 有 什么 见解 ? 

CDP 的 RPO 在 底层 看 似 是 0， 但 是 对 于 上 层 一 定 是 大 于 等 于 0， 因 为 需要 回 滚 ， 靠 CDP 自 
己 的 日 志 回 深 也 好 ,或 者 干脆 靠 应 用 层 回 深 也 好 。 另 外 ， 关 于 Snapshot 一 致 性 是 分 层 的 ， 文 件 系 
统 及 其 下 层 ， 还 有 应 用 层 ， 前 者 做 的 Snapshot 至 少 在 文件 系统 层 是 一 致 的 ， 但 是 不 一 定 应 用 层 一 
致 , 后 者 则 可 以 保证 应 用 层 一 致 。 还 有 ,CDP 得 根据 实现 方式 来 判断 是 否 是 “真实 的 数据 复制 ”。 
对 于 EMC RP 或 者 Ipstor CDP 这 种 镜像 数据 之 后 在 镜像 中 做 CDP， 当 然 是 复制 了 。 如 果 其 他 实 
现 方式 比如 直接 在 线 实现 或 者 使 用 附加 的 Block 仓库 方式 ， 那 也 需要 指针 。 

“所 以 基于 磁盘 Block 设备 的 CDP， 包 括 飞 康 的 、EMC 的 ， 都 是 扯淡 ! ” 

底层 只 能 是 先 保持 在 线 存储 的 同步 镜像 , 至 于 是 否 一 致 , 这 个 又 绕 回 来 了 , 两 个 一 致 性 层次 : 
文件 系统 及 其 下 层 ， 应 用 自身 的 Buffer ee 只 有 应 用 的 逻辑 一 致 性 才 是 端 到 端 

的 一 致 性 ， 也 是 追求 的 最 终 目 标 。 底层 实现 的 CDP 可 以 竺 上 层 回 滚 来 实现 一 致 性， 而 如 果 
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从 应 用 层 来 实现 CDP， 比 如 Oracle Dataguard， 可 以 看 做 是 一 种 CDP， 它 也 一 样 需要 应 用 replay。 
所 以 底层 CDP 和 上 层 CDP， 本 质 是 一 样 的 ， 不 是 扯淡 。 


90. 关于 LAN、WAN、SAN、FC、iSsCSI、NAS、LAN-Free、Frontend-Free 


请 解释 一 下 : LAN、WAN、SAN、FC、iSCSI、NAS、LAN-Free、Frontend-Free 

LAN: Local Area Network 

这 个 都 知道 ， 局 域 网 。 但 是 好 像 大 家 都 叫 习惯 了 ， 反 而 有 人 不 理解 LAN 的 本 质 意思 了 。 好 
好 看 看 这 三 个 字 ，“ 局 域 网 ”， 你 在 你 的 本 地 站 点 看 得 见 摸 得 着 的 所 有 网 络 ， 任 何 形式 的 网 络 ， 
都 属于 LAN。 比 如 : 本 地 电话 交换 网 络 ， 本 地 以 太 网 络 ， 本 地 存储 网 络 。 有 人 质疑 ， 本 地 存储 网 
络 也 属于 LAN? 存储 网 络 不 是 SAN 么 ”这 就 是 一 种 概念 不 清 并 且 不 统一 。 将 本 地 SAN 归纳 到 
LAN 中 将 会 很 好 地 统一 这 些 概念 ， 随 着 本 文 的 继续 读者 将 会 体会 到 。 

WAN: WIDE Area Network， 广 域 网 

泛 指 跨越 远 距离 的 链 路 , 或 者 地 理 上 相隔 很 远 的 两 个 网 络 互 联 起 来 形成 了 广域网 。 广 域 网 这 
个 词 在 应 用 的 时 候 大 部 分 时 候 指 代 长 距离 传输 链 路 , 即 WAN 常用 于 指 代 长 距离 链 路 而 不 是 网 络 。 
比如 在 说 “将 本 地 站 点 通过 WAN 连接 到 远程 ”， 这 里 的 WAN 就 是 指 长 距离 传输 链 路 。 为 何 
WAN 一 词 会 被 赋予 这 种 指 代 ， 原 因 是 因为 长 距离 链 路 普遍 都 是 点 对 点 链 路 而 不 是 多 点 互 访 型 链 
路 ， 所 以 一 个 广域网 ， 其 具有 广域网 意义 的 也 就 是 局 域 网 之 间 的 这 条 链 路 了 。 你 说 以 太 网 链 路 是 
和 否 可 以 作为 广域网 链 路 ， 当 然 可 以 ，FC 链 路 也 同样 可 以 跨 长 距离 ， 所 以 此 时 也 属于 WAN 链 路 。 

SAN: Storage Area Network， 存 储 区 域 网 络 

即 专用 于 传输 对 存储 设备 IO 数据 的 网 络 。 可 以 是 任何 形式 的 网 络 ， 比 如 FC 网 络 、 以 太 网 
络 \SAS 网 络 Infiniband 网 络 ,或 者 ,任何 形式 的 I 了 P 网 络 。 使 用 FC 网 进行 IO 传输 的 叫做 FC-SAN， 
同 理 , 使 用 IP 网 络 的 叫做 IP-SAN。 基于 SAS 网 络 的 呢 ? 当然 叫 SAS-SAN 了 , 以 此 类 推 。 那么， 
有 人 推出 来 个 Ethemet-SAN， 是 不 是 也 可 以 呢 ? 上 文 说 SAN 也 可 以 基于 以 太 网 络 。 没 错 ， 你 可 
以 这 么 说 ,你 可 以 把 FCOE 称 为 一 种 Ethernet-SAN。 那 么 P-SAN 是 否 也 属于 Ethernet-SAN 呢 ? 
部 分 属于 , 因为 也 -SAN 的 底层 链 路 一 般 情况 下 都 是 使 用 以 太 网 的 , 但 是 绝对 不 能 说 IP 就 是 以 太 
网 。 比 如 你 使 用 ADSL 通过 Itemet 一 样 可 以 连接 到 iSCSI Target， 那 此 时 就 不 能 称 其 为 
Ethemet-SAN 了 , 只 能 叫 IP-SAN。 以 上 列举 的 这 些 访问 方式 , 或 者 说 协议 , 目前 都 是 基于 Block 
形式 的 SCSI 协议 + 底层 传输 协议 。 还 有 另外 的 BlockO 访问 方式 协议 集 将 在 下 文 描述 。 

NAS: CIFS 和 NFS 以 及 其 他 第 三 方 厂商 自行 开发 的 基于 文件 偏 移 量 IO 的 文件 型 IO 协议 

业界 将 能 够 提供 文件 型 IO 访问 而 存储 数据 的 存储 设备 称 为 NAS， 即 Network Attached 
Storage。NAS 设备 在 局 域 网 内 部 目前 都 是 使 用 以 太 网 来 作为 底层 传输 链 路 的 ， 寻 址 路 由 和 传输 保 
障 协议 分 别 使 用 人 P 和 TCP 这 两 种 目前 最 为 广泛 的 协议 。 在 这 之 上 便 是 CIFS、NFS 等 上 层 协 议 了 。 
NAS 是 一 种 设备 ， 而 不 是 一 个 网 络 。 但 是 可 以 用 NAS 来 指 代 文 件 型 IO 的 访问 方式 , 比如 描述 某 
个 设备 的 IO 方式 是 Block 方式 还 是 NAS 方式 。 注意 , 避免 用 这 种 描述 Block 备 使 用 SAN 方式 还 
是 NAS 方式 ， 原 因 下 文 再 述 。 

SAN 所 包含 的 元 素 

关于 SAN 这 个 词 有 几 个 误区 或 者 不 成 文 的 说 法 ， 比 如 只 把 将 基于 FC 的 数据 传输 方式 叫做 
SAN, 或 者 反 过 来 ， 当 说 SAN 的 时 候 只 表示 FC-SAN 而 忽略 了 IP-SAN， 这 样 容易 对 阅读 方 造 


965 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


966 


成 不 便 、 混 乱 和 误解 。 比 如 在 描述 某 款 产品 的 时 候 ，“ 前 端 支持 SAN 方式 访问 ”， 其 实 这 个 设备 
只 支持 FC-SAN， 但 是 他 没有 明确 指出 是 否 支持 P-SAN， 这 样 就 给 阅读 者 带 来 了 不 便 。 
另外 , SAN 是 一 个 网 络 , 但 又 不 仅仅 只 表示 由 交换 机 组 成 的 底层 网 络 , 而 它 包含 更 加 丰富 的 
元 素 , 比如 磁盘 阵列 、 磁 带 库 、 虚 拟 化 设备 、 备 份 服务 器 等 。 可 以 说 SAN 这 个 词 与 SA( Storage Area ) 
近乎 同 义 了 ， 或 者 说 SAI ( Storage Area Infrastructure ) 。 比 如 可 以 这 样 说 ，“ 某 SAN 中 包含 两 台 
xx 磁盘 阵列 ， 一 台 备 份 服务 器 ， 一 台 磁 带 库 。 ” 
建议 : 今后 在 描述 具体 技术 参数 时 杜绝 单独 使 用 SAN 一 词 ， 代 之 以 FC-SAN 、IP-SAN、 
NAS-SAN 等 ， 或 者 干脆 直接 只 用 协议 来 描述 ， 比 如 FC、ISCSI、CIFS、NFS。 比 如 “前 端 
支持 FC、ISCSI 访问 方式 ”， 这 样 就 没有 任何 歧义 了 。 


各 种 关系 论 

LAN 与 WAN 的 关系 : LAN 与 WAN 就 是 本 地 和 远程 的 对 应 关系 ， 本 地 的 就 是 LAN， 远 距 
离 的 就 是 WAN。 

以 太 网 与 LAN 的 关系 : 绝对 不 要 把 LAN 等 同 于 以 太 网 。LAN 是 一 个 大 涵盖 ， 不 仅仅 包括 
本 地 以 太 网 络 。 如 果 某 人 描述 “客户 端 与 服务 器 通过 LAN 连接 ， 服 务 器 与 磁盘 阵列 通过 SAN 连 
接 ”， 这 句 话 不 是 不 对 ,但 是 描述 太 含 糊 ，“ 通 过 LAN 连接 ”， 哪 种 底层 链 路 ? 没 说 。 虽 然 大 
部 分 人 还 是 理解 其 意思 ， 但 是 终究 不 gs nord “通过 以 太 网 连接 ”。 另 外 ,本 地 SAN 也 
属于 LAN， 所 以 这 句 话 追究 起 来 ， 就 是 个 病句 了 。 

SAN 与 LAN 和 WAN 的 关系 : ee SAN, 或 者 说 SA, 完全 在 本 地 , 则 可 以 把 这 个 SAN 
归属 于 LAN。 如 果 某 个 SAN 是 跨 长 距离 链 路 部 署 的 , 则 可 以 说 这 个 SAN 跨越 了 WAN 或 者 WAN 

SAN 与 FC 和 1ISCSI 的 关系 :FC 泛 指 一 种 传输 协议 , 即 Fibre Channel。 用 FC 协议 来 承载 SCSI 
之 后 产生 的 协议 叫做 FCP。ISCSI 指 用 IP 网 络 来 承载 SCSI 之 后 产生 的 协议 , SAN 与 FCP 和 1ISCSI 
的 关系 ,就 是 网 络 与 协议 的 关系 ,数据 在 SAN 网 络 内 传输 时 使 用 的 多 种 协议 中 包含 了 FCP 和 1ISCSI 
协议 。 

SAN 与 NAS 的 关系 : NAS 指 一 种 设备 ，SAN 或 者 说 SA 指 的 是 一 种 网 络 和 这 个 网 络 区 域内 
的 各 种 元 素 。NAS 当然 也 属于 存储 区 域 中 的 元 素 ， 所 以 NAS 属于 SAN。 

乱七八糟 的 Free 

LAN-EFree: 这 个 词根 本 不 应 该 存在 。 关 于 它 的 由 来 ， 是 起 源 于 备份 领域 的 一 种 技术 。 
在 某 个 企业 网 络 系统 内 , 客户 端 与 服务 器 是 使 用 以 太 网 络 进行 数据 通信 的 ， eg 
备份 服务 器 和 介质 服务 器 也 需要 使 用 以 太 网 络 与 需要 备份 的 服务 器 进行 通信 ， 将 服务 器 上 需要 备 
份 的 数据 通过 同一 个 以 太 网 络 传输 到 介质 服务 器 上 从 而 写 入 介质 保存 。 由 于 客户 端 与 服务 器 通信 
的 以 太 网 络 的 繁忙 程度 直接 关系 到 客户 端的 响应 速度 ， 本 来 对 延迟 就 比较 敏感 ， 而 备份 数据 流 也 
通过 同一 个 以 太 网 进行 传输 ， 只 能 是 火 上 浇 油 。 那 位 说 了 ， 以 太 网 交换 机 目前 这 么 便宜 ， 再 买 一 
个 , 服务 器 上 再 加 个 网 卡 , 专门 用 于 备份 数据 流 的 传输 , 井 水 不 犯 河水 , 客户 端 以 太 网 不 就 是 Free 
了 么 , 不 就 行 了 么 ? 是 啊 , 所 以 说 “LAN-EFree” 这 个 词 真 的 让 人 摸 不 着 头脑 了 。 为 什么 这 么 说 呢 ? 
上 文 说 过 ， 很 多 人 都 直接 用 LAN 来 指 代 客户 端 与 服务 器 通信 的 前 端 以 太 网 ， 或 者 不 管 前 端 还 是 
后 端 ， 就 指 以 太 网 。 这 样 的 话 ， 刚 才 那 个 例子 ， 再 用 一 个 单独 出 来 的 以 太 网 专用 作 备份 数 据 流 的 
话 ， 这 样 到 底 叫 不 叫 LAN-EFree 了 呢 ? 如 果 说 ， LAN-EFree 中 的 LAN 仅 指 代 前 端 以 太 网 而 不 是 备 
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份 专用 以 太 网 的 话 ， 那 么 上 面 的 方法 就 是 LAN-free; 但 是 如 果 这 个 LAN 指 的 是 以 太 网 的 话 ， 那 
么 上 面 的 方法 依然 用 到 了 以 太 网 ， 就 不 是 LAN- Free。 到 底 是 不 是 呢 ? 乱 了 。 再 说 了 ，LAN 本 来 
的 意思 是 局 域 网 ， 即 本 地 网 络 ,不管 你 再 怎么 折腾 ， 只 要 还 在 本 地 备份 ， 那么 都 属于 LAN 之 内 ， 
就 不 是 所 谓 LAN-EFree。 彻 底 乱 了 。 所 以 说 ， 这 个 词根 本 不 应 该 存在 。 哪 个 词 更 能 表达 这 种 不 消 
耗 前 端 客户 端 网 络 的 备份 方式 呢 ? 鄙人 发 明 的 一 个 词 叫做 “Frontend-Free”。 

Frontend-Free: 前 端 网 络 Free， 即 不 管 你 怎么 折腾 ， 只 要 不 耗费 前 端 网 络 资源 ， 管 你 再 用 一 
台 以 太 网 交换 机 也 好 ， 或 者 直接 使 用 FC 网 络 来 存 取 备份 的 数据 也 好 ， 都 是 Frontend-EFree。 这 不 
就 解决 了 么 ? 

笔者 在 做 一 些 方案 或 者 写 一 些 文章 的 时 候 ， 都 会 时 刻 注意 这 些 词 的 应 用 ， 力 求 清晰 严谨 。 


91. RAID Stripe 问题 


我 的 疑惑 ， 比 如 3 个 盘 组 成 的 RAID， 条 带 64KB， 如 果 我 刚好 有 64KB x 3 的 数据 要 写 入 ， 那 
正好 一 次 搞 完 ， 是 这 样 吗 ? 

条 带 是 横 跨 3 个 盘 的 ，64KB x 3 的 话 ， 是 一 次 写 完 ， 控 制 器 对 每 个 盘 一 个 IO 就 能 写 完 这 些 

如 果 我 的 数据 只 有 64KB 呢 ， 写 还 是 不 写 ? 还 是 按 4 说 的 写 到 其 中 某 块 盘 的 1 个 条 带 中 ? 

看 来 你 没 理解 条 带 ， 你 说 了 条 带 =64KB， 你 要 写 64 KB， 那 么 当然 是 一 次 写 入 三 个 盘 了 。 这 
里 不 考虑 64 除 不 尽 的 问题 ， 最 好 弄 成 4 块 盘 来 举例 。 

如 果 再 小 点 ， 只 有 32KB 呢 ? 写 还 是 不 写 ? 怎么 写 ? 也 是 写 到 其 中 某 块 盘 的 1 个 条 带 中 吗 ? 
那 该 条 带 剩 下 的 空间 意味 着 浪费 了 是 吗 ? 

“ 某 块 盘 的 一 个 条 带 ”, 这 说 法 不 对 。 条 带 由 Segment 组 成 ,条 带 在 每 个 盘 上 占用 一 个 Segment。 
32KB 就 会 占用 两 个 盘 ( 共 4 盘 ) ， 控 制 器 对 每 个 盘 一 个 IO。 剩 下 怎么 浪费 了 ? 

我 一 直 也 有 这 样 的 疑虑 : 如 果 是 存储 的 话 ， 会 被 先 Cache， 然 后 凑 足 条 带 的 数据 再 写 入 ? 

Cache 当然 要 Cache 了 , 理想 情况 下 控制 器 尽量 整 条 写 , 也 就 是 组 合 合适 的 IO。 要 是 想 研 究 
这 些 底层 东西 的 话 ， 得 从 头 梳理 一 下 这 些 细节 概念 。 


92. 关于 IO 冲突 问题 


小 弟 有 一 个 疑问 ， 一 个 主机 系统 对 应 一 个 Array 还 是 一 个 Array 能 对 应 多 个 主机 系统 (只 要 
控制 好 Storage Partition)? 有 这 个 疑问 主要 出 于 I0PS 性 能 的 考虑 , 若 一 个 DS 4700 有 16 块 盘 ， 
车 我 建 两 个 Array (除了 hotspare ) ,每 个 Array 对 应 一 个 主机 系统 (不同 08 ) , 那么 每 个 Array 
中 的 磁盘 数 就 会 减少 ， 相 应 的 I0PS 就 会 降低 ; 若 我 只 建 一 个 Array， 将 这 个 Array 对 应 到 两 个 主 
机 系统 ， 那 么 IOPS 就 能 得 到 提升 。 但 我 不 知道 我 的 想法 是 否 可 行 ， 请 DX 们 指点 。 

最 好 是 两 个 RAID 组 ， 每 个 组 根据 需求 提供 相应 的 磁盘 数 。 同 一 个 RAID 组 提供 多 个 LUN 
给 多 个 主机 ， 存 在 争 用 冲突 ， 如 果实 在 必须 这 样 ， 建 议 将 Stipe Depth 调 到 最 大 以 最 大 程度 避免 
IO 冲突 。 


93. 关于 LUN 分 布 方式 的 问题 
我 这 里 有 个 DS4800, 只 连接 了 一 个 扩展 柜 。 共 16 个 磁盘 . 我 在 这 个 DS4800 划 了 两 个 RAID 5， 


967 


日 大 话 存储 【终极 版 】 一 一 存储 系统 底层 架构 原理 极限 剖析 


968 


每 个 Array 里 面 建立 一 个 LUN， 名 字 分 别 为 LUN1、LUN2， 将 这 两 个 LUN mapping 至 同一 台 主 机 ， 
磁盘 分 别 为 hdiskl1、hdisk2。 然后 Aix 里 面 在 hdiskl1、hdisk2 上 建立 一 个 LY, 这 个 LV 通过 LVM 
实现 条 带 化 。 这 样 就 实现 了 DS4800 的 纵横 向 条 带 化 。 我 划分 的 LV 是 供给 0LTP 数据 库 以 裸 设备 
形式 使 用 的 。 但 是 具体 这 两 个 层面 条 带 化 的 大 小 应 该 怎么 设置 才 合理 呢 ? 是 不 是 这 层面 的 两 个 条 
带 化 大 小 相同 效果 才 最 理想 ， 那 具体 设置 多 大 ? 请 高 手 们 指教 。 谢 谢 ! 

建议 做 成 累加 模式 而 不 是 Stirpe。 不 过 也 要 根据 实际 来 看 , 如 果 两 个 hdisk 的 负载 均 会 比较 高 ， 
而 且 并 发 性 比较 高 ， 那 不 推荐 再 次 做 Seipe。 如 果 你 非 要 做 的 话 ， 那 就 将 Stipe Depth 调 到 最 大 以 
提供 最 大 的 并 发 度 。 


94. 测试 的 伪 结 果 


怎么 判断 Total I/0s per Second 和 Total MBs per Second 读数 高 了 或 低 了 ， 分 别 又 是 由 
什么 原因 引起 的 ? 

读数 高 低 主 要 由 两 个 因素 决定 , 一 个 是 目标 存储 的 性 能 ， 性 能 高 的 当然 高 ， 低 的 当然 低 。 但 
是 还 有 一 个 最 容易 被 忽略 的 因素 ， 就 是 缓存 ， 包 括 IOmeter 所 处 的 主机 端 缓存 和 存储 端 缓存 ， 尤 
其 是 测试 顺序 读 的 时 候 更 容易 受到 缓存 的 影响 。 比 如 第 一 次 测试 ， 读 数 可 能 较 低 ， 但 是 第 二 次 测 
试 读数 显著 增高 ， 就 是 由 于 缓存 的 影响 。 

选择 1 个 worker 和 选择 多 个 worker 去 测 一 个 RAID 分 区 或 HDD 分 区 有 什么 不 同 ? 我 用 4 
核 CPU 选 一 个 worker，100%read 去 测 一 个 5400 转 的 HDD 时 ，Total MBs per Second 的 读数 会 
有 110 多， 比较 正常 。 但 当 我 加 到 3 个 或 4 个 worker 时 ， 读 数 就 只 有 50 左右 了 。 

不 知道 你 多 个 worker 测试 的 是 同一 块 物理 硬盘 的 不 同 分 区 ( 地 址 段 ) , 还 是 多 个 硬盘 。 对 于 
一 个 物理 硬盘 ， 或 者 一 个 物理 RAID 组 ， 主 机 端的 IO 个 数 最 好 为 1， 如 果 同 时 多 路 主机 端 IO， 
会 造成 物力 资源 争 用 ,导致 磁盘 不 停 寻 道 ,从 而 显著 降低 IOPS 和 带宽 吞吐 量 。 当 然 如 果 多 个 worker 
对 同一 段 地 址 进行 读 取 , 由 于 先 读 出 的 数据 在 缓存 中 , 后 来 的 worker 读 取 同 一 段 地 址 时 ,性 能 就 
会 大 大 提升 。 如 果 就 如 我 开始 说 的 ， 多 个 worker 对 不 同 分 区 或 者 地 址 段 进行 测试 , 那么 整体 性 能 
不 升 反 降 。 有 很 多 人 反映 过 类 似 问题 ， 我 也 都 回答 过 ， 在 一 些 论坛 ， 可 以 搜索 一 下 。 

如 果 同 时 选 4 个 worker 去 测 4 个 不 同 的 分 区 ， 这 种 做 法 有 问题 么 ? 

如 上 个 问题 一 样 ， 不 能 说 是 问题 ， 只 要 是 机 械 硬盘 存储 ， 都 会 这 样 。 

传输 数据 块 大 小 的 选择 对 测试 结果 会 有 什么 影响 ? 另外 为 什么 一 般 都 选 4KB、16KB、64KB, 、 
256KB、512KB、1MB 等 ， 而 不 是 3KB、5KB、20KB、100KB、200KB 等 ? 

这 里 数据 块 大 小 就 是 每 个 IO 的 Size- 从 你 的 问题 我 推断 你 还 没有 深刻 理解 IO 的 概念 和 属性 。 
在 《大 话 存储 》 中 我 用 了 尽 可 能 详尽 甚至 吧 嗪 的 篇 幅 来 讲述 IO， 如 果 你 还 没有 阅读 这 本 书 ， 请 尽 
快 阅读 。 这 里 我 还 是 再 重复 的 简要 描述 一 下 IO。IO 的 三 大 件 : 目标 /地 址 段 / 读 写 的 长 度 。 关 于 
IO Size 和 IOPS 的 关系 ， 请 同样 阅读 4 大 话 存储 》。 不 同 IO Size 和 IO 属性 ( 顺序 、 并 发 、 连 续 、 
随机 ) 对 结果 有 不 同 影响 , 同样， 阅读 人 4 大话 存 储 》。 为 何 IO Size 都 是 2 的 震 次 ， 因 为 计算 机 领 
域 普遍 习惯 用 2 的 寡 次 ， 而 且 每 磁盘 扇 区 一 般 都 是 512B， 为 了 扇 区 对 齐 。 每 个 IO 中 的 “ 读 写 长 
度 ” 都 是 扇 区 的 2 的 宕 次 倍 。 


附录 1 存储 系统 问 与 答 精华 集锦 @ 


95. RAID 级 别 问 题 


最 近 看 了 一 下 大 话 存储 RAID 级 别 ， 有 几 个 问题 不 明白 : (1) 就 RAID 5 , 条 带 大 小 为 128KB， 
如 果 写 入 的 文件 很 小 如 2KB， 那 存放 的 方式 和 占有 容量 是 怎么 确定 的 ? 剩余 条 带 怎么 处 理 ? (2) 
磁盘 在 格式 化 的 时 候 有 个 单元 分 配 大 小 ， 这 个 好 像 就 是 文件 存放 的 最 小 单位 ， 和 RAID 里 面 的 块 
有 什么 区 别 ? 

要 彻底 理解 这 个 问题 ， 我 建议 楼 主 在 文字 的 基础 上 勤 画 图 。 

首先 你 要 写 入 2KB 的 “文件 ”, 既然 牵扯 到 文件 ,就 要 牵扯 到 文件 系统 的 分 配 单元 ， 也 就 是 
你 第 二 个 问题 。RAID 向 操作 系统 提供 的 是 卷 ， 是 连续 的 扇 区 ( 或 者 叫 LBA ) 空间 地 址 ， 而 卷 向 
文件 系统 所 展示 的 是 分 区 ， 相 对 于 卷 ， 分 区 就 是 将 大 片 连续 地 址 再 次 切 开 。 

文件 系统 用 扇 区 组 成 所 谓 “ 簇 ”,， 或 者 叫 cluster， 或 者 叫 分 配 单元 ，FS 存放 数据 只 以 簇 为 单 
位 ， 而 不 会 出 现 “ 读 入 或 者 写 出 半 个 自 ” 这 种 IO 命令 。 而 卷 之 下 的 各 层 都 可 以 以 单个 扇 区 为 单 
位 了 ， 扇 区 是 存储 系统 最 小 的 IO 单位 。 

明白 了 底层 这 些 映射 关系 ， 就 可 以 着 手 研究 IO 行为 了 。 再 说 回来 ， 你 说 要 写 入 2KB 的 “ 文 
件 ”， 当 然 是 要 调用 文件 系统 进行 写 入 了 ， 如 果 文 件 系统 的 篮 大 小 被 设 定 为 KB， 则 文件 系统 会 
在 分 区 内 分 配 2KB 的 空间 来 存放 文件 实体 数据 ,也 就 是 4 个 扇 区 的 连续 地 址 。 此 外 , 还 需要 更 新 
inode ( unix ) 或 者 MFT 表 ( Win ) 等 所 谓 “ 元 数据 /MetaData”， 也 需要 占用 额外 的 空间 。 

值得 一 提 的 是 ,inode 或 者 MFT 对 应 某 个 文件 的 metaData 本 身 是 可 以 存放 一 定数 量 的 文件 实 
体 数据 的 ， 一 般 是 64B， 小 于 这 个 数值 ， 文 件 直接 存放 在 inode 中 ; 大 于 这 个 数据 ，inode 中 会 被 
加 入 二 级 和 三 级 扩充 映射 指针 指向 文件 实体 数据 被 存放 的 扇 区 地 址 用 于 寻 址 操作 。 再 来 看 看 
RAID 所 提供 的 角色 , 刚 说 了 RAID 提供 一 片 连续 扇 区 地 址 ,假如 文件 系统 选择 了 扇 区 1024 ~ 1027 
号 这 4 个 连续 的 扇 区 作为 这 个 2KB 文件 的 存放 空间 , 则 文件 系统 写 入 这 个 文件 的 时 候 , 卷 接收 到 
这 个 指令 之 后 , 会 将 这 段 扇 区 号 码 传送 给 RAID 驱动 , RAID 驱动 接受 之 后 会 将 号 码 传送 给 RAID 
芯片 进行 地 址 翻译 ( 硬 RAID 卡 ) 或 者 直接 在 驱动 层面 进行 地 址 翻译 ( 软 RAID 卡 ) 。 地 址 翻译 
这 里 的 意思 是 将 这 上段 连续 的 地 址 映射 到 实际 的 物理 硬盘 地 址 ， 因 为 RAID 提供 给 上 层 的 是 虚拟 磁 
盘 /LUN, 一 个 LUN 可 以 分 布 在 多 个 物理 硬盘 上 。 

地 址 翻译 的 过 程 一 定 要 查询 Stripe 也 就 是 条 带 映射 表 ， 当 初 你 怎么 分 的 ， 此 时 就 会 影响 翻译 
之 后 实际 的 硬盘 扇 区 地 址 。 再 回来 说 你 的 RAID 5 的 128KB 条 带 ，128KB 条 带 = 磁 盘 数量 乘 以 每 
个 磁盘 上 组 成 这 个 条 带 的 Segment 大 小 ， 也 就 是 说 一 个 条 带 把 排列 的 多 个 磁盘 横向 切 成 了 一 条 一 
条 的 ， 硬 盘 本 身 相当 于 竖 条 ， 而 横 条 和 竖 条 切 开 之 后 形成 的 小 格子 就 是 Segment， 也 叫 条 带 深度 ， 
Stripe Depth。 

比如 8 个 盘 的 RAID 5 系统 ， 其 中 一 块 用 于 存放 parity，128KB 条 带 除 以 8 等 于 16KB， 也 就 
是 说 Segment= 条 带 深度 =16KB= 每 个 磁盘 上 贡献 一 个 条 带 所 使 用 的 空间 。 再 回来 说 2KB 的 文件 写 
入 ， 这 个 情况 下 ， 地 址 翻译 会 将 2KB 的 地 址 翻译 为 “磁盘 m 上 的 n 到 磁盘 1 上 的 n+3 号 扇 区 ”， 
当然 也 可 能 是 “磁盘 x 上 的 y 到 磁盘 a 上 的 b”, 总 之 地 址 落 在 物理 硬盘 上 的 哪个 区 域 ， 如 条 带 
中 央 / 条 带 边缘 ， 单 个 物理 硬盘 /多 个 物理 硬盘 ， 文 件 系统 是 不 知道 的 ， 由 RAID 层面 决定 。 这 种 
不 知道 称 为 “ 盲 ”， 现 在 大 多 文件 系统 都 盲 ， 但 是 也 有 不 盲 或 者 半 讶 的。 

我 们 在 RAID 层面 来 设计 条 带 ，, 分 步 等 ， 实 际 上 都 是 盲 操作 ， 效 果 不 会 很 大 ,包括 RAID 5 
本 身 的 并 发 IO 特点, 也 是 盲 并 发 。 所 谓 并 发 , 拿 你 刚才 的 例子 ， 某 个 IO 需要 写 入 2KB 的 数据 ， 
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如 果 地 址 翻译 结果 为 这 4 个 扇 区 落 在 一 个 Segment 里 ， 则 这 个 IO 只 会 占用 一 个 数据 盘 ， 外 加 需 
要 占用 parity 区 域 。 如 果 此 时 还 有 一 个 IO 需要 写 入 2KB 数据 ， 而 这 次 的 4 个 扇 区 落 在 了 另 一块 
数据 盘 上 ， 而 它 需 要 的 parity 数据 恰好 与 前 一 个 IO 及 其 所 需要 的 parity 区 域 不 在 同一 个 盘 上 ， 则 
这 两 个 IO 可 以 并 行 操作 ，4 块 磁盘 同时 读 写 。 由 于 这 种 并 发 是 基于 “恰好 ”的 , 所 以 RAID 5 提 
供 的 是 讶 并发， 要 实现 不 讶 的 并 发 只 能 靠 上 层 文 件 系统 。 说 了 这 么 多 ,等 于 给 《大 话 存储 》 做 了 
一 个 注释 吧 。 楼 主要 是 想 彻底 把 这 些 基 础 知识 扎实 打 牢 靠 ， 请 阅读 《大话 存储 》。 


96. AIX 中 磁盘 的 Queue Depth 问题 


对 于 AIX 系统 ， 磁 盘 的 属性 里 有 一 项 是 Depth， 黑 认 值 是 10， 对 于 裸 设 备 应 用 ， 调 大 Depth 
性 能 会 有 所 提高 ， 请 问 Depth 是 什么 意思 ? 是 不 是 调 的 越 大 越 好 啊 。 

IO 队列 深度 ， 即 Queue Depth。 与 hdisk 底层 对 应 的 存储 所 提供 的 LUN 所 对 应 的 队列 深度 
对 应 起 来 即 可 。 


97. RAID 10 磁盘 数量 与 性 能 的 关系 


想 请 教 一 下 大 家 RAID 10 磁盘 数量 跟 性 能 的 关系 。 如 果 从 原理 上 分 析 , 是 磁盘 越 多 性 能 越 好 ， 
但 实际 是 这 样 么 ?RAID 10 最 多 能 做 多 少 块 盘 呢 ?经 验 值 一 般 都 是 多 少 呢 ? 

只 要 控制 器 允许 ， 盘 越 多 性 能 越 好 ,但 是 多 LUN 并 发 环境 下 ， 整 体 性 能 提升 有 限 ， 不 如 单 
LUN 环境 。 据 我 所 知 [BM DS4 新 固件 以 及 DS5 可 以 达到 30 盘 的 RAID 10。 


98. VMware ESX 是 如 何 使 用 SAN 存储 资源 的 ? 


本 人 对 VMware ESX 不 是 很 熟 ， 请 问 它 是 如 何 使 用 SAN 存储 资源 的 ? 

(1) 是 在 磁盘 阵列 上 分 配 一 个 大 尺寸 的 LUN 给 esx 服务 器 , 然后 通过 虚拟 磁盘 的 方式 再 分 给 
各 个 虚拟 机 ( vm) 吗 ? 

(2 ) 还 是 在 磁盘 阵列 上 配置 一 个 个 的 LUN， 再 直接 分 配给 每 一 个 虚拟 机 (vm) 呢 ? 

你 说 的 两 种 方式 都 支持 , 前 者 是 VMES 方式 , 后 者 Raw Disk Map 方式 。 前 者 在 一 个 LUN 上 
创建 多 个 vmdk 文件 给 多 个 虚拟 机 使 用 ， 后 者 一 个 LUN 只 能 给 一 个 虚拟 机 。 


99. 如 何 快速 备份 大 量 小 文件 ? 


某 个 项 目 中 遇 到 的 问题 : 几 十 个 TB 的 数据 ， 都 是 电子 文件 ， 大 部 分 大 小 在 几 百 KB 到 几 MB 
之 间 ， 一 经 写 入 ， 很 少 改动 。 目前 有 磁带 机 ， 一 盘 磁 带 大概 能 写 8006B~ 1.5 TB。 这 样 的 数据 ， 
怎么 设计 备份 机 制 比较 合适 ? 请 大 家 指点 。 

可 以 先 直接 采用 持续 复制 方式 镜像 到 外 部 存储 D2D 即 可 , Snapshot 等 在 镜像 中 来 做 。 大 量 小 
文件 备份 恢复 ， 这 种 d2d 持续 复制 方式 是 最 佳 的 。 或 者 直接 备份 整个 LUN 空间 也 是 可 以 的 。 


100. 如 何 理解 IO 惩罚 ? 


之 前 看 《大 话 存储 》， 有 些 疑 问 。 
(1) 我 理解 的 写 惩罚 ， 是 该 模式 下 某 些 情况 写 数 据 因为 校 验 盘 等 因素 导致 I0 次 数 相 比 正常 
增加 ， 不 知道 这 么 理解 对 不 对 ? 像 RAID 5 的 写 惩罚 高 ， 主 要 是 因为 针对 小 数据 的 写 操作 ? 
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(2 ) 据说 RAID 5 的 读 改 写 模式 效率 低 ， 是 因为 它 要 多 出 两 次 10， 一 次 是 读 出 校 验 盘 数据 ， 
一 次 是 写 回 校 验 盘 数据 ， 加 上 它 读 出 和 写 回 需要 改写 的 数据 ， 一 共 是 4 次 。 为 什么 校 验 盘 不 能 和 
数据 盘 一 同 读 出 和 写 入 呢 ? 它们 本 身 在 两 个 磁盘 ， 应 该 可 以 并 发 的 ? 

这 里 当然 是 可 以 并 发 IO 的 , 但 是 为 什么 你 非 要 将 这 两 个 并 发 的 IO 理解 为 “一 次 IO” 呢 ? 

我 的 意思 是 既然 可 以 同时 读 出 或 写 入 数据 盘 和 校 验 盘 ， 那 么 读 取 写 的 overhead 体现 在 那里 ? 

如 果 将 这 个 “同时 ”用 于 处 理 其 他 上 层 IO 请 求 ， 而 不 是 用 来 读 写 Parity 或 者 其 他 segment 
上 的 数据 呢 ? 


101. 如 何 分 布 LUN 的 问题 


讨论 下 ，HDS 的 存储 ， 现 在 给 数据 库 划 8GB 大 小 的 ly ， 是 单独 在 一 个 pv 上 划 lv, 性 能 好 ， 
还 是 在 多 个 pv 上 划 1v 的 性 能 好 ? (前 提 是 不 做 条 带 化 ) 

这 个 问题 的 大 方向 是 : 不 要 管 lym, 这 些 都 是 虚 的 , 也 不 要 管 存储 层 什么 这 个 ldev, 那个 vol， 
这 个 LUN 的 。 我 们 最 终 就 看 它 用 了 多 少 块 物 理 磁 盘 , 也 就 是 你 能 看 得 见 的 磁盘 。 划 了 几 个 RAID 
组 ， 你 的 应 用 是 否 是 多 进程 并 发 访问 同一 组 磁盘 ， 而 且 这 多 个 进程 又 不 相关 ， 比 如 就 是 两 个 完全 
独立 的 系统 ， 那 么 知道 了 这 一 点 ， 你 再 对 应 自己 的 需求 ， 一 组 磁盘 提供 的 性 能 是 恒定 的 ， 多 人 来 
抢 就 不 如 一 个 人 用 的 爽 ， 就 这 样 。 任何 问题 ， 不 管 哪个 层面 的 ， 用 这 个 方向 来 判断 ， 屡 试 不 爽 。 


102. 磁盘 内 部 传输 率 、 外 部 传输 率 、 传 输 带 宽 、 接 口 速度 之 间 的 关系 


在 本 书 第 3 章 说 道 磁 盘 的 内 部 传输 速率 、 外 部 传输 速率 、 传 输 带 宽 、 接 口 速 度 之 间 有 什么 关 
系 ? 另外 Ultra 320 SCSI 传输 速率 可 以 达到 320MB/s， 这 个 320MB/s 指 的 是 上 述 的 哪个 速度 ? 

内 部 是 最 大 理论 速率 ， 外 部 是 最 大 实际 理论 速率 ， 也 就 是 被 寻 道 打 断 之 后 的 速率 ， 接 口 速度 
是 出 口 速 度 ， 可 能 会 卡 住 外 部 速率 。 理 论 传输 带宽 = 接口 速度 。 实 际 传输 带宽 ， 瓶 颈 在 哪 就 等 于 
哪 。U320 指 接口 速度 。 


103. RAID 5 对 小 文件 的 性 能 提升 问题 


多 块 SSD 磁盘 做 RAID 0/5， 在 小 文件 方面 ， 对 性 能 提升 的 作用 是 正面 的 还 是 负面 的 ? 以 我 
的 理解 ，RAID 0/5 对 小 文件 的 性 能 提升 是 负面 作用 。 

多 块 SSD 做 RAID, 与 机 械 硬盘 RAID 无 二 致 。 提 高 并 发 ,不 管 什么 介质 ,都 有 益 。 不 知道 
为 何 理解 RAID 0/5 小 文件 的 负面 作用 。 

对 于 大 量 小 文件 ， 比 如 10KB 左右 的 。RAID 条 带 大 小 一 般 4、16、32、64、128 和 256KB， 
多 数 情况 下 64KB， 小 文件 基本 上 不 分 片 ，RAID 0 没有 优势 ，RAID 5 还 得 计算 校 验 值 。 因 此 ， 我 
觉得 还 不 如 单 块 SSD 性 能 好 。 不 知道 这 样 理解 对 不 对 ? 

谁 说 一 定 要 分 片 才 有 优势 的 ? 8 个 盘 RAID 0, 每 个 盘 服务 一 个 文件 IO， 并 发 8 个， 这 样 很 
好 。 有 时 候 分 片 反而 性 能 差 得 一 塌 糊 涂 。 另 外 , 用 SSD 做 RAID 别 老 想 着 分 片 ， 没 一 点 好 处 ， 
除非 是 大 块 连续 IO。 对 10KB 也 分 成 1KB 的 片 ? 不 怕 影 响 SSD 寿命 么 ? 分 片 以 后 ， 所 有 SSD 寿 
命 都 被 摧残 了 , 还 不 如 就 着 一 块 弄 。SSD 组 RAID 最 怕 就 是 因为 Parity 分 布 太平 均 而 造成 多 块 SSD 
在 短 时 间 内 全 坏 ， 所 以 针对 SSD 的 了 AID 需要 一 定 的 Parity 分 布 算法 ,不 能 太平 均 ,得 一 个 一 个 
坏 , 一 个 一 个 的 换 上 ， 换 上 新 盘 之 后 还 要 重新 分 布 Parity。 因 为 如 果 不 重 新 分 布 Parity， 新 盘 的 损 
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耗 可 能 会 追赶 上 其 他 盘 的 损耗 而 达到 同一 段 时 间 内 损坏 。 这 种 SSD 的 RAID 算法 目前 国内 高 校 有 
些 课题 在 弄 的 。 
RAID 内 部 ， 数 据 分 片 应 该 是 自动 的 ， 超 过 条 带 大 小 就 分 吧 。 还 是 说 ， 分 不 分 片 是 可 以 通过 
设置 来 控制 的 ? 
10KB， 可 以 明确 告诉 你 ,除了 RAID 3 之 外 任何 RAID 都 不 会 分 。 分 不 分 可 以 设置 Stripe 
Depth， 不 过 Stripe Detph 自身 也 有 限 ， 分 不 分 得 看 具体 情况 了 。 


104. 集群 NAS 与 并 行文 件 系统 的 区 别 


集群 NAS 与 并 行文 件 系统 的 区 别 是 什么 ?都 是 在 集群 方式 下 实现 的 ， 有 什么 不 同 呢 ? 
现在 集群 NAS 和 并 行文 件 系统 有 融合 的 趋势 。 包 括 Ibrix、Stomext、Panasas 等 ， 它 们 都 是 在 
并 行文 件 系统 之 上 提供 NAS 抽象 层 的 , 所 以 你 说 它 是 并 行 FS 也 可 以 , 说 它 是 集群 NAS, 也 可 以 。 


105. 快照 、 容 灾 如 何 保证 数据 一 致 性 的 问题 


存储 的 快照 、 复 制 技术 如 何 保障 数据 库 的 一 致 性 ? 据说 实测 时 ，0racle 不 一 定 能 0pen。 但 
又 有 很 多 容 灾 的 人 案例， 不知 用 的 什么 机 制 保障 数据 库 的 一 致 性 ? 

快照 如 果 需 要 保证 一 臻 性， 那么 第 一 层 可 以 在 FS 层 进行 Flush 之 后 做 快照 ， 这 样 可 以 保证 
FS 一 致 性 ,但 是 不 能 保证 应 用 程序 层 的 一 致 性 ， 要 做 到 后 者 ， 那 么 需要 在 应 用 层 进行 cleanup， 
然后 做 快照 。 实现 着 两 层 的 一 致 性 需要 在 主机 端 安装 一 个 Agent 来 与 FS 或 者 应 用 通信 协调 , 在 用 
户 决 定 执行 快照 时 ， 通 知 FS 或 者 APP 来 执行 Cleanup。Microsoft 提供 了 VSS 服务 ， 所 有 不 同 厂 
商 的 应 用 、 存 储 、Agent 都 可 以 基于 这 个 服务 平台 来 实现 APP 层面 的 一 致 性 。 至 于 容 灾 ， 容 灾 时 
只 要 保证 完全 同步 ， 那 么 就 不 会 有 问题 ， 但 是 代价 也 是 巨大 的 。 在 异步 时 ， 只 能 够 通过 一 致 性 组 
的 方式 来 保证 时 序 一 致 性 ， 但 是 却 不 能 保证 上 层 逻 辑 一 臻 性， 如果 连 时 序 一 致 性 都 无 法 保证 ， 那 
么 Open 成 功 的 几率 会 很 低 。 

保证 了 时 序 一 致 性 的 前 提 下 ， 能 不 能 Open， 也 要 看 造化 ， 能 Open， 则 通过 Replay 来 恢复 
一 致 性 但 是 却 丢失 了 数据 ， 如 果 还 不 能 Open， 那 么 只 能 是 恢复 到 容 灾 端 最 后 一 个 绝对 一 致 的 快 
照 了 。 


106. 网 络 IO 问题 


我 今天 再 次 测试 了 我 的 服务 器 ,发 现 了 一 个 现象 : 我 1. 5TB 硬盘 里 有 10 个 206B 的 图 纸 ， 首 
先 我 把 这 个 硬盘 连接 在 服务 器 上 ， 通 过 我 本 地 的 电脑 将 这 10 个 图 纸 中 的 两 个 同时 分 别 用 光驱 进 
行 刻录 。 当 只 开启 一 个 的 时 候 ， 束 度 正 常 ， 当 另 一 个 光驱 开始 刻录 的 时 候 ， 两 个 光驱 的 速度 立刻 
下 降 甚 至 到 了 0 速 的 状态 。 于 是 我 把 硬盘 从 服务 器 上 拿 了 下 来 ， 直 接连 接 到 我 自己 的 电脑 上 ， 再 
次 用 同样 的 方法 对 文件 进行 刻录 ， 这 个 时 候 效果 立刻 不 一 样 了 : 同时 刻录 的 两 个 光驱 都 可 以 按 正 
常 速度 进行 工作 ， 没 有 出 现 速 度 下 降 问 题 。 特 别 说 明 一 下 ， 我 与 服务 器 之 间 的 连接 是 通过 千 光 网 
卡 连接 ， 用 FTP 测试 过 速度 ， 基 本 上 都 在 80MB/s 左右 ， 所 以 应 该 网 络 不 是 瓶颈 。 请 大 家 帮忙 分 
析 下 问题 所 在 。 个 人 想法 ， 我 想 会 不 会 和 服务 器 上 的 主 版 或 者 服务 器 的 设置 有 关 呢 ? 我 用 的 是 
Win2003 数据 中 心 版 ， 没 有 进行 多 余 的 设置 ， 基 本 上 就 是 安装 好 后 给 目录 做 下 共享 ， 是 不 是 有 什 
么 需要 设置 或 者 遗漏 的 呢 ? 
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刻录 对 数据 流 波 动 是 很 敏感 的 ，1G 的 速率 不 能 和 本 地 总 线 以 及 硬盘 接口 速率 相 比 。 加 之 cif 
的 开销 很 大 ， 当 另 一 个 进程 也 连接 cifs 目录 打开 文件 时 会 产生 大 量 数据 包 ， 严 重 堵塞 网 络 ， 刻 录 
程序 感知 到 数据 的 这 个 波动 ， 当 然 就 降 速 了 。 用 SMB 2.0 协议 会 有 所 改善 。Windows Server 2008 
和 Vista/ 7 已 经 使 用 SMB 2.0 了 。 


107 . Lustre 与 PNFS 之 间 的 异同 


哪 位 高 人 能 讲解 一 下 lustre 和 pnfs 之 间 的 异同 ? 

lustre 和 pnfs 都 使 用 OSD 的 概念 。 传 统 nfv3 和 ci 做 不 到 并 行 集群 访问 的 要 求 。 所 以 nfs 4.1 
也 就 是 pnfs 意识 到 了 这 一 点 ， 将 架构 改 成 与 lustre 等 类 似 以 获得 并 行 访问 。 这 就 是 osd 与 传统 nas 
最 大 的 不 同 之 处 ， 类 似 的 还 有 PanFS 、Ibrix 的 FusionClient 等 。 

Lustre 是 一 个 并 行文 件 系统 的 名 字 ， 而 pNFS 则 是 用 于 并 行 访问 的 一 种 协议 。 一 个 是 文件 系 
统 ， 一 个 是 协议 。 


108. 阵列 之 间 的 远程 容 灾 复制 ， 其 底层 到 底 是 怎么 样 的 ? 


通用 做 法 以 及 点 出 几 个 我 所 知道 的 厂商 的 做 法 ， 供 参考 。 

(1 ) 远程 复制 可 以 通过 多 种 链 路 进行 ,如果 通过 芭 进行 ， 则 一 定 都 是 使 用 ILT 模式 的 ,也 就 
是 initiator-target-LUN。 但 是 有 一 种 除外 ， 下 面 会 讲 。 

(2 ) 本 地 阵列 是 否 会 直接 挂 远 程 阵列 的 LUN 上 来 比如 当做 /dev/sda 这 类 东西 来 做 ， 不 一 定 ， 
一 般 都 不 会 ,都 是 直接 与 IO 设备 驱动 层 交 互 直接 对 LUN 进行 操作 以 绕 过 块 设备 层 以 及 其 他 各 层 ， 
提高 效率 。 

(3 ) 推 和 拉 模 式 。 一 般 选择 拉 模式 ， 及 远程 主动 向 本 地 要 数据 ， 表 现 为 读 过 程 。 为 何 这 样 考 
虑 ， 是 因为 scsi write 过 程 交互 的 数据 帧 比 读 要 多 ， 浪 费 链 路 资源 。 

(4) 传输 方式 : 标准 scsi read/write cdb 模式 。 

(5 ) 控制 模式 : 将 控制 数据 封装 到 scsi cdb 中 传输 ， 对 端 提取 对 应 数据 进行 定 界 、 分 析 、 处 
理 从 而 控制 数据 传输 。 

(6 ) 如 果 通 过 IP 进行 ， 对 于 一 些 大 阵列 来 讲 一 般 做 法 是 将 fk 再 封装 到 IP， 比 如 弄 成 fip， 
加 feip 交换 机 之 类 。 另 外 一 种 则 是 使 用 私有 协议 接口 来 完成 镜像 操作 。 

(7 ) 使 用 私有 协议 完成 镜像 操作 ， 这 个 就 多 了 ， 很 多 基于 IP 复制 的 。 

(8 ) 厂商 举例 : emc、hds、ibm 这 类 使 用 tt 链 路 进行 镜像 的 ， 都 是 使 用 ITL 模式 。netapp 
使 用 亿 复 制 , 使 用 私有 接口 ， 先 将 待 传输 的 数据 块 进行 描述 、 封 装 ,传输 到 对 端 ， 对 端 提取 分 析 
之 后 发 起 拉 取 数据 的 操作 。 其 协议 并 不 是 scsi/iscsi， 私 有 协议 ，netapp 也 可 以 使 用 fk 链 路 复制 ， 
但 是 由 于 采用 私有 协议 ,人 并 不 提供 私有 协议 的 接口 支持 ,所 以 引入 了 FC virtual interface, 及 FCVI 
卡 。 这 种 卡 可 以 提供 FC 上 层 的 VI 接口， 从 而 方便 地 将 私有 协议 转换 成 VI 协议 。 其 他 也 有 厂商 
使 用 iscsi 进行 复制 的 ,与 复制 的 区 别 就 是 链 路 不 同 而 已 ， 就 不 列举 了 。 

(9 ) 至 于 阵列 可 以 做 initiator 模式 ， 当 然 可 以 ， 其 中 netapp 的 产品 可 以 对 所 有 口 的 模式 进行 
翻转 ， 翻 转 之 后 重启 即 可 。 这 一 点 做 的 很 方便 ， 希 望 国 内 厂商 借鉴 和 学 习 其 技术 。 
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109. 请 问 两 台 存 储 设备 可 以 像 交 换 机 路 由 器 一 样 做 热 备 么 ? 


我 记得 某 路 由 器 上 面 的 主 控 模 块 ， 是 叫 Supervisor Engine 吧 ， 是 可 以 插 两 个 来 做 热 备 的 。 存 
储 设备 一 般 都 配 有 双 控 制 器 ， 它 们 之 间 是 可 以 热 备 的 。 但 是 对 于 两 台独 立 的 存储 设备 ， 即 便 是 同 
一 厂商 型 号 的 设备 ( 每 台 设 备 都 有 两 个 控制 器 互 为 热 备 ) ， 它 们 之 间 也 不 能 做 热 备 ， 除 非 是 集群 
存储 系统 ， 多 台独 立 节点 之 间 是 可 以 热 备 的 。 如 果 你 非 要 让 它 热 备 起 来 ， 唯 一 办 法 是 通过 主机 端 
的 某 种 镜像 软件 ， 比 如 LVM， 软 RAID 1， 或 者 一 些 厂 商 提供 的 专门 在 主机 端 对 两 个 卷 进行 数据 
复制 (远程 或 者 本 地 ) 的 软件 ， 这 样 一 台 阵列 宕 掉 之 后 ， 相 当 于 主机 端 找 不 着 其 中 一 个 卷 了 ， 主 
机 会 切换 到 另 一 个 镜像 卷 继续 工作 ， 做 得 好 的 话 透明 度 很 高 ， 做 的 不 好 的 话 ， 也 得 等 比较 长 时 间 
切换 。 比 如 有 些 人 测试 过 LVM 的 镜像 ， 结 果 发 现 一 分 多 钟 没 切 换 过 来 的 情况 。 


110. 请 问 iSCSI 与 FCoE 究竟 谁 会 成 为 主流 ? 


这 个 问题 很 好 。 目 前 的 现状 是 ，iSCSI 硬 卡 只 有 Emulex 和 Broadcom ( 尚未 发 布 只 是 公开 ) 
的 CNA 卡 支持 ， 后 续 可 能 会 有 更 多 的 厂商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 软 iSCSI initiator 的 话 ， 
一 个 10G 口子 会 耗 掉 30% 左 右 甚至 更 高 的 CPU, 就 算 用 最 新 的 Intel CPU 也 是 这 样 ， 所 以 基本 上 
4 个 10G 口 就 会 耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情况 ，FCoE 同样 也 不 会 。 退 一 步 讲 ， 如 
果 10G 的 FCoE 与 硬 10G iSCSI 比 的 话 ， 卡 件 与 协议 本 身 来 讲 都 差不多 ， 成 本 也 差不多 ， 所 以 就 
要 看 外 围 辅 助 设备 的 成 本 ,一 台 FCoE 交换 机 目前 来 讲 还 是 远 贵 于 10G 以 太 交 换 机 ， 所 以 要 是 小 
规模 部 署 ， 甚 至 不 如 用 8G FC 交换 机 划算 。 其 次 是 看 看 场景 ，FCoE 更 适合 想 融 合 之 前 已 经 部 署 
的 FC 与 新 部 署 的 以 太 网 的 场景 ， 也 就 是 大 型 久 建 的 数据 中 心 ， 对 于 新 建 数据 中 心 ， 这 个 趋势 还 
不 明朗 ,笔者 之 前 和 Emulex 的 一 名 员工 交流 过 ， 他 的 意思 是 新 建 数据 中 心 他 们 推荐 使 用 iSCSI 
硬 卡 , 但 是 我 估计 这 种 说 法 是 含有 很 大 水 分 的 , 毕竟 Emulex 是 目前 仅 有 的 一 家 提供 硬 iSCSI 卡 成 
品 的 公司 ， 他 们 推荐 iSCSI 可 能 有 一 定 市 场 目 的 。 但 是 我 个 人 看 法 ，FCoE 目前 Qlogic、Brocade 
和 Emulex 都 有 产品 了 ， 为 何 10G 的 iSCSI 硬 卡 只 有 Emulex 一 家 产品 ， 证 明 FCoE 今后 可 能 会 有 
一 波 行情 。 FCoE 和 iSCSI， 谁 O 不 是 O? 区 别 就 是 一 个 是 FC， 一 个 是 TCPIP， 抛 开 以 太 网 ， 
单 看 FC 和 TCPIP， 前 者 高 效 但 是 扩展 性 差 ， 后 者 效率 稍 低 但 是 扩展 性 很 好 ， 其 实 这 已 经 与 以 太 
网 无 关 了 ， 还 是 最 后 到 底 是 认同 FC 还 是 认同 TCPIP 的 问题 。 我 的 看 法 是 ，FCoE 会 弄 出 一 波 行 
情 , 但 是 FC Fabric 这 个 协议 很 邪门 , 它 要 求 交换 机 也 要 参与 Fabric 的 建立 ， 而 且 交换 机 起 到 至 关 
重要 的 作用 , 这 增加 了 复杂 度 并 且 降 低 了 兼容 性 ; 而 iSCSI 却 不 要 求 交换 机 有 什么 上 层 协议 智能 。 
最 后 iSCSI 很 有 可 能 会 替代 FCoE。FCoE 与 iSCSI， 厂商 也 尚未 看 清 ， 谁 也 不 敢 冒 然 选 路 。 


111. 所 谓 计算 与 存储 合体 ， 其 产品 形态 是 什么 了 


冬瓜 头 ， 快 来 .. . 存储 和 计算 结合 之 后 ， 是 什么 样 的 产品 形态 啊 ? 计算 ， 存储 ， 都 很 牛 又 的 
机 器 ? JIM GRAY， 有 一 篇 论文 谈 到 ， 真 正成 本 最 高 的 地 方 在 网 络 . . .我 们 也 确实 可 以 感觉 到 ， 在 
同步 数据 ， 或 者 做 灾 备 的 时 候 ， 最 头疼 的 还 是 两 个 节点 之 间 的 通道 有 多 大 。 

这 种 统一 之 后 到 底 是 个 什么 机 器 ? 答案 是 不 是 单独 的 机 器 ， 就 是 一 群 机 器 ， 通 过 软件 模块 联 
系 起 来 ， 对 于 计算 机 来 讲 ， 硬 件 属 于 物质 本 源 ， 属 于 阴 ， 属 于 形 ; 软件 则 属于 精神 本 源 ， 属 于 阳 ， 
属于 神 。 用 软件 模块 将 计算 和 存储 颗粒 汇总 起 来 发 挥 作用 ， 并 且 将 原本 的 以 计算 为 中 心 的 计算 方 
法 变 为 以 存储 为 中 心 的 计算 方法 ， 把 计算 颗粒 分 配 到 存储 了 计算 所 需要 的 数据 的 节点 上 ， 在 哪 存 
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储 就 在 哪 计算 ， 大 幅 提高 效率 和 速度 ， 避 免 了 频繁 大 量 数据 传输 ， 这 也 回答 了 你 的 另外 一 个 问题 
“成 本 最 高 的 是 在 网 络 上 ”， 其 实 这 各 话 瞳 指 ， 数 据 移动 起 来 成 本 太 高 了 。 网 络 本 身 成 本 不 高 。 
但 是 如 果 要 容 灾 ， 依 然 可 以 使 用 这 个 思想 ， 即 在 哪 存储 就 在 哪 计算 ， 可 以 在 业务 层面 进行 双 份 ， 
而 不 是 数据 层面 ， 比 如 一 笔 交易 ， 可 以 在 业务 层面 将 其 同步 到 远 端 ， 远 端 针 对 这 笔 交易 生成 自己 
的 数据 然后 下 盘 。 一 个 实际 例子 是 ， 比 如 数据 库 日 志 同 步 方式 的 容 灾 ， 同 步 量 相 比 直接 底层 数据 
同步 来 的 少 很 多 。 

你 说 的 那 种 “计算 与 存储 都 很 牛 的 机 器 ”， 也 不 是 没有 ， 但 是 还 不 到 时 候 ， 到 了 量子 计算 和 
分 子 存储 时 代 ， 那 时 候 计 算 机 形态 又 会 轮回 到 初始 原点 状态 ， 单 台 机 器 ， 确 实 很 牛 ， 大 家 都 拿 高 
速 网 络 来 连接 到 这 台 超级 计算 机 上 获取 资源 。 


112. 大 量 小 文件 的 存储 场景 ， 有 什么 优化 办 法 ? 


其 实 很 简单 ， 可 以 参考 Google 的 GFS 以 及 变种 HDFS、 淘 宝 TFS 以 及 腾讯 Tencent FS 的 设 
计 。 这 些 都 是 处 理 大 量 小 文件 的 典范 。 大 家 知道 传统 的 文件 系统 下 ,每 个 文件 都 要 被 创建 对 应 的 
inode 之 类 元 数据 ， 但 是 在 海量 文件 场景 下 ,传统 FS 已 经 无 法 承载 如 此 多 的 元 数据 IO 量 以 及 如 
比 庞 大 的 元 数据 搜索 计算 量 了 ， 唯 一 的 做 法 就 是 降低 元 数据 量 ， 那 么 势必 就 要 降低 文件 实体 的 数 
量 ， 所 以 这 些 文件 系统 无 一 例外 的 都 是 用 了 这 样 一 种 变通 的 方法 ， 即 在 文件 中 再 创建 文件 ， 比 如 
一 个 64MB 的 大 文件 , 比如 其 中 可 以 包含 16384 个 4KB 的 小 文件 , 但 是 这 个 64MB 的 大 文件 只 占 
和 了 1 个 inode, 而 如 果 存 放 4KB 的 文件 的 话 , 就 需要 16384 个 inode 了 。 那么 如 何 寻 址 这 个 大 文 
件 中 的 小 文件 呢 ? 方法 就 是 利用 一 个 旁 路 数据 库 来 记录 每 个 小 文件 在 这 个 大 文件 中 的 起 始 位 置 和 
长 度 等 信息 , 也 就 是 说 将 传统 文件 系统 的 大 部 分 元 数据 剥离 了 开 来 , 拿 到 了 单独 的 数据 库 中 存放 ， 
这 样 通过 查询 外 部 数据 库 先 找到 小 文件 具体 对 应 在 哪个 大 文件 中 的 从 哪 开始 的 多 长 ， 然 后 直接 发 
起 对 这 个 大 文件 的 对 应 地 址 段 的 读 写 操作 即 可 。 另 外 还 可 以 创建 索引 以 加 速 文件 查找 动作 。 

在 一 个 海量 分 布 式 文件 系统 中 ， 元 数据 就 像 上 面 的 思想 一 样 是 分 级 的 ， 中 控 节 点 ， 也 就 是 
MDS， 存 储 一 级 元 数据 ， 也 就 是 大 文件 与 底层 块 的 对 应 关系 ， 而 数据 节点 则 存放 二 级 元 数据 ， 也 
就 是 最 终 的 用 户 文件 在 这 些 一 级 大 块 中 的 存储 位 置 对 应 关系 ， 经 过 两 级 寻 址 从 而 读 写 数据 。 其 实 
这 些 一 级 大 文件 ， 就 可 以 认为 它们 是 卷 了 ， 也 就 是 在 卷 管理 层 之 上 再 存放 文件 ， 这 样 就 降低 了 单 
一 空间 下 的 文件 总 数量 从 而 提高 性 能 。 


113. 能 否 列举 一 下 存储 系统 中 所 使 用 的 芯片 ? 


好 的 ， 知 无 不 言 ， 言 无 不 尽 ! 我 就 从 头 讲 起 吧 。 首 先 硬盘 上 的 芯片 就 不 说 了 ， 大 家 都 知道 ， 
Micro Controller、dsp 等 。 一 个 硬盘 扩展 柜 中 的 所 有 磁盘 都 被 连接 到 一 个 芯片 中 , 这 个 芯片 位 于 扩 
展柜 的 控制 板 中 ， 早 期 产品 用 PBC 芯片 ， 最 经 典 的 就 是 Lattice 的 7147。PBC 也 就 是 Port Bypass 
Circuit， 完 全 的 FCAL 环 逻 辑 ， 后 来 发 展 为 SBOD ，Switched Box of Disks， 其 实 就 是 芯片 变 了 ， 
也 就 是 底层 变 为 点 对 点 直达 物理 布线 ， 而 上 层 协 议 逻 辑 依然 还 是 FCAL， 只 不 过 仲裁 的 时 候 再 也 
不 用 手 拉手 传递 了 ,直接 由 控制 器 独裁 ， 指 哪 打 哪 ! 这 类 芯片 包括 PMC8738、LSI 等 , PMC 公司 
称 这 种 SBOD 芯片 为 Cut Through Switch ( CTS ) ， 有 些 方案 则 混用 PBC 和 CTS，CTS 接 磁 盘 ， 
扩展 柜 之 间 则 使 用 PBC 串联 ， 以 上 是 FC 方案 。SAS 方案 就 痛快 了 ， 全 是 SAS Expander，SAS 交 
换 芯片 ， 没 喻 好 说 的 ， 芯 片 之 间 采 用 4PHY 宽 端 口 一 般 。 另 外 扩展 柜 控 制 板 上 还 有 其 他 ASIC， 
比如 用 来 控制 整个 扩展 柜 的 中 控 芯 片 , 包括 SES( Scsi Enclosure Service ) 逻 辑 处 理 , 探测 各 路 Sensor 
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并 用 SES 上 报 , 再 就 是 ROM 和 RAM 芯片 了 , 一 般 中 控 ASIC 里 就 集成 了 ROM。RAM 则 一 般 
外 置 ,比如 128MB 单 片 。 控 制 板 上 还 有 PHY , 这 个 就 不 说 了 。 再 往 上 就 是 HBA 上 的 芯片 了 ,PHY， 
不 说 了 。 再 就 是 IOP (IO Processor ) 或 者 SOC ( System On Chip ) 等 ， 负 责 处 理 核心 协议 逻辑 ， 
比如 FCP、SAS 等 , 带 RAID 功能 的 卡 ， 这 些 IOC 或 者 SOC 就 更 复杂 了 。 再 往 上 ， 就 是 控制 器 
主板 上 的 特殊 芯片 了 ，CPU 等 不 说 了 。 往 往 一 些 厂商 为 了 体现 差异 化 ， 搞 一 块 ASIC 那 是 倍 有 面 
子 ! 比 如 3PAR 的 号 称 Thin Built-in 的 Gen3 ASIC, HDS 在 AMS2k 上 使 用 的 ASIC, IBM 的 DS5k 
(O 的 LSI 的 ) 上 所 用 的 ASIC，HDS 高 端 存储 中 的 ASIC。 无 非 就 是 加 速 数据 处 理 。 


114. 可 否 把 数据 库 中 数据 在 磁盘 的 分 布 讲 一 下 ? 


数据 库 方面 我 不 行 ， 只 能 讲 一 讲 肤浅 理解 。 

(1 ) 传统 关系 型 数据 库 。 两 种 方式 : 数据 库 自 己 管理 裸 磁盘 从 而 直接 存放 数据 文件 (比如 
Oracle 的 ASM ) ，Oracle 甚至 有 自己 的 OCFS 集群 文件 系统 ( 为 何不 叫 它 分 布 式 而 叫 集群 ? 因为 
它 底层 是 共享 存储 的 ) 用 来 支撑 其 RAC 集群 。 再 有 一 种 就 是 数据 库 利用 操作 系统 提供 的 文件 系 
统 ( 关 掉 缓 存 , 也 就 是 调用 时 采用 Direct IO 模式 , AIX 下 还 提供 一 种 CIO, 也 就 是 Concurrent IO 
模式 从 而 不 让 文件 系统 底层 对 文件 加 锁 ，DB 自己 有 锁 ) 来 存储 数据 文件 。 

(2 )Nosql 系统 ,比如 Cassandra 的 实体 数据 , 就 是 sstable、commit log 和 bloom filter 以 及 index file。 
这 些 文件 底层 一 般 就 是 Linux 下 的 EXT3 文件 系统 。 这 些 文件 都 是 连续 地 址 写 入 的 ， 避 免 随机 写 入 ， 
所 以 提高 了 性 能 。 谷 歌 的 Bigtable 底层 使 用 GFS 分 布 式 文件 系统 。 淘 宝 的 TEFS 在 1.0 版 本 时 使 用 EXT3 
结果 发 现 性 能 不 行 所 以 1.3 版 本 时 使 用 自己 研发 的 本 地 文件 系统 ， 猜 测 一 定 是 个 轻 量 级 的 ， 因 为 TFS 
层 已 经 考虑 很 多 格式 了 。Windows Azure 后 台数 据 库 则 使 用 普通 的 SQL Server 组 成 集群 切片 ， 各 个 节 
点 之 间 使 用 日 志 进行 同步 ， 保 证 了 分 布 式 事务 一 致 性 ， 其 底层 就 是 NTFS 文件 系统 了 。 

说 点 题 外 话 , Oracle RAC 这 种 方式 类 似 于 CPU 的 SMP; Nosql 分 布 式 集群 类 似 于 MPP。 对 
于 商用 存储 ， 像 各 种 集群 文件 系统 比如 Veritas Cluster Filesystem 、Stornext、 中 科 蓝 鲸 BWES 以 及 
基于 类 似 架 构 的 集群 FS 所 构建 的 集群 NAS， 就 类 似 于 SMP; 像 EMC 的 V-Max 存储 ， 则 类 似 
cc-NUMA( 数据 分 布 但 是 内 存 共享 ); IBM 的 XIV Inftortrend ESVA 、Dell P6000 等 多 数 Scale-Out 
的 存储 ， 则 类 似 MPP。 从 趋势 来 看 ，SMP->NUMA->MPP， 存 储 也 是 一 样 的 趋势 。 

至 于 数据 文件 中 的 亚 一 级 的 数据 分 布 ,我 仅 了 解 Oracle 是 用 extent 来 分 配 。 几 年 前 弄 过 DB2， 
可 惜 都 忘 了 。 所 以 这 方面 还 得 DBA 来 解答 。 


115. 为 何 灾 备 端的 IO 时 序 必须 保证 ? 


数据 容 灾 的 灾 备 端 为 什么 要 在 多 流 TCP 传输 时 保证 I0 时 序 , 你 指 的 是 同一 个 应 用 的 I0 写 入 
通过 TCP 后 变 成 乱 序 了 ? 问题 是 这 是 文件 系统 和 块 设备 驱动 保证 的 问题 呀 。 

如 果 把 一 批 数据 用 一 个 TCP 连接 发 送 到 对 方 , 是 不 会 乱 序 的 , TCP 不 会 对 数据 流 进行 定 界 ， 
但 是 绝对 不 会 乱 序 , 本 来 是 1234, 传 到 对 面 依然 是 1234, 对 方 只 需要 从 头 将 数据 流 解析 定 界 出 一 
个 个 IO 然后 刷 入 灾 备 端的 存储 介质 就 可 以 了 。 但 是 多 流 TCP 的 话 ， 一 批 数据 ， 并 行 切 分 由 多 个 
TCP 连接 发 过 去 ， 此 时 多 流 之 间 的 数据 就 乱 掉 了 。 

文件 系统 和 块 设备 驱动 不 会 保证 IO 的 时 序 性 ， 典 型 的 比如 Linux 下 的 io shceduler， 他 就 是 
可 以 乱 序 IO， 为 了 优化 ， 同样， 底层 磁盘 的 NCQ、TCQ， 也 是 乱 序 IO 的 。 解 决 乱 序 IO 是 ] 
层 应 用 需要 考虑 的 ， 比 如 绝对 不 会 在 发 起 写 请 求 而 没收 到 OS 内 核 返 回信 号 之 前 再 对 同一 个 地 坟 
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发 起 读 请 求 ， 因 为 会 造成 过 期 读 。 但 是 这 种 由 应 用 保障 的 方法 是 强 实时 性 有 状态 的 ， 而 对 于 灾 备 
端 来 讲 ， 它 的 应 用 程序 就 是 主 站 点 的 存储 系统 ， 而 主 站 点 存储 系统 是 无 法 感知 应 用 逻辑 的 ， 所 以 
灾 备 端 只 能 乖乖 的 按照 顺序 执行 ， 否 则 恢复 的 时 候 会 造成 严重 不 一 致 ， 可 能 导致 应 用 无 法 启动 ， 
甚至 连 卷 、 文 件 系统 都 无 法 被 Mount。 


116. 一 个 文件 系统 问题 


NTSF 文件 系统 对 数据 的 管理 是 基于 一 个 叫 MFT 的 主 文件 表 , 我 想 问 的 是 , 这 个 表 在 磁盘 的 什 
么 位 置 是 在 C 盘 么 ?如 果 我 分 了 4 个 区 , 那么 要 有 4 个 MFS 么 还 是 一 个 MFS 对 应 4 个 卷 ? 我 可 不 
可 以 把 文件 系统 认为 是 一 个 应 用 程序 ， 如 果 有 FAT32，NTFS 等 多 个 文件 系统 ， 那 么 开机 后 是 不 是 
这 几 个 应 用 程序 一 直 在 运行 ? 对 于 Windows 和 Linux 等 操作 系统 没有 虚拟 文件 系统 吧 , 之 前 我 发 
过 一 个 帖子 说 过 虚拟 文件 系统 ， 但 是 好 像 说 错 了 ， 只 有 分 布 式 文件 系统 才 有 虚拟 文件 系统 之 说 ， 
没有 分 布 式 文件 系统 的 应 用 就 没有 虚拟 文件 系统 之 说 。 

每 个 盘 的 固定 位 置 ， 有 一 个 根 入 口 ， 而 且 会 备份 多 份 ， 这 也 是 一 些 数据 恢复 工具 扫描 的 时 读 
取 的 ， 如 果 备份 的 mf 都 损坏 ， 那 么 扫描 工具 会 扫描 残缺 的 元 数据 tree 或 者 叫 链 也 行 ， 来 重组 数 
据 。 每 个 分 区 是 一 个 独立 的 文件 系统 。 可 以 认为 是 一 个 程序 ， 记 得 以 前 就 回答 过 ，ntf 和 fat32 可 
以 同时 存在 ， 处 于 os 的 内 核 区 ， 两 套 代 码 共同 运行 ， 你 挂 什 么 他 就 起 什么 代码 。Linux 下 的 目录 
表现 方式 , 一 切 皆 目录 和 文件 ， 就 是 vs， 这 也 就 所 谓 的 虚拟 文件 系统 ， 可 以 将 虚拟 文件 系统 理解 
为 目录 , 而 实际 文件 系统 理解 为 文件 - 块 映射 层 , vf 是 再 往 上 封装 的 一 层 。win 的 表现 方式 和 Linux 
有 些 不 同 ，win 是 以 分 区 为 入 口 ， 而 Linux 是 以 /为 入 口 ， 下 面 挂 的 可 以 是 任何 地 方 的 任何 文件 系 
统 ， 但 是 win 下 也 可 以 将 某 个 实际 文件 系统 挂 到 某 个 目录 下 ， 这 也 属于 vf。vf 与 是 否 分 布 式 没 
有 任何 关系 。 

那么 所 有 的 MFT 都 要 放 在 C 盘 里 面 么 ? 另外 对 于 某 个 分 区 格式 化 后 比如 D 盘 ， 建 立 的 位 图 、 
索引 等 各 种 表 都 在 C 盘 里 或 者 MFT 里 ， 具 体 D 盘 里 面 其 实 什么 都 没有 是 么 ? 

每 个 分 区 都 有 一 套 完整 的 元 数据 ，C 和 D 是 独立 的 。 分 区 表 用 来 区 分 C 和 了 的 地 址 空间 ， 
这 两 个 空间 上 的 FS 是 完全 独立 的 元 数据 , 但 是 OS 内 的 文件 系统 代码 是 一 套 , 挂 起 多 个 分 区 上 的 
文件 系统 。 


117. 关于 LUN 与 文件 


NetApp 除了 做 NAS 以 外 ， 还 有 SAN 存储 ， 但 是 好 像 其 实现 方式 是 在 NAS 的 基础 上 模拟 出 来 
的 SAN。 不 知道 谁 清楚 这 个 ， 能 否 给 简单 讲 讲 。 另 外 ， 有 些 存 储 产品 在 底层 使 用 了 五 花 人 入 门 的 技 
术 ， 比 如 一 些 LUN 的 技术 ， 我 总 有 个 疑问 ， 这 些 LUN 技术 好 像 是 在 某 种 文件 系统 之 上 做 的 ， 否 则 
不 可 能 有 那么 大 的 伸缩 性 和 灵活 性 ， 明 白人 请 讲 讲 ! 

NetApp 就 是 把 文件 当成 LUN。 而 且 他 的 Volume 也 是 一 个 文件 。 所 以 了 , 不 知道 VNXe 底 
层 是 怎么 搞 的 ， 据 NetApp 说 底层 也 是 个 文件 ,但 是 EMC 不 承认 ， 还 专门 出 了 官方 FAQ。 

对 文件 系统 又 有 点 新 认识 , 文件 系统 不 仅 是 组 织 数据 的 规则 ,而且 是 一 种 权利 。 只 有 文件 系 
统 才 能 有 组 织 的 调动 数据 , 现在 想 想 有 的 LUN 功能 可 以 智能 的 让 数据 分 层 这 里 确实 有 值得 怀疑 的 
地 方 ， 也 就 是 说 底层 数据 越权 造反 了 1! 

其 实 迄 今 为 止 最 灵活 的 底层 数据 空间 管理 技术 就 是 文件 系统 。 其 实 文件 和 块 本 身 的 意义 是 相 
同 的 ， 两 者 都 是 将 大 空间 再 次 分 割 为 上 层 容 易 理 解 的 ， 灵 活 的 小 空间 。 所 以 说 ， 当 LUN 从 树 上 
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下 来 开始 直立 行走 的 时 候 ， 才 发 现 其 实 文件 系统 早 就 变 成 人 了 。 
118. 磁盘 阵列 中 包含 哪些 协议 控制 器 


请 问 磁盘 阵列 控制 器 里 面 是 否 内 置 了 SCSI ATA 控制 器 ? 我 想 磁盘 阵列 控制 器 里 面 内 置 RAID 
控制 器 、FC 适配器 、iSCSI 适配器、SCSI 控制 器 、ATA 控制 器 。 控制 器 和 Enclosuer 里 面 的 磁盘 
之 间 是 通过 FC-AL 架构 连接 的 ，FC 只 是 网 络 传输 协议 ，FC 包 的 有 效 载荷 部 分 都 是 SCSI 指令 和 数 
据 请 问 是 这 样 吗 ? 

其 他 都 没 问题 。 但 是 ATA 控制 器 的 说 法 不 对 , 一 般 没 有 ATA 控制 器 , 也 没有 SATA 控制 器 。 
SATA 盘 一 般 是 通过 SAS 转 接 板 或 者 FC-SATA 转 接 板 连 到 扩展 柜 的 。SATA 转 SAS 的 话 ，SAS 
控制 器 会 原生 支持 SATA 协议 。 而 用 FC-SATA 转 接 板 的 方案 的 话 ， 控 制 器 不 变 ， 扩 展柜 中 使 用 
FC 转 SATA 的 协议 转换 芯片 。 


附录 2 
IP 硬盘 一 一 玩 玩 还 是 来 真 的 ? 


很 久之 前 ,我 记得 大 概 是 在 2005 年 ， 听 说 过 国外 一 
家 初创 公司 做 了 一 种 以 太 网 口 的 硬盘 , 当然 硬盘 本 身 不 是 
他 们 做 的 , 他 们 只 是 在 硬盘 上 加 上 一 个 转 接 板 , 专业 说 法 
叫做 Dongle， 实 现 基 于 以 太 网 的 SCSI 协议 传输 ， 至 于 协 
议 是 否 使 用 的 就 是 iSCSI 无 从 而 知 ， 对 其 具体 细节 也 很 不 
了 解 

当时 存储 技术 在 国内 还 没有 怎么 得 到 重视 , 所 以 感觉 
这 种 东西 非常 新 鲜 ， 竟 然 可 以 这 么 玩 ! 当 然 ， 这 东西 终究 
没 成 气候 ， 和 逐渐 淡出 了 业界 。 那 时 候 ，ATAoE 、SCSIoE 
这 种 类 似 协议 也 一 直 有 人 在 做 ， 其 目的 就 是 抛弃 TCP/IP 
这 种 厚重 的 传输 协议 而 转 为 一 种 轻 量 级 的 适 配 到 以 太 网 
的 协议 。 但 是 目前 来 看 ， 这 类 协议 最 终 也 没 得 到 推广 。 
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固态 存储 一 一 崛起 ! 


9 年 过 去 了 ,这 9 年 里 发 生 了 很 多 事情 。 首 先 ， 企 业 级 存储 系统 在 国内 得 到 了 铺天盖地 的 应 
用 ， 从 一 开始 曲 高 和 寡 到 现在 的 遍地 开花 ， 各 厂商 的 企业 级 存储 系统 产品 在 这 期 间 至 少 经历 了 4 
次 升级 换代 ， 高 端 产品 则 经 历 了 两 次 。 

其 次 , 在 业务 层面 ， 主 机 虚拟 化 的 崛起 、 基 于 虚拟 化 之 上 的 云 计算 架构 的 崛起 ， 互 联网 后 端 
架构 的 变迁 ,海量 存储 和 大 数据 分 析 挖 气 系 统 的 广泛 应 用 ， 这 三 大 变革 性 事件 对 很 多 存储 技术 、 
产品 、 厂 商 及 生态 产生 了 重大 影响 。 

再 次 ， 底 层 技 术 不 断 革新 ， 固 态 存储 技术 崛起 ，2012 年 应 该 算是 SSD 元 年 。 业 务 和 底层 技 
术 的 变革 ， 驱 动 着 企业 级 存储 做 出 一 轮 又 一 轮 的 变化 , 一 开始 是 内 部 架构 的 变化 ,比如 Scale-Up 
到 Scale-Out， 然 后 就 是 访问 协议 的 变化 ， 除 了 块 和 文件 ， 对 象 接口 越 来 越 被 广泛 使 用 ， 再 就 是 
数据 管理 上 的 变化 ， 企 业 级 存储 其 实 对 固态 存储 介质 是 爱 恨 交织 ， 明 知道 这 小 东西 一 定 会 颠覆 自 
己 苦 心 建立 的 基于 机 械 盘 的 生态 系统 ， 但 又 不 能 不 迎合 潮流 ， 出 现 了 各 种 数据 分 层 分 级 方案 和 技 
术 ， 以 及 所 谓 全 辐 态 存储 系统 。 

如 果 说 在 这 9 年 里 的 前 4 年 ， 企 业 级 存储 算是 慢 慢 悠悠 地 自我 欣赏 式 发 展 ， 那 么 后 5 年 基本 
是 在 小 步 快 跑 了 。 一 下 子 爆 发 的 众多 变化 ， 都 发 生 在 后 5 年 里 ， 企 业 级 存储 显得 应 接 不 眼 、 不 知 
所 措 。 云 计算 、 大 数据 、 固 态 存储 、 开 源 、 软 件 定义 等 各 方 于 划 ， 使 得 商用 企业 存储 好 像 找 不 到 
出 路 ， 各 个 厂商 绞 尽 脑汁 规划 下 一 代 产品 到 底 应 该 是 个 什么 样子 ， 以 及 整体 战略 需要 怎么 调整 。 

就 在 两 年 前 ， 国 内 某 存储 厂商 为 应 对 海量 低 成 本 存储 场景 ,设计 了 一 套 与 2005 年 国外 那个 
厂商 类 似 的 方案 ,也 就 是 在 每 块 磁盘 驱动 器 上 前 置 一 个 Dongle, 基于 ARM 处 理 器 ,这 个 Dongle 
相当 于 一 个 Mini Storage Controller， 功 能 方面 ， 其 在 硬件 层 后 端 通过 集成 的 SAS/SATA 控制 器 访 
问 并 管理 这 块 盘 , 前 端 则 通过 以 太 网 口 来 传输 封装 之 后 的 访问 协议 (比如 Object 对 象 访问 协议 ) ， 
核心 软件 层 是 一 个 精简 的 Linux 内 核 , 包含 SAS/SATA Host 驱动 、 以 太 网 设备 驱动 、 块 设备 驱动 、 
卷 管理 层 、 对 象 /文件 管理 层 、 对 象 访问 协议 、TCP/IP 协议 层 以 及 管理 监控 Agent 等 。 也 就 是 说 ， 
将 一 块 传统 的 以 Block 形式 访问 的 磁盘 通过 加 一 个 转 接 板 ， 变 为 了 一 块 以 对 象 Object 形式 访问 的 
磁盘 ， 如 果 向 其 软件 层 加 入 更 多 协议 ， 那 么 还 可 以 变 为 iSCSI Target、NFS/CIFS Export， 当 然 实 
际 上 一 切 都 受 限 于 ARM 的 性 能 。 每 块 对 象 盘 连接 到 以 太 网 上 ， 再 通过 一 个 或 者 多 个 匈 余 /AA 的 
总 控 服务 器 来 管理 这 些 磁盘 ， 并 通过 这 个 总 控 服 务 器 集群 向 外 提供 空间 和 服务 。 


IP 硬盘 一 一 玩 玩 ? 


也 就 在 最 近 ， 希捷 与 这 家 存储 厂商 联合 推出 了 被 命名 为 Kinetic 的 硬盘 ， 宣 称 其 直接 提供 对 
象 访问 接口 ， 并 向 应 用 提供 API 以 进行 数据 访问 和 监控 管理 。 这 个 产品 相当 于 把 之 前 的 转 接 板 去 
掉 ， 把 核心 软件 直接 运行 在 硬盘 背面 的 控制 芯片 里 。 处 理 芯片 的 一 般 架 构 是 一 个 或 者 多 个 
ARM/MIPS core 与 一 堆 外 围 电 路 (比如 XOR、ECC/CRC、 加 密 、 压 缩 、PHY 等 ) 组 成 ， 而 
ARM/MIPS Core 平时 不 参与 数据 的 传输 ， 只 是 控制 数据 的 传输 ， 否 则 会 由 于 过 多 的 内 存 拷贝 而 
性 能 根本 达 不 到 要 求 ， 所 以 一 般 来 讲 一 款 处 理 芯片 中 的 通用 CPU 模块 ， 绝 大 多 数 时 间 负 载 并 不 
高 ， 这 也 就 为 在 处 理 芯片 中 集成 更 多 的 软件 功能 提供 了 技术 空间 。 

但 是 别 指望 这 种 低 功 耗 CPU 能 胜任 事务 级 在 线 处 理 ， 跑 跑 一 般 的 数据 收发 、 简 单 的 协议 处 
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理 还 是 可 以 的 ; 也 别 指望 其 能 胜任 高 IOPS 的 场景 ,每 一 个 IO 处 理 耗费 的 CPU 资源 是 不 容 小 靓 
的 ， 包括 中 断 、 协 议 处 理 、 内 存 拷 贝 等 在 内 的 流程 对 CPU 耗费 很 大 。 但 是 低 负 载 、 以 带宽 吞吐 
量 大 块 连续 IO 为 主 的 场景 下 ， 这 类 处 理 器 能 够 很 好 地 胜任 ， 尤 其 是 在 只 带 一 块 磁盘 的 情况 下 ， 
那 就 更 是 小 菜 一 碟 了 。 所 以 这 种 产品 的 基因 决定 了 它 的 应 用 场景 ， 也 就 是 比如 冷 数据 存储 场景 或 
者 备份 等 海量 低 成 本 存储 场景 。 

综 上 , 我 们 暂且 简称 这 种 硬盘 为 “PP 硬盘 ”或 者 “对 象 硬盘 ”。 其 与 传统 的 存储 架构 本 质 区 
别 在 于 ， 传 统 存储 控制 器 属于 集中 式 控 制 器 ， 用 一 台 或 者 多 台 集中 式 的 高 性 能 控制 器 ， 通 过 
SAS/SATA 适配器 接 入 数量 有 限 的 磁盘 ， 最 小 的 比如 Raid 卡 ， 比 如 Adaptec by PMC 最 新 的 产品 
可 直 连 24 盘 或 者 通过 扩展 柜 连 接 256 盘 ， 最 大 的 比如 高 端 商用 企业 存储 ， 可 以 管理 多 达 3000 多 
块 盘 ， 前 端 终结 了 SAS 协议 ， 转 为 使 用 FC 或 者 iSCSI、NAS 或 者 对 象 等 协议 ， 通 过 集中 的 、 单 
一 的 访问 点 来 访问 所 有 磁盘 经 过 虚拟 之 后 的 空间 。 而 Kinetic 的 架构 则 属于 分 布 式微 型 控制 器 , 有 
多 少 磁盘 就 有 多 少 个 访问 点 。 

说 到 这 里 我 们 就 要 仔细 地 去 分 析 一 下 ， 这 种 新 架构 带 来 的 优点 和 挑战 在 哪里 。 考 庸 置疑 ， 其 
优点 是 支持 大 规模 并 行 访问 ， 因 为 访问 点 是 分 布 式 的 ， 有 多 少 磁盘 就 有 多 少 访问 点 ， 那 么 应 用 或 
者 客户 端 程序 可 以 直接 并 行 地 访问 所 有 连接 到 以 太 网 上 的 磁盘 ， 体 系 效率 较 高 。 当 然 ， 其 代价 就 
是 访问 节点 的 管理 上 ， 需 要 被 软件 定义 。 对 于 集中 式 的 磁盘 控制 器 ， 对 磁盘 的 管理 ， 比 如 监控 、 
容错 、 性 能 优化 、 空 间 管理 等 ， 都 由 集中 控制 负责 ， 上 层 不 需要 关心 ， 而 新 架构 下 ， 直 接 暴露 了 
底层 的 磁盘 ， 那 么 这 些 逻 辑 就 需要 被 挪 到 上 层 软件 层 中 去 执行 ， 也 就 是 所 谓 软件 定义 ， 那 就 需要 
用 户 具 有 一 定 的 技术 开发 能 力 去 驾驭 这 个 新 架构 ,或 者 由 厂商 做 这 一 层 的 开发 ， 但 是 相对 于 在 外 
部 设备 里 开发 这 一 层 来 讲 ， 在 用 户 的 OS 里 做 这 个 管理 层 ， 其 主要 难度 在 于 兼容 性 ， 用 户 的 OS 
干 变 万 化 、 环 境 干 变 万 化 ， 兼 容 性 很 难保 证 。 所 以 这 类 产品 应 用 到 互联 网 后 端的 可 能 性 较 大 , 一 
般 企 业 会 吃不消 对 其 日 常 维护 的 开销 。 

那么 再 看 一 下 互联 网 企业 ， 假 设 如 果 依 然 利 用 现 有 架构 ， 比 如 1U 通用 服务 器 ， 加 一 个 
SAS/SATA Raid/HBA 适配器 ， 接 入 12/16/24 盘 ， 然 后 在 服务 器 上 进行 空间 管理 、 协 议 转换 ， 底 
层 Raid 控制 器 实现 数据 的 小 范围 元 余 容错 及 性 能 优化 ,在 所 有 服务 器 上 运行 分 布 式 文件 系统 来 执 
行 数据 的 大 范围 容错 和 均衡 ， 这 样 做 的 好 处 是 对 上 层 来 讲 复杂 度 降低 。 同 样 是 1U 服务 器 ， 如 果 
访问 Kinetic 架构 ，SAS/SATA Raid/HBA 就 不 需要 了 ， 直 接 通 过 以 太 网 ， 那 么 原本 由 SAS Raid 
卡 做 的 工作 ， 就 需要 用 软件 去 做 ， 需 要 用 户 自 己 或 者 厂商 开发 一 层 逻 辑 ， 而 且 这 层 逻 辑 要 么 是 分 
布 式 部 署 的， 要 么 是 非 对 称 集中 式 部 署 在 一 个 带 外 控制 管理 节点 上 的 ， 这 种 做 法 基本 上 就 是 将 磁 
盘 进 行 非 对 称 的 外 集群 化 , 供 上 层 的 服务 器 集群 访问 。 如 果 使 用 1GB 以 太 网 连接 每 块 磁盘 ,其 带 
宽 相 对 目前 主流 的 6GB SAS/SATA 来 讲 会 降低 ， 时 延 也 会 增加 。 

结论 ,不管 是 对 于 互联 网 企业 还 是 传统 企业 ， 一 个 集中 控制 设备 或 者 软件 层 都 是 需要 的 。 
Kinetic 架构 的 优势 在 于 ， 降 低 了 访问 粒度 ， 提 升 了 大 范围 内 的 访问 并 行 度 ; 其 劣势 在 于 ， 性 能 域 
扩大 , 管理 域 也 随 之 扩大 ,故障 域 也 随 之 增 大 , 传统 1GB 以 太 网 带宽 和 响应 速度 有 限 ,对 于 冷 数 
据 这 类 场景 ， 传 统 架构 在 性 能 、 成 本 、 管 理 上 是 否 已 经 真 的 无 法 满足 需求 ? 是 否 有 必要 去 这 样 折 
腾 ， 还 是 个 需要 考虑 的 问题 。 
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附录 3 
新 技术 将 如 何 影 响 数 据 中 心 存储 系统 


自 雇 为 一 个 可 以 见证 中 国 存储 发 展 的 存储 界 老 混 子 
不 得 不 承认 , 存储 的 发 展 真 的 是 太 快 了 , 以 至 于 很 多 技术 
还 没 大 展 宏图 , 就 发 现 眼前 的 这 片 森林 已 经 今 非 昔 比 。 我 
想 这 也 是 当前 很 多 存储 厂商 、 集 成 商 所 面临 的 困惑 之 一 

有 很 多 人 曾经 和 我 讨论 过 诸如 “我 们 下 - 步 到 底 该 做 
什么 ”的 话题 。 有 些 厂商 做 法 很 简单 ,一 线 品牌 厂商 做 什 
么 , 就 跟着 做 什么 , 这 样 最 保险 , 但 是 没有 一 定 实力 的 厂 
商 也 玩 不 起 。 对 于 二 三 线 厂 商 , 事态 尤为 严重 。 换 在 几 年 
前 , 我 想 很 多 厂商 上 日 标 都 比较 明确 。 但 是 ， 近 几 年 新 技术 
和 新 概念 爆发 式 的 产生 , 而 存储 领域 的 产品 集成 开发 周期 
又 相对 较 长 , 这 是 导致 目前 众多 厂商 迷茫 的 原因 之 一 。 等 
你 的 产品 出 来 了 , 却 发 现 走 错 了 路 ,或 者 窗口 期 已 经 过 去 。 

本 文 试 图 对 当前 多 个 存储 子 层 里 的 多 项 技术 做 简要 
分 析 来 获知 它们 对 传统 体系 的 影响 。 
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1. 存储 介质 一 一 闪存 和 SMR 磁盘 


机 械 磁 盘 作 为 在 线 主 存储 介质 的 角色 ， 可 以 说 几 十 年 来 没 变 过 , 是 各 种 存储 技术 里 最 稳定 的 
一 个 了 。 然 而 内 存 的 出 现 ， 将 要 改变 的 不 仅 是 存储 介质 ， 更 将 会 改变 整个 存储 生态 链 。 

闪存 作为 新 一 代 存储 介质 相对 于 机 械 磁盘 的 优点 不 必 多 说 ,一 个 更 加 值得 思考 的 问题 是 ， 
于 内 存 并 不 像 机 械 盘 一 样 需要 高 精 尖 的 技术 ， 其 入 门 门槛 较 低 ， 尤 其 是 闪存 控制 器 的 设计 生产 ， 
目前 可 以 说 是 遍地 开花 ， 国 内 已 经 有 多 家 自主 产权 的 闪存 控制 器 及 外 围 产 品 。 

希捷 和 西数 这 两 家 机 械 磁 盘 的 巨头 如 今 也 开始 居安思危 了 ， 一 方面 积极 研究 和 融入 闪存 技 
术 ， 另 一 方面 也 在 积极 朝 着 产业 链 下 游 发 展 ， 从 希捷 收购 Xyratex 的 动作 就 能 略 感 一 二 。 在 未 发 
生 颠 覆 性 变革 之 前 ， 产 业 链 上 游 是 既 安全 又 稳妥 的 地 方 ， 但 是 当即 将 发 生 颠 履 性 变革 的 时 候 ， 整 
个 产业 链 都 会 受到 影响 ， 此 时 便 会 出 现 群魔乱舞 的 壮观 景象 。 比 如 与 云 计算 看 似 无 关 的 希捷 ， 联 
合 下 游 厂 商 推出 适用 于 云 计算 大 数据 的 新 型 磁盘 Kinetic， 同 样 ，Intel 也 在 积极 参与 云 计算 大 数据 
领域 。 包 括 一 向 低调 的 PMC-Sierra 也 在 收购 了 板 卡 厂商 Adaptec 之 后 又 收购 了 闪存 和 PCIE 控制 
咒 厂 商 IDT 并 开始 厚积薄发 。 

闪存 对 传统 的 下 游 存储 厂商 的 影响 也 将 会 是 巨大 的 。 

首先 , 基于 机 械 磁 盘 介 质 所 积累 的 成 熟 的 传统 架构 基础 面临 崩塌 , 包括 硬件 设计 (比如 尺寸、 
散热 、 承 重 和 空间 布局 等 ), 也 包括 软件 设计 ( 比如 数据 布局 、IO 性 能 优化 和 故障 预测 及 恢复 等 ) 。 
这 也 是 为 何 仅仅 把 传统 存储 系统 中 的 机 械 盘 替换 为 SSD 之 后 却 发 现 根本 无 法 发 挥 出 SSD 性 能 的 原 
因 ( 当然 制约 SSD 性 能 发 挥 的 本 质 因素 还 有 一 个 ， 会 在 下 一 节 讨论 ) 。 

其 次 , 传统 存储 高 大 上 的 形象 也 会 被 内存 彻 底 摧毁 , 原本 松 耦 合 的 各 种 大 部 件 搭配 起 来 的 “ 巨 
型 机 器 人 ”将 变 得 非常 小 巧 。 最 极端 的 情况 甚至 可 以 直接 用 一 块 PCIE Flash 卡 蔡 代 ， 连 影子 都 消 
失 在 了 服务 器 机 箱 外 面 。 磁 盘存 储 将 退 居 二 线 ， 成 为 真正 的 备份 用 二 线 存储 ， 使 用 步骤 或 许 会 是 
“开机 一 备份 一 关机 ”。 磁 盘存 储 将 会 成 为 下 一 代 人 限 里 彻底 的 淘汰 产品 ， 就 像 卡带 机 一 样 。 

再 次 , 拖累 传统 磁盘 存储 的 另 一 个 包 补 , 就 是 那些 华而不实 的 软件 功能 , 包括 自动 精简 配置 、 
重 删 、 快 照 、 分 层 / 缓 存 和 复制 等 。 这些 软 件 功能 除了 其 中 几 个 较为 常用 之 外 , 其 他 可 以 说 是 鸡肋 ， 
但 为 了 商务 竞争 又 不 能 没有 ， 陷 入 恶性 循环 。 上 述 软件 功能 中 的 每 一 项 ， 毫 不 客气 的 说 ， 都 是 影 
响 性 能 的 。 分 层 和 缓存 实际 上 是 增加 了 相对 性 能 ， 而 降低 了 绝对 性 能 。 除 了 快照 、 分 层 和 远程 复 
制 之 外 ， 其 他 软件 功能 多 数 时 候 都 不 为 人 所 用 。 

用 户 似乎 越 来 越 追 求 傻 快 的 存储 。 这 一 点 在 面 对 “ 软 件 定义 ”概念 时 更 有 说 服 力 了 , 硬 的 更 硬 ， 
软 的 更 钦 ， 这 更 进一步 拉 低 了 存储 系统 的 门槛 。 抛 开 了 这 些 包 容 ， 利 用 闪存 ， 越 来 越 多 的 全 闪存 存 
储 厂 商 出 现 了 ， 而 这 些 全 闪存 存储 为 何 基本 都 没有 出 自传 统一 线 存储 厂商 ， 原 因 显 而 易 见 了 。 

磁 存储 领域 的 一 项 新 技术 是 SMR ( 一 瓦 式 磁 记 录 ) 技术 ， 这 项 技术 提升 了 存储 密度 ， 却 不 
能 保证 随机 写 的 性 能 ， 这 一 点 从 原理 上 讲 更 类 似 于 固态 介质 的 Page 与 Block 之 间 的 尴 众 。 希 捷 等 
磁 存储 厂商 也 正在 研究 是 否 要 在 SMR 磁盘 内 实现 类 似 Flash 的 管理 方式 。SMR 磁盘 面向 一 写 多 
读 场 景 ， 适 用 于 大 数据 、 备 份 等 特定 领域 。 下 一 步 还 有 热 辅助 磁 记 录 技 术 ， 但 是 迟 迟 未 能 商用 。 
看 来 磁 存储 在 性 能 瓶颈 之 后 ， 可 商用 的 容量 瓶颈 也 即将 到 达 。 磁 存储 淡出 舞台 是 大 势 所 趋 。 
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附录 3 ”新 技术 将 如 何 影响 数据 中 心 存储 系统 @ 


2. 底层 框架 一 一 芯片 、 底 软 和 通道 
闪存 的 出 现 , 会 影响 生态 链 上 的 所 有 事物 ， 这 其 中 也 包括 了 最 底层 的 芯片 、 底 层 软 件 和 数据 通 


道 。 
芯片 


芯片 要 有 足够 强 的 处 理 能 力 来 承载 起 闪存 强悍 的 IOPS 性 能 , 包括 Flash 控制 芯片 、 外 围 协 议 
控制 芯片 (SAS、FC 、 以 太 网 ) 以 及 主机 CPU。 

芯片 的 提速 手段 有 三 种 ， 第 一 是 提高 内 部 数据 带宽 ， 增 加 通道 数量 和 带宽 ， 第 二 是 提升 器 件 
频率 ， 第 三 是 将 各 个 子 器 件 进行 拆 分 ， 增 加 并 行 度 ， 在 相同 电路 周期 内 可 并 发 执行 更 多 的 指令 。 
然而 ， 没 有 免费 的 午餐 ， 上 述 任何 一 个 动作 ， 要 么 会 增加 芯片 的 功 耗 ， 要 么 会 增加 面积 ， 这 些 都 
是 粹 端 。 

目前 一 线 厂商 PMC 的 主流 存储 控制 芯片 实际 功 耗 都 控制 在 15W 上 下 ， 即 便 是 最 新 的 SAS 
12GB 主 控 芯片 ， 由 于 制造 工艺 的 提升 ， 功 耗 反 而 比 6GB 产品 有 所 降低 。 到 目前 为 止 ， 主 流 存储 
芯片 都 是 基于 MIPS 核心 + 外 围 加 速 电 路 , MIPS 是 被 公认 的 RISC 通用 处 理 器 领域 最 经 典 的 代表 ， 
然而 ARM 的 猛攻 也 渗透 到 了 存储 芯片 领域 , 在 低 端 市 场 占据 了 席位 , 包括 4 端口 SATA 控制 器 、 
低 端 SoC 等 等 ，ARM 和 MIPS 也 会 在 存储 芯片 领域 持久 对 峙 下 去 。Intel 则 由 于 功 耗 问题 ， 颇 有 
绑 死 x86 平台 走 到 底 的 趋势 ,移动 终端 失策 , 卖 掉 电视 部 门 , 靠 Atom 在 大 型 数据 中 心 领 域 与 ARM 
抗衡 ， 不 知道 格局 能 维持 多 久 。 


底层 软件 


底层 软件 方面 也 是 制约 存储 性 能 提升 的 一 大 屏障 。 拿 Linux 为 例 , Block 层 、SCSI 中 间 层 这 两 
大 制约 IO 性 能 发 挥 的 重量 级 软件 层 ， 在 机 械 盘 时 代 发 挥 了 重要 作用 ， 然 而 在 闪存 时 代 ， 其 变 成 
了 严重 拖累 性 能 的 罪 购 祸首 。 繁 匈 的 扫描 机 制 ， 低 效 的 互 斥 队 列 和 捉襟见肘 的 队列 数量 ， 陈 旧 不 
堪 的 SCSI 协议 , 这 些 对 闪存 来 讲 都 是 头疼 的 事情 ,目前 闪存 产品 不 得 不 选择 越过 SCSI 层 而 直接 
注册 到 Block 层 , 然而 却 丢失 了 SCSI 层 提供 的 兼容 性 优势 ， 导 致 各 家 在 Block 下 层 的 协议 实现 不 
统一 ,增加 了 开发 成 本 和 管理 开销 。 而 业界 关于 这 方面 的 两 大 协议 阵营 一 一 NVMe 以 及 SCSIe 也 
在 际 忽 不 定 ， 导致 厂商 不 得 不 两 手 准备 ,痛苦 不 堪 。 目 前 似乎 VNMe 更 胜 一 筹 , 这 也 是 存储 底层 
部 件 巨头 PMC-Sierra 收购 IDT 的 原因 之 一 ，IDT 的 Flash 控制 器 是 业界 第 一 家 完整 支持 NVMe 
的 成 品 控制 器 ， 目 前 已 经 在 多 家 固态 存储 产品 中 被 应 用 。 


协议 接口 方面 ， 基 于 SCSI 体系 衍生 而 来 的 势力 有 三 股 ,一 个 是 FC， 另 一 个 是 SAS, 还 有 一 
个 是 iSCSI 纯 软件 方案 。 然 而 NVMe 与 SCSI 从 头 到 脚 都 是 两 套 完全 不 同 的 协议 ， 虽 然 它们 的 目 
的 是 一 样 的 ， 就 是 把 数据 从 介质 里 传 到 内 存 里 ， 但 是 NVMe 除了 相对 SCSI 协议 做 了 很 多 精简 之 
外 ， 还 在 数据 结构 方面 做 了 很 多 优化 ， 充 分 发 挥 底层 介质 的 并 发 访问 性 能 。Linux 开源 社区 最 近 
也 在 研究 如 何 优化 SCSI 层 的 问题 ， 看 来 SCSI 是 去 是 留 已 经 是 个 问题 了 。FC 通道 前 端 目前 正在 
逐渐 被 万 兆 以 太 网 每 食 ， 而 后 端 则 在 几 年 前 就 已 经 被 SAS 全 盘 端 掉 。 

SAS 之 所 以 没有 端 掉 FC 前 端 有 两 个 原因 : 其 一 是 因为 FC 前 端 体系 并 非 只 存在 于 存储 设备 
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内 部 ， 而 还 涉及 到 交换 机 ， 其 存量 市 场 并 不 是 仅仅 通过 替代 掉 存 储 设备 的 前 端 通道 卡 就 可 以 占领 
的 ; 其 二 ，SAS 在 光 传 输 方面 略 显 迟 钝 ， 究 其 原因 在 于 SAS 光 协 议 对 于 链 路 协商 方面 的 一 项 技术 
实现 争议 了 良久 ， 直 到 很 晚 才 确定 。 

FC 也 必 将 淡出 舞台 。 然 而 ， 其 接替 者 并 非 只 有 以 太 网 或 者 SAS。 还 有 另外 一 项 更 为 前 瞻 的 
通道 技术 ， 那 就 是 PCIE。 目 前 我 们 所 熟知 的 以 太 网 、FC、SAS、Infiniband 等 通道 协议 , 在 主机 
层面 无 一 不 通过 PCIE 接 入 系统 IO 总 线 。 之 前 的 “ 远 距 离 ”传输 概念 ， 正 在 变 得 模糊 ， 多 “ 远 ” 
算是 “ 远 "， 如 果 PCIE 能 够 “ 远 ” 到 一 定 距离 ， 还 要 以 太 网 作 甚 ? 这 个 问题 问 得 好 ， 但 是 PCIE 
并 不 是 万 能 的 ，PCIE 目前 缺失 很 多 交换 网 络 特性 ， 毕 况 之 前 一 直 是 在 系统 总 线 领域 ， 出 了 总 线 ， 
就 得 长 距离 交换 和 路 由 ， 这 方面 就 得 靠 以 太 网 和 TCP/IP 了 。 然 而 ， 同 样 的 理论 ， 在 目前 和 将 来 
的 数据 中 心 领 域 可 不 见得 能 套用 。 目 前 的 数据 中 心 有 苗 头 正在 朝 着 紧 耦 合 方向 发 展 ， 也 就 是 之 前 
一 个 机 架 内 的 服务 器 之 间 是 松 耦 合 的， 现在 要 变 得 以 机 架 为 单位 ， 机 哥 内 部 紧 耦 合 ， 机 架 外 部 松 
耦合 ,此 时 PCIE 就 有 用 武之 地 了 , 机 架 内 部 完全 基于 PCIE 矩阵 。 针 对 这 个 前 沿 方向 ， 目 前 Intel 
以 及 PMC-Sierra 都 有 研究 并 且 有 了 DEMO。 当 然 , 对 SAS 和 SATA 的 兼容 一 定 是 要 考虑 的 ， 

SFF8639 接口 标准 其 实 是 一 个 三 模式 ( Tri-mode ) 的 接口 , 把 SATA、SAS 和 PCIE 打包 到 一 起 ， 
后 端 则 根据 前 端 接 入 设备 类 型 路 由 到 SAS Expander/Controller 或 者 PCIE Switch 上 去 。 目 前 看 来 这 
个 接口 已 成 定局 。 


3. 数据 结构 一 一 RAID 2.0、ErasureCode、 分 布 式 及 开源 


RAID 2.0 


硬件 平台 之 上 的 软件 ， 也 在 风起云涌 地 变化 着 。 传 统 存储 领域 可 炒作 的 概念 已 经 没有 了 ， 
然而 创新 又 迟 迟 未 见 。RAID 2.0 被 几 家 厂商 在 炒作 , 但 终归 也 是 RaidEE 技术 的 升级 版 。 另 外 ， 
RAID 2.0 与 现在 多 数 技术 一 样 ， 只 是 提升 了 相对 性 能 ， 而 没有 提升 绝对 性 能 ， 也 就 是 当 磁盘 达 
到 一 定数 量 的 时 候 ， 这 项 技术 才 会 显示 出 优势 ， 但 是 依然 赶不上 相等 数量 的 磁盘 在 传统 模式 下 
的 绝对 性 能 。RAID 2.0 对 数据 的 处 理 , 已 经 不 亚 于 一 个 文件 系统 了 ， 过 多 的 数据 碎片 影响 了 绝 
对 性 能 ， 但 是 大 量 的 磁盘 堆砌 又 可 以 掩盖 这 一 事实 。 其 所 获得 的 唯一 一 个 绝对 好 处 是 重 构 时 间 
的 大 幅 降低 ， 然 而 却 牺牲 了 平时 的 绝对 性 能 。 


ErasureCode 


ErasureCode 技术 也 不 是 什么 新 鲜 事 。RAID 6 以 及 RAID DP 技术 很 早 就 出 现 了 ， 那 时 候 人 
们 已 经 发 明了 可 以 容忍 更 多 磁盘 同时 损坏 的 技术 ， 只 不 过 受 限 于 随机 写 性 能 而 没有 将 其 商用 。 但 
是 时 过 境 迁 , 大 数据 时 代 读 多 写 少 , 再 加 上 数据 量 大 , RAID DP ( Double Parity )、RAID TP( Triple 
Parity ) 甚至 允许 更 多 磁盘 同时 损坏 的 算法 ， 就 又 冒 出 头 来 了 。 


分 布 式 


Scale-Out 是 传统 存储 领域 对 “分 布 式 ”的 一 个 包装 词 , 然而 传统 存储 理解 的 分 布 式 和 互联 
网 及 开源 领域 所 认识 的 分 布 式 骨 子 里 还 是 不 同 的 。 传 统 存储 厂商 的 分 布 式 不 是 廉价 的 分 布 式 ， 
它们 的 分 布 式 完全 是 为 了 解决 Scale-Up 模式 的 天 花 板 ; 而 互联 网 和 开源 的 分 布 式 骨子里 为 的 就 


附录 3 ”新 技术 将 如 何 影响 数据 中 心 存储 系统 @ 


是 廉价 。 表 现形 态 也 不 同 , 前 者 虽然 实质 上 也 是 x86 服务 器 + 分 布 式 软件 管理 层 , 但 是 依然 略 显 
高 大 上 。 
开源 


开源 的 风潮 体现 在 最 近 的 一 个 新 概念 里 ， 那 就 是 所 谓 “ 软 件 定义 ”了 。 软 件 定义 让 二 三 线 三 
商 出 师 有 名 ， 直 接 挑战 传统 一 线 大 厂 的 权威 地 位 ， 这 一 点 从 近期 一 些 二 三 线 厂商 直截了当 的 露骨 
演讲 即 可 知道 ， 矛 头 直 指 一 线 华 断 大 厂 ， 似 乎 在 当头 棒 喝 “ 凭 什么 你 们 就 是 高 大 上 ”。 


4. 用 户 体验 一 一 接口 、 访 问 方式 及 展现 


在 对 存储 的 访问 接口 方面 ， 新 的 访问 接口 近 几 年 在 互联 网 的 带动 下 也 发 生 了 爆发 式 增长 。 传 
统领 域 一 直 在 鼓 次 所 谓 “ 统 一 存储 "， 鼓 吹 了 近 十 多 年 ， 早 就 炒 烂 了 。 对 象 、key-value、 文 件 、 
块 是 目前 来 讲 主流 的 4 种 访问 形式 , 其 中 文件 又 包含 多 种 子 类 型 (比如 NFS、CIFS 以 及 各 种 分 布 
式 文件 系统 访问 协议 )， 块 又 分 为 FC、SAS、iSCSI。 不管 访问 形式 如 何 ， 它 们 本 质 都 是 一 样 的 ， 
都 是 对 一 串 字 节 的 请 求 和 回复 ， 只 不 过 这 串 字 节 在 不 同 应 用 场景 下 的 归 类 不 同 罢 了 。 
在 用 户 体验 方面 , 传统 存储 做 得 较 差 。 但 是 随 着 互联 网 风潮 来 袭 , 重视 用 户 体验 、 应 用 感知 、 
QoSs 等 更 加 接近 用 户 层面 的 功能 越 来 越 受 到 重视 。 
提示 : 笔者 之 前 所 设计 的 存储 软件 套件 SmartX Insight 就 是 从 用 户 体验 方面 来 人 手 ， 增 强 
存储 系统 在 整个 系统 内 的 “存在 感 ”， 改 变 传统 存储 一 副 道 貌 岸 然 的 样子 。 我 想 这 样 更 
有 利于 黏 住 用户 ， 从 而 扩大 及 延长 存储 系统 的 生存 空间 和 时 间 


5. 闪存 与 数据 中 心 一 一 SATA/PCIE 及 应 用 场景 


目前 来 看 , 数据 中 心 对 Flash 的 渴求 主要 集中 在 几 个 固定 的 应 用 场景 , 前 端 来 讲 , 比如 CDN， 
ISP 的 带宽 是 非常 贵 的 ， 必 须 充分 利用 ， 所 以 硬盘 必须 不 是 瓶颈 。 后 端 则 是 各 级 缓存 场景 ， 包 括 
各 类 分 布 式 数据 库 系统 、 分 布 式 文件 系统 的 前 端 基 本 上 都 是 放 了 一 级 或 者 两 级 甚至 更 多 级 的 缓存 ， 
RAM 毕竟 还 是 很 贵 的 ， 而 且 容量 有 限 ， 主 要 用 于 第 一 级 缓存 直接 应 对 前 端的 压力 ，Flash 则 可 趁 
机 占领 一 部 分 后 置 缓存 空间 。 

数据 中 心 对 SATA 接口 SSD 的 应 用 占据 了 总 体形 态 的 大 概 90%， 剩 下 的 10% 主 要 是 PCIE 接 
口 的 Flash， 前 者 基本 被 Intel 独占 ， 后 者 则 是 花 开 几 打 ， 其 中 也 不 乏 国 内 厂商 。 

PCIE Flash 是 大 势 所 趋 ， 尤 其 是 支持 NVMe 标准 的 设备 。 但 是 目前 的 形态 却 不 被 看 好 ， 别 看 
当下 多 人 在 此 领域 角逐 。 当 前 形态 存在 的 问题 是 维护 困难 、 版 型 太 大 ， 这 些 均 不 符合 数据 中 心 对 
硬件 资源 的 要 求 ( 一 个 是 维护 方便 , 另 一 个 是 资源 性 能 和 容量 粒度 要 尽 可 能 低 , 以 便于 灵活 拼 搭 )。 
而 基于 SFF8639 接口 标准 的 设备 相信 马上 就 会 遍地 开花 。 


综 上 所 述 ， 各 种 新 技术 对 存储 系统 的 方方面面 产生 了 很 大 影响 ， 如 今 IT 界 概念 频 出 , 五 彩 
缤纷 ， 众 多 的 存储 厂商 唯 有 分 析 历史 ， 分 析 当 前 ， 才 能 看 清 未 来 。 
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后 记 


石灰 吟 


千 锤 万 昔 出 深山 ， 
烈火 焚烧 若 等 闲 。 
粉 身 碎 骨 浑 不 怕 ， 
要 留 清白 在 人 间 ! 

一 一 于 谍 


各 位 朋友 ， 非 常 感谢 您 能 看 完 此 书 。 如 果 您 对 这 本 书 有 何 建 议和 意见 。 可 以 发 送 邮件 到 
122567712@qq.com， 我 当 感谢 ! 

另外 ， 还 可 以 到 本 人 博客 留言 或 者 邮件 讨论 本 书 相关 的 内 容 。 

最 后 ， 实 在 想不到 拿 什么 送 给 各 位 以 表 谢 意 ， 就 送 各 位 一 首 诗 ， 也 送 给 我 自己 。 


书 湖 它 中 


闭关 数 载 修 此 书 ， 
练 得 秘籍 南江 湖 。 
七 星 降 龙 独孤 掌 ， 
多 少 豪 杰 醉 其 中 1! 
书 中 角色 最 后 归宿 : 
七 星 大 侠 : 开 天 鼻 祖 ， 光 芒 永 照 。 


张 真人 : 百年 求 道 ， 一 生 和 孜孜 不 倦 、 德 高 望 重 、 悬 壶 济世 、 葛 射 尽 阅 、 死 而 后 已 。 
微软 老道 : 承蒙 张 真人 赏识 ， 不 负 众望 ， 成 为 武林 盟主 。 

无 忌 : 革命 之 后 ， 到 处 求 仙 访 道 ， 不 知 其 踪 。 

老 T: 把 持 武林 交通 系统 ， 依 然 向 最 后 一 块 阵地 不 断 进攻 。 

FC 大 侠 : 把 持 着 那 最 后 一 片 领土 ， 与 老 工 对 峙 到 底 。 


冬瓜 头 


